联通研究院《Spark计算框架应用与实践》测试题

感谢您能抽出几分钟时间来参加本次答题，现在我们就马上开始吧！

姓名

____________

单位部门

____________

手机号码

____________

一、单选题（每题4分，共80分）

以下哪一个不是Spark的组件？

A. Spark Core

B. Hive

C. Spark SQL

D. Spark Streaming

大数据研究的核心问题是？

A. 数据的存储

B. 数据的计算

C. 以上都是

搭建一个数据仓库可能需要使用哪些技术？

A. Oracle

B. MySQL

C. Hadoop

D. 以上都是

启动HDFS的命令是？

A. Start-dfs.sh

B. Start-all.sh

C. Start-yarn.sh

D. Start.sh

Spark 的四大组件下面哪个不是_____

A.Spark Streaming

B. Spark Core

C Spark SQL

D.Spark R

Spark Core的核心数据模型是________

A.DataFrame

B.Array

C.RDD

D.DStream

Spark SQL的核心数据模型是________

A.DataFrame

B.Array

C.RDD

D.DStream

Spark Stream的核心数据模型是________

A.DataFrame

B.Array

C.RDD

D.DStream

Spark SQL默认支持分析语句是________

A.SQL

B.DSL

C.Java

D.Scala

park SQL默认的数据源是________

A.CSV

B.Parquet

C.JSON

D.TXT

下面哪个端口是Spark Web服务的端口（）

A.8080

B.4040

C.8090

D.18080

下面哪个不是 RDD 的特点 ( ）

A. 可分区

B 可序列化

C 可修改

D 可持久化

Spark 支持的分布式部署方式中哪个是错误的 ( )

A standalone

B spark on mesos

C spark on YARN

D Spark on local

下面哪个操作是宽依赖 ( )

A groupByKey

B filter

C map

D union

下面哪个操作肯定是窄依赖 ( )

A map

B group

C reduceByKey

D groupBykey

下面哪个操作肯定是窄依赖 ( )

A.join

B filter

C group

D reduce

生产上Spark HA应使用哪种模式？ ( )

A.ZooKeeper

B. FileSystem

C NONE

D hadoop

列哪个不是 RDD 的缓存方法 ( )

A persist()

B Cache()

C Memory()

DataFrame 和 RDD 最大的区别 ( )

A.科学统计支持

B.多了 schema

C.存储方式不一样

D.外部数据源支持

Spark体系架构的组成的部分不包括：

A:Master

B:Worker

C:ZooKeeper

D:Driver

二、判断题（每题4分，共20分）

由于Spark和Flink是基于内存进行计算，所以数据不会发生落地的情况。

对

错

Spark与Flink类似，在执行流式计算的时候都支持状态的管理。

对

错

在设置Spark任务的并行度时，一般不超过该节点CPU的核数。

对

错

Spark和Flink都支持流式计算，并且都是真正的流式处理引擎。

对

错

Spark是一种分布式计算引擎。

对

错

30题 | 被引用1次

模板修改

使用此模板创建