联通研究院《Spark计算框架应用与实践》测试题

感谢您能抽出几分钟时间来参加本次答题,现在我们就马上开始吧!
姓名
    ____________
单位部门
    ____________
手机号码
    ____________
一、单选题(每题4分,共80分)
以下哪一个不是Spark的组件?
A. Spark Core
B. Hive​
C. Spark SQL​
D. Spark Streaming
大数据研究的核心问题是?
A. 数据的存储
B. 数据的计算
C. 以上都是
搭建一个数据仓库可能需要使用哪些技术?
A. Oracle​
B. MySQL
C. Hadoop
D. 以上都是
启动HDFS的命令是?
A. Start-dfs.sh
B. Start-all.sh
C. Start-yarn.sh
D. Start.sh
Spark 的四大组件下面哪个不是_____
A.Spark Streaming
B. Spark Core
C Spark SQL
D.Spark R
Spark Core的核心数据模型是________
A.​DataFrame
B.​Array
C.​RDD
D.​DStream
Spark SQL的核心数据模型是________
A.​DataFrame
B.​Array
C.​RDD
D.​DStream
 Spark Stream的核心数据模型是________
A.​DataFrame
B.​Array
C.​RDD
D.​DStream
Spark SQL默认支持分析语句是________
A.​SQL
B.​DSL
C.​Java
D.​Scala
park SQL默认的数据源是________
A.​CSV
B.​Parquet
C.​JSON
D.​TXT
下面哪个端口是Spark Web服务的端口( )
A.8080
B.4040
C.8090
D.18080
下面哪个不是 RDD 的特点 ( )
A. 可分区
B 可序列化
C 可修改
D 可持久化
Spark 支持的分布式部署方式中哪个是错误的 ( )
A standalone
B spark on mesos
C spark on YARN
D Spark on local
下面哪个操作是宽依赖 ( )
A groupByKey
B filter
C map
D union
下面哪个操作肯定是窄依赖 ( )
A map
B group
C reduceByKey
D groupBykey
下面哪个操作肯定是窄依赖 ( )
A.join
B filter
C group
D reduce
生产上Spark HA应使用哪种模式? ( )
A.ZooKeeper
B. FileSystem
C NONE
D hadoop
列哪个不是 RDD 的缓存方法 ( )
A persist()
B Cache()
C Memory()
DataFrame 和 RDD 最大的区别 ( )
A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持
 Spark体系架构的组成的部分不包括:
A:Master
B:Worker
C:ZooKeeper
D:Driver
二、判断题(每题4分,共20分)
由于Spark和Flink是基于内存进行计算,所以数据不会发生落地的情况。
Spark与Flink类似,在执行流式计算的时候都支持状态的管理。
在设置Spark任务的并行度时,一般不超过该节点CPU的核数。
Spark和Flink都支持流式计算,并且都是真正的流式处理引擎。
Spark是一种分布式计算引擎。

30题 | 被引用1次

模板修改
使用此模板创建