以下哪一个不是Spark的组件?
A. Spark Core
B. Hive
C. Spark SQL
D. Spark Streaming
大数据研究的核心问题是?
A. 数据的存储
B. 数据的计算
C. 以上都是
搭建一个数据仓库可能需要使用哪些技术?
A. Oracle
B. MySQL
C. Hadoop
D. 以上都是
启动HDFS的命令是?
A. Start-dfs.sh
B. Start-all.sh
C. Start-yarn.sh
D. Start.sh
Spark 的四大组件下面哪个不是_____
A.Spark Streaming
B. Spark Core
C Spark SQL
D.Spark R
Spark Core的核心数据模型是________
A.DataFrame
B.Array
C.RDD
D.DStream
Spark SQL的核心数据模型是________
A.DataFrame
B.Array
C.RDD
D.DStream
Spark Stream的核心数据模型是________
A.DataFrame
B.Array
C.RDD
D.DStream
Spark SQL默认支持分析语句是________
A.SQL
B.DSL
C.Java
D.Scala
park SQL默认的数据源是________
A.CSV
B.Parquet
C.JSON
D.TXT
下面哪个端口是Spark Web服务的端口( )
A.8080
B.4040
C.8090
D.18080
下面哪个不是 RDD 的特点 ( )
A. 可分区
B 可序列化
C 可修改
D 可持久化
Spark 支持的分布式部署方式中哪个是错误的 ( )
A standalone
B spark on mesos
C spark on YARN
D Spark on local
下面哪个操作是宽依赖 ( )
A groupByKey
B filter
C map
D union
下面哪个操作肯定是窄依赖 ( )
A map
B group
C reduceByKey
D groupBykey
下面哪个操作肯定是窄依赖 ( )
A.join
B filter
C group
D reduce
生产上Spark HA应使用哪种模式? ( )
A.ZooKeeper
B. FileSystem
C NONE
D hadoop
列哪个不是 RDD 的缓存方法 ( )
A persist()
B Cache()
C Memory()
DataFrame 和 RDD 最大的区别 ( )
A.科学统计支持
B.多了 schema
C.存储方式不一样
D.外部数据源支持
Spark体系架构的组成的部分不包括:
A:Master
B:Worker
C:ZooKeeper
D:Driver
由于Spark和Flink是基于内存进行计算,所以数据不会发生落地的情况。
Spark与Flink类似,在执行流式计算的时候都支持状态的管理。
在设置Spark任务的并行度时,一般不超过该节点CPU的核数。
Spark和Flink都支持流式计算,并且都是真正的流式处理引擎。