Standalone模式下配置Spark集群时，master节点的工作端口号...

单项选择题Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）

A.regionserver
B.spark-env.sh
C.spark-defaults.conf
D.slaves

1.单项选择题MLlibᨀ供的分布式矩阵中，既有行索引，又有列索引的是（）

A.RowMatrix
B.IndexedRowMatrix
C.Matrix
D.CoordinateMatrix

2.单项选择题spark的master和worker通过什么方式进行通信的？（）

A.http
B.nio
C.netty
D.Akka

3.单项选择题当HRegion中的StoreFile数目达到一定阈值时，就会触发HRegion的（）

A.compact操作
B.split操作
C.flush操作
D.write操作

4.单项选择题对于SparkStreaming与Storm，系列叙述错误的是（）

A.二者同为大数据流式数据处理框架
B.SparkStreaming在吞吐量与集成性方面要优于Storm
C.SparkStreaming在数据处理的实时性要优于Storm
D.SparkStreming又称为准实时处理框架，对数据的处理延迟能够达到秒级别

5.单项选择题与MapReduce相比，Spark更适合处理以下哪种类型的任务（）

A.较多迭代次数的长任务
B.较多迭代次数的短任务
C.较少迭代次数的长任务
D.较少迭代次数的短任务

6.单项选择题Spark Streaming组件的主要功能是（）

A.海量数据的交互式查询
B.机器学习与数据挖掘
C.图计算
D.实时数据流处理

7.单项选择题Spark SQL组件的主要功能是（）

A.海量数据的交互式查询
B.机器学习与数据挖掘
C.图计算
D.实时数据流处理

8.单项选择题hive的元数据存储在derby和mysql中有什么区别（）

A.没区别
B.多会话
C.支持网络环境
D.数据库的区别

9.单项选择题下面哪个操作肯定是宽依赖（）

A.map
B.flatMap
C.reduceByKey
D.sample

10.单项选择题Stage的Task的数量由什么决定（）

A.Partition
B.Job
C.Stage
D.TaskScheduler