HDFS有一个gzip文件大小75MB，客户端设置Block大小为64M。当...

单项选择题HDFS有一个gzip文件大小75MB，客户端设置Block大小为64M。当运行MapReduce任务读取该文件时input split大小为多少（）

A.64M
B.75M
C.一个map读取64M，另外一个map读取11M
D.一个map读取11M，另外一个map读取64M

1.单项选择题以下哪个命令用来启动HDFS系统：（）

A.start-dfs.sh
B.stop-dfs.sh
C.sbin/mr-jobhistory-daemon.sh start historyserver
D.jps

2.单项选择题执行如下哪个命令，用来初始化name目录和data目录（）

A.hadoop namenode-jar
B.hadoop namenode-format
C.hadoop datanode-jar
D.hadoop datanode-format

3.单项选择题Standalone模式下配置Spark集群时，master节点的工作端口号需要在conf文件夹下的哪个文件指明（）

A.regionserver
B.spark-env.sh
C.spark-defaults.conf
D.slaves

4.单项选择题MLlibᨀ供的分布式矩阵中，既有行索引，又有列索引的是（）

A.RowMatrix
B.IndexedRowMatrix
C.Matrix
D.CoordinateMatrix

5.单项选择题spark的master和worker通过什么方式进行通信的？（）

A.http
B.nio
C.netty
D.Akka

6.单项选择题当HRegion中的StoreFile数目达到一定阈值时，就会触发HRegion的（）

A.compact操作
B.split操作
C.flush操作
D.write操作

7.单项选择题对于SparkStreaming与Storm，系列叙述错误的是（）

A.二者同为大数据流式数据处理框架
B.SparkStreaming在吞吐量与集成性方面要优于Storm
C.SparkStreaming在数据处理的实时性要优于Storm
D.SparkStreming又称为准实时处理框架，对数据的处理延迟能够达到秒级别

8.单项选择题与MapReduce相比，Spark更适合处理以下哪种类型的任务（）

A.较多迭代次数的长任务
B.较多迭代次数的短任务
C.较少迭代次数的长任务
D.较少迭代次数的短任务

9.单项选择题Spark Streaming组件的主要功能是（）

A.海量数据的交互式查询
B.机器学习与数据挖掘
C.图计算
D.实时数据流处理

10.单项选择题Spark SQL组件的主要功能是（）

A.海量数据的交互式查询
B.机器学习与数据挖掘
C.图计算
D.实时数据流处理