多项选择题下列关于spark中的RDD描述正确的有()。

A.RDD(Resilient distributed dataset)叫做弹性分布式数据集,是spark中最基本的数据抽象
B.Resilient:表示弹性的,弹性表示
C.Destributed:分布式,可以并行在集群计算
D.Dataset:就是一个集合,用于存放数据的


您可能感兴趣的试卷

你可能感兴趣的试题

1.多项选择题下列是transformation的算子()。

A.mapPartitions
B.lookup
C.mapPartitionsWithIndex
D.count

2.多项选择题RDD和它的父RDD的关系有()。

A.宽依赖
B.窄依赖
C.分区关系
D.继承关系

3.单项选择题在Scala中如何获取字符串“Hello”的首字符和尾字符?()

A."Hello"(0),"Hello"(5)
B."Hello".take(1),"Hello".reverse(0)
C."Hello"(1),"Hello"(5)
D."Hello".take(0), "Hello".takeRight(1)

4.单项选择题如果需要使用scala库中的sqrt函数,如sqrt(2),下列引用包的方式错误的是()。

A.import scala.math._
B.import sqrt
C.import math._
D.import math.sqrt

6.单项选择题YARN中的资源是由哪个进程管理()。

A.ResourceManager
B.NodeManager
C.client
D.MRAppMaster

7.单项选择题关于Secondary Name Node下面哪项是正确的。()

A.它是Name Node的热备
B.它对内存没有要求
C.它的目的是帮助Name Node合并编辑日志,减少Name Node启动时间
D.SecondaryName Node应与Name Node部署到一个节点

8.单项选择题HBase依靠存储底层数据()。

A.HDFS
B.Hadoop
C.Memory
D.MapReduce

9.单项选择题以下哪一项不属于YARN的进程是()。

A.ResourceManager
B.NodeManager
C.MRAppMaster
D.Master

10.单项选择题Yarn的调度有哪几种方式。()

A.FIFO Scheduler
B.Capacity Scheduler
C.FairScheduler
D.以上都是