对MLlib的特点描述正确的是（）

多项选择题对MLlib的特点描述正确的是（）

A.运算速度快，适用于具有较多迭代次数的算法
B.具有易用性，RDD中封装了大量的操作，ᨀ供了经典机器学习算法的API
C.集成度高，能够与Spark上的其他组件进行无缝对接
D.运行原理是将Spark程序转换为MapReduce程序运行，并行度高

点击查看答案

您可能感兴趣的试卷

你可能感兴趣的试题

1.多项选择题以下对于GraphX中triangleCount（）的描述错误的是（）

A.用以实现三角形计数功能
B.返回的数据是顶点集合
C.要求边是规范的指向（srcId〈dstId）
D.返回的数据是图

点击查看答案

2.多项选择题对GraphX以下描述正确的是（）

A.GraphX是一种基于内存的分布式的图计算框架与图计算库
B.GraphX中引入了弹性分布式属性图
C.GraphX实现了表视图与图视图的统一
D.GraphXᨀ供了丰富的PregelAPI用以实现经典的图计算算法

点击查看答案

3.多项选择题令ds为SparkStreaming中DStream的一个实例，下列叙述正确的是（）

A.ds上的操作都作用于其中的每个RDD上
B.ds.count结果返回一个RDD
C.ds.reduceByKey结果返回一个DStream类型实例
D.ds中的每个RDD是一个批处理时间间隔内SparkStreaming获取的实时数据.

点击查看答案

4.多项选择题在SparkStreaming中，以下哪些数据可以作为DStream的输入源（）

A.socketSteam
B.kafkaSteam
C.flumeSteam
D.twitterSteam

点击查看答案

5.多项选择题对HBase构建二级索引的实现方式有哪些？（）

A.MapReduce
B.Coprocessor
C.BloomFilter
D.Filter

点击查看答案

6.多项选择题以下对Spark中RDD叙述错误的是（）

A.RDD是可读、写的
B.RDD是基于内存的高度首先的数据共享模型
C.RDD是基于磁盘的高度首先的数据共享模型
D.RDD之间的依赖关系分为宽依赖与窄依赖

点击查看答案

7.多项选择题Spark是大数据的综合处理框架，其综合性体现为（）

A.能够对海量数据进行批处理
B.能够对海量数据进行流式计算
C.能够对海量数据进行交互式查询
D.能够对海量数据进行存储

点击查看答案

8.多项选择题MapReduce框架ᨀ供了一种序列化键/值对的方法，支持这种序列化的类能够在Map和Reduce过程中充当键或值，以下说法正确的是：（）

A.实现Writable接口的类是值
B.实现WritableComparable接口的类可以是值或键
C.Hadoop的基本类型Text并不实现WritableComparable接口
D.键和值的数据类型可以超出Hadoop自身支持的基本类型

点击查看答案

9.多项选择题如果要将一个本地用户主目录下的数据文件a.data，上传到HDFS文件系统的/test-data/目录下，执行以下哪些命令可以实现？（）

A.hadoop fs-copyFromLocal~/a.data/test-data/
B.hadoop fs-put~/a.data/test-data/
C.hdfs fs-copyFromLocal~/a.data/test-data/
D.hdfsd fs-copyFromLocal~/a.data/test-data/

点击查看答案

10.多项选择题cache和pesist的描述，正确的是（）

A.cache和persist都是用于将一个RDD进行缓存的，这样在之后使用的过程中就不需要重新计算了，可以大大节省程序运行时间
B.cache只有一个默认的缓存级别MEMORY_ONLY
C.persist可调用cache，而cache可以根据情况设置缓存级别
D.executor执行的时候，默认60%做cache，40%做task操作，persist最根本的函数，最底层的函数

点击查看答案