多项选择题下列关于大数据的分析理念的说法中,正确的是()

A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据


您可能感兴趣的试卷

你可能感兴趣的试题

1.多项选择题数据清洗的方法包括()

A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理

4.多项选择题以下属于MLlib中能够实的接口有()

A.KMeans
B.SVMWithSGD
C.ALS
D.LinearRegressionWithSGD

5.多项选择题对于MLlib中向量与LabledPoint,以下描述正确的是()

A.LabledPoint是一种基于向量扩展得到的数据结构
B.向量既可以是本地的也可以是分布式的
C.MLlib中既可以定义稀疏向量也可以定义密集向量
D.在LabledPoint中除了包含一个向量成员外,还包含一个Double类型的标识成员

6.多项选择题对MLlib的特点描述正确的是()

A.运算速度快,适用于具有较多迭代次数的算法
B.具有易用性,RDD中封装了大量的操作,ᨀ供了经典机器学习算法的API
C.集成度高,能够与Spark上的其他组件进行无缝对接
D.运行原理是将Spark程序转换为MapReduce程序运行,并行度高

7.多项选择题以下对于GraphX中triangleCount()的描述错误的是()

A.用以实现三角形计数功能
B.返回的数据是顶点集合
C.要求边是规范的指向(srcId〈dstId)
D.返回的数据是图

8.多项选择题对GraphX以下描述正确的是()

A.GraphX是一种基于内存的分布式的图计算框架与图计算库
B.GraphX中引入了弹性分布式属性图
C.GraphX实现了表视图与图视图的统一
D.GraphXᨀ供了丰富的PregelAPI用以实现经典的图计算算法

9.多项选择题令ds为SparkStreaming中DStream的一个实例,下列叙述正确的是()

A.ds上的操作都作用于其中的每个RDD上
B.ds.count结果返回一个RDD
C.ds.reduceByKey结果返回一个DStream类型实例
D.ds中的每个RDD是一个批处理时间间隔内SparkStreaming获取的实时数据.

10.多项选择题在SparkStreaming中,以下哪些数据可以作为DStream的输入源()

A.socketSteam
B.kafkaSteam
C.flumeSteam
D.twitterSteam

最新试题

因果图的分析要点有哪些()

题型:多项选择题

全国性大规模调查,通常需要多种抽样方法,而多段集群抽样(muti-stagecluster sampling)提供了多种整合技术,据此说法正确的是()

题型:单项选择题

以下哪类不属于分层标签()

题型:单项选择题

根原因分析中问题理解的常用工具包括()

题型:多项选择题

以下关于系统聚类的描述中,错误的是()

题型:单项选择题

市场调查经常需要使用问卷技术,下面有几种说法不正确的是()

题型:多项选择题

在系统聚类中,需要定义两个类之间的距离,下列哪种方法能够缓解异常值对计算距离造成的影响()

题型:单项选择题

回归模型犹如一列火车,引擎牵引的列车节箱数受速度、动力等因素所限,并不能无限增加,否则这列火车会存在安全隐患,回归也存在这类由维度(列车节箱)所引起的安全问题,因此在数据挖掘的场景中,认为自变量的维度最好不要超出15个,那么控制自变量个数的方法主要是哪种()

题型:单项选择题

相比获得某市员工名单而言,获取某市的企业名单会容易的多,并以企业为单位随机抽样,重点调查某个企业,这样可以节省调研成本,请问这是哪种抽样方法()

题型:单项选择题

用户分层是在用户管理时最常被使用的标签类型,其中RFM模型是指()

题型:单项选择题