A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
您可能感兴趣的试卷
你可能感兴趣的试题
20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A.分类算法对a类文本分类情况较好
B.分类算法对c类文本分类情况较好
C.分类算法对b类文本分类情况较好
D.分类算法对c类文本分类情况较差
A.Kdfka
B.Flume
C.Twitter
D.Zero
A.KMeans
B.SVMWithSGD
C.ALS
D.LinearRegressionWithSGD
A.LabledPoint是一种基于向量扩展得到的数据结构
B.向量既可以是本地的也可以是分布式的
C.MLlib中既可以定义稀疏向量也可以定义密集向量
D.在LabledPoint中除了包含一个向量成员外,还包含一个Double类型的标识成员
A.运算速度快,适用于具有较多迭代次数的算法
B.具有易用性,RDD中封装了大量的操作,ᨀ供了经典机器学习算法的API
C.集成度高,能够与Spark上的其他组件进行无缝对接
D.运行原理是将Spark程序转换为MapReduce程序运行,并行度高
A.用以实现三角形计数功能
B.返回的数据是顶点集合
C.要求边是规范的指向(srcId〈dstId)
D.返回的数据是图
A.GraphX是一种基于内存的分布式的图计算框架与图计算库
B.GraphX中引入了弹性分布式属性图
C.GraphX实现了表视图与图视图的统一
D.GraphXᨀ供了丰富的PregelAPI用以实现经典的图计算算法
A.ds上的操作都作用于其中的每个RDD上
B.ds.count结果返回一个RDD
C.ds.reduceByKey结果返回一个DStream类型实例
D.ds中的每个RDD是一个批处理时间间隔内SparkStreaming获取的实时数据.
A.socketSteam
B.kafkaSteam
C.flumeSteam
D.twitterSteam
A.MapReduce
B.Coprocessor
C.BloomFilter
D.Filter
最新试题
下列哪些方法有助于提高聚类的有效性()
当对一份数据进行建模分析时,如果出现数据集变较多,而对应的样本数相对较少的情况,下列哪种处理方法不能提升模型的适用性()
若获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,可以使用什么方法()
下面关于选择何种机器学习建损思路,说法错误的是()
以下哪类不属于分层标签()
用户分层是在用户管理时最常被使用的标签类型,其中RFM模型是指()
在系统聚类中,需要定义两个类之间的距离,下列哪种方法能够缓解异常值对计算距离造成的影响()
以下哪个不属于根据麦肯锡问题分析方法中的分类()
若想要对一个电商企业的产品销售状况和销售趋势进行数据可视化,最佳的图表表示方式为()
根原因分析中问题理解的常用工具包括()