Mahout实现的聚类算法（）

多项选择题Mahout实现的聚类算法（）

A.K-means
B.Canopy
C.模糊K-Means聚类
D.狄利克雷聚类

点击查看答案

您可能感兴趣的试卷

你可能感兴趣的试题

1.多项选择题按照远近程度来聚类需要明确两个距离（）

A.点和点之间的距离
B.类和类之间的距离
C.欧式距离
D.兰氏距离

点击查看答案

2.多项选择题下列哪些命令是Mahout中用于实现贝叶斯文本分类算法（）

A.seqdirectory
B.seq2sparse
C.trainnb
D.trainlogistic

点击查看答案

3.多项选择题下列关于大数据的分析理念的说法中，正确的是（）

A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据

点击查看答案

4.多项选择题数据清洗的方法包括（）

A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理

点击查看答案

5.多项选择题 20Newsgroups数据集是机器学习研究中常用的标准数据集，它使用20个Usenet新闻单位上几个月发布的18828个消息，共18828个文件，如果对该数据集使用mahout进行文本分类，分类后得到的混淆矩阵中，部分结果如下图所示：图中第一行是类别名称，第二行是属于a类的分类情况（a类文本原有168篇），第三行是属于b类的分类情况（b类文本原有180篇），第四行是c类的分类情况（c类文本原有189篇），根据各行的分类情况，以下分析正确的是（）

A.分类算法对a类文本分类情况较好
B.分类算法对c类文本分类情况较好
C.分类算法对b类文本分类情况较好
D.分类算法对c类文本分类情况较差

点击查看答案

6.多项选择题SparkStreaming可以对多种数据源（）进行类似Map、Reduce和Join等复杂操作。

A.Kdfka
B.Flume
C.Twitter
D.Zero

点击查看答案

7.多项选择题以下属于MLlib中能够实的接口有（）

A.KMeans
B.SVMWithSGD
C.ALS
D.LinearRegressionWithSGD

点击查看答案

8.多项选择题对于MLlib中向量与LabledPoint，以下描述正确的是（）

A.LabledPoint是一种基于向量扩展得到的数据结构
B.向量既可以是本地的也可以是分布式的
C.MLlib中既可以定义稀疏向量也可以定义密集向量
D.在LabledPoint中除了包含一个向量成员外，还包含一个Double类型的标识成员

点击查看答案

9.多项选择题对MLlib的特点描述正确的是（）

A.运算速度快，适用于具有较多迭代次数的算法
B.具有易用性，RDD中封装了大量的操作，ᨀ供了经典机器学习算法的API
C.集成度高，能够与Spark上的其他组件进行无缝对接
D.运行原理是将Spark程序转换为MapReduce程序运行，并行度高

点击查看答案

10.多项选择题以下对于GraphX中triangleCount（）的描述错误的是（）

A.用以实现三角形计数功能
B.返回的数据是顶点集合
C.要求边是规范的指向（srcId〈dstId）
D.返回的数据是图

点击查看答案