A.K-means
B.Canopy
C.模糊K-Means聚类
D.狄利克雷聚类
您可能感兴趣的试卷
你可能感兴趣的试题
A.点和点之间的距离
B.类和类之间的距离
C.欧式距离
D.兰氏距离
A.seqdirectory
B.seq2sparse
C.trainnb
D.trainlogistic
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A.分类算法对a类文本分类情况较好
B.分类算法对c类文本分类情况较好
C.分类算法对b类文本分类情况较好
D.分类算法对c类文本分类情况较差
A.Kdfka
B.Flume
C.Twitter
D.Zero
A.KMeans
B.SVMWithSGD
C.ALS
D.LinearRegressionWithSGD
A.LabledPoint是一种基于向量扩展得到的数据结构
B.向量既可以是本地的也可以是分布式的
C.MLlib中既可以定义稀疏向量也可以定义密集向量
D.在LabledPoint中除了包含一个向量成员外,还包含一个Double类型的标识成员
A.运算速度快,适用于具有较多迭代次数的算法
B.具有易用性,RDD中封装了大量的操作,ᨀ供了经典机器学习算法的API
C.集成度高,能够与Spark上的其他组件进行无缝对接
D.运行原理是将Spark程序转换为MapReduce程序运行,并行度高
A.用以实现三角形计数功能
B.返回的数据是顶点集合
C.要求边是规范的指向(srcId〈dstId)
D.返回的数据是图
最新试题
统计软件处理的数据类型通常包括文本型、数值型、日期型等格式,那么分析师录制数据时,通常以哪种录入方式为主()
对某商品抽样调查,抽取其中400个商品,其中98%的商品合格,以下描述正确的是()
在系统聚类中,需要定义两个类之间的距离,下列哪种方法能够缓解异常值对计算距离造成的影响()
若获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,可以使用什么方法()
问卷测量通常可以从态度测量、能力测量等角度测试用户评分,一般来说态度测量经常使用的量表是哪一类()
回归模型犹如一列火车,引擎牵引的列车节箱数受速度、动力等因素所限,并不能无限增加,否则这列火车会存在安全隐患,回归也存在这类由维度(列车节箱)所引起的安全问题,因此在数据挖掘的场景中,认为自变量的维度最好不要超出15个,那么控制自变量个数的方法主要是哪种()
根原因消除工具不包括哪个()
近因分析阶段(现状问题描述)不能使用的图表类型是()
以下哪种方法可以用于分析面板数据()
下列哪些方法有助于提高聚类的有效性()