A.超大文件处理
B.低延时的数据访问
C.使用廉价商用硬件
D.多用户写入,随机修改文件
您可能感兴趣的试卷
你可能感兴趣的试题
A.两者都起守护进程,且守护进程运行在一台机器上
B.单机模式不使用HDFS,但加载守护进程
C.两者都不与守护进程交互,避免复杂性
D.后者比前者增加了HDFS输入输出以及可检查内存使用情况
A.相对Hive,Hbase支持随机查询
B.使用HDFS文件系统,让Hbase存储的扩展几乎随着节点数的增加线性扩展
C.Hbase能够使用分布式计算,短时间内完成TB、PB级的数据搜索
D.Hbase数据库数据块大小和HDFS数据库块大小一致更好
A.K-means
B.Canopy
C.模糊K-Means聚类
D.狄利克雷聚类
A.点和点之间的距离
B.类和类之间的距离
C.欧式距离
D.兰氏距离
A.seqdirectory
B.seq2sparse
C.trainnb
D.trainlogistic
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A.分类算法对a类文本分类情况较好
B.分类算法对c类文本分类情况较好
C.分类算法对b类文本分类情况较好
D.分类算法对c类文本分类情况较差
A.Kdfka
B.Flume
C.Twitter
D.Zero
A.KMeans
B.SVMWithSGD
C.ALS
D.LinearRegressionWithSGD
最新试题
下列哪些方法有助于提高聚类的有效性()
能够用于总体估计的是()
若获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,可以使用什么方法()
在系统聚类中,需要定义两个类之间的距离,下列哪种方法能够缓解异常值对计算距离造成的影响()
以下哪种方法可以用于分析面板数据()
如果拿到一份数据,直接对这组数据建模型肯定会造成一系列的问题,因此是需要进行预分析,而关于预分析描述错误的是()
若想要对一个电商企业的产品销售状况和销售趋势进行数据可视化,最佳的图表表示方式为()
近因分析阶段(现状问题描述)不能使用的图表类型是()
在进行多元线性回归分析时,对于变量较多的情况下,可以选择变量筛选方法,下列不正确的是()
下面关于选择何种机器学习建损思路,说法错误的是()