Mahout中实现的canopy聚类命令的可选参数是（）

多项选择题Mahout中实现的canopy聚类命令的可选参数是（）

A.–input偏好数据路径
B.–output推荐结果路径
C.--t1（-t1）t1：T1阈值
D.--t2（-t2）t2：T2阈值

1.多项选择题Mahout中实现的kmeans聚类命令的必选参数是（）

A.–input偏好数据路径
B.–output推荐结果路径
C.–clusters初始聚类中心点文件路径
D.--overwrite对输出路径进行重写

2.多项选择题基于内容的推荐算法生成推荐的过程主要依靠（）

A.内容分析器
B.推荐系统
C.文件学习器
D.过滤部件

3.多项选择题下列对Sqoop描述正确的是（）

A.Sqoop可以将数据从MySQL转储到HDFS上
B.Sqoop可以数据从HDFS转储到MySQL上
C.Sqoop可以将数据从Hbase转储到HDFS上
D.Sqoop可以数据从HDFS转储到Hbase上

4.多项选择题以下适用HDFS的场景有：（）

A.超大文件处理
B.低延时的数据访问
C.使用廉价商用硬件
D.多用户写入，随机修改文件

5.多项选择题关于Hadoop单机模式和伪分布式模式的说法，错误的是：（）

A.两者都起守护进程，且守护进程运行在一台机器上
B.单机模式不使用HDFS，但加载守护进程
C.两者都不与守护进程交互，避免复杂性
D.后者比前者增加了HDFS输入输出以及可检查内存使用情况

6.多项选择题使用Hbase的优势在于（）

A.相对Hive，Hbase支持随机查询
B.使用HDFS文件系统，让Hbase存储的扩展几乎随着节点数的增加线性扩展
C.Hbase能够使用分布式计算，短时间内完成TB、PB级的数据搜索
D.Hbase数据库数据块大小和HDFS数据库块大小一致更好

7.多项选择题Mahout实现的聚类算法（）

A.K-means
B.Canopy
C.模糊K-Means聚类
D.狄利克雷聚类

8.多项选择题按照远近程度来聚类需要明确两个距离（）

A.点和点之间的距离
B.类和类之间的距离
C.欧式距离
D.兰氏距离

9.多项选择题下列哪些命令是Mahout中用于实现贝叶斯文本分类算法（）

A.seqdirectory
B.seq2sparse
C.trainnb
D.trainlogistic

10.多项选择题下列关于大数据的分析理念的说法中，正确的是（）

A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据