ROC曲线的x轴，实际上可以由每个阈值下混淆矩阵的（）计算而来

单项选择题

根据以下混淆矩阵和ROC曲线，回答以下两题：

ROC曲线的x轴，实际上可以由每个阈值下混淆矩阵的（）计算而来

A.C/（C+D）
B.D/（A+D）
C.B/（B+C）
D.C/（B+C）

1.多项选择题根据购物篮分析的目标，最有用的规则是那些具有高支持度、信度和ᨀ升度的规则，除此之外，也需要参考Lift（ᨀ升度），以下关于“Lift”说法正确的是（）

A.用来度量一类商品相对于它的一般购买率，此时被购买的可能性大小
B.不能避免不平衡数据标签的偏差性
C.Lift越大，数据质量越大
D.如果lift=1，说明两个事项有正向关联

2.多项选择题非频繁模式是指（）。

A.其支持度小于阈值
B.都是不让人感兴趣的
C.包含负模式和负相关模式
D.对异常数据项敏感

3.多项选择题属于簇有效性的监督度量是：（）

A.轮廓系数
B.共性分类相关系数
C.熵
D.F度量

4.多项选择题在分类问题中，我们经常会遇到正负样本数据量不等的情况，比如正样本为10w条数据，负样本只有1w条数据，以下最合适的处理方法是（）？

A.将负样本重复10次，生成10w样本量，打乱顺序参与分类
B.直接进行分类，可以最大限度利用数据
C.从10w正样本中随机抽取1w参与分类
D.将负样本每个权重设置为10，正样本权重为1，参与训练过程

5.多项选择题在统计模式识分类问题中，当先验概率未知时，可以使用（）？

A.最小损失准则
B.N-P判决
C.最小最大损失准则
D.最小误判概率准则

6.多项选择题在整个随机森林的算法过程中，以下哪两个随机过程可使随机森林很大程度上避免了过拟合现象的出现？（）

A.构建决策树输入数据的随机选取
B.构建决策树分裂节点的随机选取
C.构建决策树树的数量的随机选取
D.构建决策树所需特征的随机选取

7.多项选择题假定某同学使用Naive Bayesian（NB）分类模型时，不小心将训练数据的两个维度搞重复了，那么关于NB的说法中正确的是？（）

A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精确度会降低
C.如果所有特征都被重复一遍，得到的模型预测结果相对于不重复的情况下的模型预测结果一样
D.当两列特征高度相关时，无法用两列特征相同时所得到的结论来分析问题

8.多项选择题关于线性回归的描述，以下正确的有？（）

A.基本假设包括随机干扰项是均值为0，方差为1的标准正态分布
B.基本假设包括随机干扰项是均值为0的同方差正态分布
C.在违背基本假设时，普通最小二乘法估计量不再是最佳线性无偏估计量
D.在违背基本假设时，模型不再可以估计

9.多项选择题关于可决系数R^2，下列说法中正确的是？（）

A.可决系数R^2的定义为被回归方程已经解释的变差与总变差的比
B.0<=R^2<=1
C.可决系数R^2反映了样本回归线对样本观测值拟合优劣程度的一种描述
D.可决系数R^2的大小不受到回归模型中所包含的解释变量个数的影响

10.多项选择题C4.5算法继承了ID3算法的优点，并在以下哪几方面对ID3算法进行了改进？（）

A.用信息增益率来选择属性
B.在树构造过程中进行剪枝
C.能够完成对连续属性的离散化处理
D.在树的构造过程中，不需要对数据集进行多次的顺序扫描和排序