关于可决系数R^2，下列说法中正确的是？（）

多项选择题关于可决系数R^2，下列说法中正确的是？（）

A.可决系数R^2的定义为被回归方程已经解释的变差与总变差的比
B.0<=R^2<=1
C.可决系数R^2反映了样本回归线对样本观测值拟合优劣程度的一种描述
D.可决系数R^2的大小不受到回归模型中所包含的解释变量个数的影响

1.多项选择题C4.5算法继承了ID3算法的优点，并在以下哪几方面对ID3算法进行了改进？（）

A.用信息增益率来选择属性
B.在树构造过程中进行剪枝
C.能够完成对连续属性的离散化处理
D.在树的构造过程中，不需要对数据集进行多次的顺序扫描和排序

2.多项选择题以下哪些算法，可以用神经网络去构造？（）

A.KNN
B.线性回归
C.逻辑回归
D.K-Means

3.多项选择题逻辑回归和SVM的联系与区别，正确的是？（）

A.二者都可以处理分类问题
B.二者都可以增加不同的正则化项
C.二者都是参数模型
D.SVM的处理方法是只考虑supportvectors，也就是和分类最相关的少数点，去学习分类器

4.多项选择题对于一个多分类模型，可以如何选择训练集？（）

A.有放回简单随机抽样
B.无放回简单随机抽样
C.分层抽样
D.整群抽样

5.多项选择题如果整个数据分析模型完成后，发现效果不良，考虑从哪些步骤入手改进？（）

A.数据清洗是否到位
B.数据理解是否有偏差
C.模型选择是否合适
D.参数调整是否合理

6.多项选择题在一个二分类的分类预测问题中，如果二分类中的某一类占比超过80%，那么可以考虑哪些方法去改进？（）

A.改变模型，例如使用朴素贝叶斯等对偏斜不敏感的模型
B.升采样
C.降采样
D.盖帽法

7.多项选择题以下哪些方法属于对异常值或极端值的处理方法？（）

A.先聚类，然后用同类的均值填充
B.距离均值大于三倍标准差的值使用三倍标准差的值替代
C.用均值填充
D.超出1.5倍IQR的值使用1.5倍IQR的值替代

8.多项选择题分类型变量的缺失值可以怎样填充？（）

A.均值
B.额外增加一类标签表示缺失
C.中位数
D.众数

9.多项选择题离散型变量使用以下哪个统计量进行缺失值填补较合适？（）

A.均值
B.最大值
C.中位数
D.众数

10.多项选择题以下几项中，可以归于知识发掘处理（Knowledge Discovery Process）中的数据清洗阶段的有（）

A.异常值处理
B.缺失值处理
C.预测结果可视化输出
D.理解业务背景