单项选择题在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题如果一个回归模型分为两步:先使用PCA降维,然后用多元线性回归做预测,那么测试集的结果应当如何计算()

A.用训练集上的PCA模型处理测试集数据,然后把得到的数据输入到多元线性回归模型做预测。
B.用测试集上的PCA模型处理测试集数据,然后把得到的数据输入到多元线性回归模型做预测。
C.用全部数据集上的PCA模型处理测试集数据,然后把得到的数据输入到多元线性回归模型做预测。
D.以上皆可


您可能感兴趣的试卷

你可能感兴趣的试题

1.单项选择题在进行数据分析时,经常要分割训练集、测试集,并且还要考虑数据预处理、特征抽取、特征工程等,那么要仔细分析这些步骤之间的相互联系。关于训练集、测试集、数据预处理、特征工程,请回答以下问题关于缺失值填充与训练集、测试集的关系,下面正确的操作是()

A.先用全数据的均值填充缺失值,然后随机分割训练集、测试集
B.先随机分割训练集、测试集,然后用各自集合的均值填充缺失值
C.先随机分割训练集、测试集,然后用训练集的均值填充缺失值
D.先随机分割训练集、测试集,然后用测试集的均值填充缺失值

4.多项选择题根据购物篮分析的目标,最有用的规则是那些具有高支持度、信度和ᨀ升度的规则,除此之外,也需要参考Lift(ᨀ升度),以下关于“Lift”说法正确的是()

A.用来度量一类商品相对于它的一般购买率,此时被购买的可能性大小
B.不能避免不平衡数据标签的偏差性
C.Lift越大,数据质量越大
D.如果lift=1,说明两个事项有正向关联

5.多项选择题非频繁模式是指()。

A.其支持度小于阈值
B.都是不让人感兴趣的
C.包含负模式和负相关模式
D.对异常数据项敏感

6.多项选择题属于簇有效性的监督度量是:()

A.轮廓系数
B.共性分类相关系数
C.熵
D.F度量

7.多项选择题在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()?

A.将负样本重复10次,生成10w样本量,打乱顺序参与分类
B.直接进行分类,可以最大限度利用数据
C.从10w正样本中随机抽取1w参与分类
D.将负样本每个权重设置为10,正样本权重为1,参与训练过程

8.多项选择题在统计模式识分类问题中,当先验概率未知时,可以使用()?

A.最小损失准则
B.N-P判决
C.最小最大损失准则
D.最小误判概率准则

9.多项选择题在整个随机森林的算法过程中,以下哪两个随机过程可使随机森林很大程度上避免了过拟合现象的出现?()

A.构建决策树输入数据的随机选取
B.构建决策树分裂节点的随机选取
C.构建决策树树的数量的随机选取
D.构建决策树所需特征的随机选取

10.多项选择题假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是?()

A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况下精确度会降低
C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样
D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题