单项选择题在有指导的数据挖掘中,有关测试集的说法错误的是()
A.测试集和训练集是相互联系的
B.测试集是用以测试模型的数据集
C.通常测试集大约占总样本的三分之一
D.K-次交叉验证中,测试集只有
您可能感兴趣的试卷
你可能感兴趣的试题
1.单项选择题企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是()
A.数据越多越好
B.尽可能多的适合的数据
C.数据越少越好
D.以上三条都不正确
2.单项选择题一条关联规则为A→B,此规则的信心水平(confidence)为60%,则代表()
A.买B商品的顾客中,有60%的顾客会同时购买A
B.同时购买AB两商品的顾客,占所有顾客的60%
C.买A商品的顾客中,有60%的顾客会同时购买B
D.两商品AB在交易数据库中同时被购买的机率为60%
3.单项选择题Naive Bayes是属于数据挖掘中的什么方法?()
A.聚类
B.分类
C.时间序列
D.关联规则
4.单项选择题当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理()
A.直接使用该变量
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C.使用多重插补的方法进行缺失值填补
D.直接删除该变量
5.单项选择题在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么()
A.违反了建模的假设条件
B.加大了处理的难度
C.无法针对分区后各个数据集的特征分别做数据清洗
D.无法对不同数据清理的方法进行比较,以选择最优方法
6.单项选择题在Excel工作表中,在某单元格内输入数值123 ,不正确的输入形式是()
A.123
B.=123
C.+123
D.*123
7.单项选择题某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。则至少订一种报的概率为()
A.0.82
B.0.85
C.0.80
D.0.75
8.单项选择题下面关于聚类分析说法错误的是()
A.一定存在一个最优的分类
B.聚类分析是无监督学习
C.聚类分析可以用于判断异常值
D.聚类分析即:物以类聚,人以群分
9.单项选择题以下哪个类型的变量在作预测客户流失的模型中最有解释力度?()
A.人口基本数据,比如年龄和性别
B.基本社会状态数据,比如收入和职业
C.业务数据,比如消费频次
D.业务数据的衍生变量,比如最近3个月消费频次的变化情况
10.单项选择题以下哪个变量可以反映客户的忠诚度?()
A.购买频次
B.购买金额
C.最后一次购买时间
D.购买金额波动率