当一个连续变量的缺失值占比在85%左右时，以下哪种方式最合理（）

单项选择题当一个连续变量的缺失值占比在85%左右时，以下哪种方式最合理（）

A.直接使用该变量
B.根据是否缺失，生成指示变量，仅使用指示变量作为解释变量
C.使用多重插补的方法进行缺失值填补
D.直接删除该变量

1.单项选择题在对历史数据集进行分区之前进行数据清洗（缺失值填补等）的缺点是什么（）

A.违反了建模的假设条件
B.加大了处理的难度
C.无法针对分区后各个数据集的特征分别做数据清洗
D.无法对不同数据清理的方法进行比较，以选择最优方法

2.单项选择题在Excel工作表中，在某单元格内输入数值123 ，不正确的输入形式是（）

A.123
B.=123
C.+123
D.*123

3.单项选择题某小区60％居民订晚报，45％订青年报，30％两报均订，随机抽一户。则至少订一种报的概率为（）

A.0.82
B.0.85
C.0.80
D.0.75

4.单项选择题下面关于聚类分析说法错误的是（）

A.一定存在一个最优的分类
B.聚类分析是无监督学习
C.聚类分析可以用于判断异常值
D.聚类分析即：物以类聚，人以群分

5.单项选择题以下哪个类型的变量在作预测客户流失的模型中最有解释力度？（）

A.人口基本数据，比如年龄和性别
B.基本社会状态数据，比如收入和职业
C.业务数据，比如消费频次
D.业务数据的衍生变量，比如最近3个月消费频次的变化情况

6.单项选择题以下哪个变量可以反映客户的忠诚度？（）

A.购买频次
B.购买金额
C.最后一次购买时间
D.购买金额波动率

7.单项选择题假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录，为了说明全班同学考试成绩的水平高低，其集中趋势的测度（）

A.可采用算术平均数
B.可以采用众数或中位数
C.只能采用众数
D.只能采用四分位数

8.单项选择题数据库系统是由（）组成的

A.数据库、数据库管理系统和用户
B.数据文件、命令文件和报表
C.数据库文件结构和数据
D.常量、变量和函数

9.单项选择题SQL语言中，删除一个表中所有数据，但保留表结构的命令是（）

A.DELETE
B.DROP
C.CLEAR
D.REMORE

10.判断题离群点是一个实际观测值，它与其他观测值的差别如此之大，以至于怀疑它是由不同的机制产生的。