单项选择题当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理()

A.直接使用该变量
B.根据是否缺失,生成指示变量,仅使用指示变量作为解释变量
C.使用多重插补的方法进行缺失值填补
D.直接删除该变量


您可能感兴趣的试卷

你可能感兴趣的试题

1.单项选择题在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么()

A.违反了建模的假设条件
B.加大了处理的难度
C.无法针对分区后各个数据集的特征分别做数据清洗
D.无法对不同数据清理的方法进行比较,以选择最优方法

4.单项选择题下面关于聚类分析说法错误的是()

A.一定存在一个最优的分类
B.聚类分析是无监督学习
C.聚类分析可以用于判断异常值
D.聚类分析即:物以类聚,人以群分

5.单项选择题以下哪个类型的变量在作预测客户流失的模型中最有解释力度?()

A.人口基本数据,比如年龄和性别
B.基本社会状态数据,比如收入和职业
C.业务数据,比如消费频次
D.业务数据的衍生变量,比如最近3个月消费频次的变化情况

6.单项选择题以下哪个变量可以反映客户的忠诚度?()

A.购买频次
B.购买金额
C.最后一次购买时间
D.购买金额波动率

7.单项选择题假如学生考试成绩以“优”.“良”.“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()

A.可采用算术平均数
B.可以采用众数或中位数
C.只能采用众数
D.只能采用四分位数

8.单项选择题数据库系统是由()组成的

A.数据库、数据库管理系统和用户
B.数据文件、命令文件和报表
C.数据库文件结构和数据
D.常量、变量和函数