A.数据中的空缺值
B.噪声数据
C.数据中的不一致性
D.数据中的概念分层
您可能感兴趣的试卷
你可能感兴趣的试题
A.平滑
B.聚集
C.数据概化
D.规范化
A.数据清理
B.数据集成
C.数据变换
D.数据归约
A.去掉数据中的噪声
B.对数据进行汇总和聚集
C.使用概念分层,用高层次概念替换低层次“原始”数据
D.将属性按比例缩放,使之落入一个小的特定区间
A.填补数据种的空缺值
B.集成多个数据源的数据
C.得到数据集的压缩表示
D.规范化数据
A.概念分层
B.离散化
C.分箱
D.直方图
A.孤立点
B.空缺值
C.测量变量中的随即错误或偏差
D.数据变换引起的错误
A.空间填充曲线
B.散点图矩阵
C.平行坐标
D.圆弓分割
A.标称属性
B.二元属性
C.序数属性
D.数值属性
A.算术平均值
B.截尾均值
C.中位数
D.众数
A.标称属性
B.二元属性
C.序数属性
D.数值属性
最新试题
训练神经网络具有过度拟合训练数据的潜在问题。
如果P(A B)= P(A),则P(A∩B)= P(A)P(B)。
使用偏差较小的模型总是比偏差较大的模型更好。
数据存储体系中并不牵扯计算机网络这一环节。
数据收集中的拉模式需要通过定时的方式不断地触发,才能源源不断地获取对应的数据。
最大似然估计的一个缺点是,在某些情况下(例如,多项式分布),它可能会返回零的概率估计。
管理员不需要验证就可以访问数据存储系统中的任何数据,这符合数据安全的要求。
小数据集的数据处理最好也由计算机手段来完成。
当数据集标签错误的数据点时,随机森林通常比AdaBoost更好。
通常,当试图从大量观察中学习具有少量状态的HMM时,我们几乎总是可以通过允许更多隐藏状态来增加训练数据的可能性。