A.cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间
B.cache只有一个默认的缓存级别MEMORY_ONLY
C.persist可调用cache,而cache可以根据情况设置缓存级别
D.executor执行的时候,默认60%做cache,40%做task操作,persist最根本的函数,最底层的函数
您可能感兴趣的试卷
你可能感兴趣的试题
A.命名空间镜像
B.修改日志
C.数据块block
D.分片文件
A.大数据
B.硬件错误是常态
C.流式数据访问
D.简单一致性
A.可分区
B.可序列化
C.可修改
D.可持久化
A.内存
B.磁盘
C.CPU
D.IP地址
A.core-site.xml
B.hdfs-site.xml
C.mapred-site.xml
D.yarn-site.xm
A.不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B.要求同类数据的内容相似度尽可能小
C.要求不同类数据的内容相似度尽可能小
D.与分类挖掘技术相似的是,都是要对数据进行分类处理
A.安全模式目的是在系统启动时检查各个DataNode上数据块的有效性
B.根据策略对数据块进行必要的复制或删除
C.当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
D.文件系统允许有修改
A.本地模式
B.standalone模式
C.spark on yarn模式
D.mesos模式
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
A.是byte[]数组
B.没有固定的结构
C.数据的大小是定长的
D.有固定的结构
最新试题
回归模型犹如一列火车,引擎牵引的列车节箱数受速度、动力等因素所限,并不能无限增加,否则这列火车会存在安全隐患,回归也存在这类由维度(列车节箱)所引起的安全问题,因此在数据挖掘的场景中,认为自变量的维度最好不要超出15个,那么控制自变量个数的方法主要是哪种()
从加工方式区分,标签可以分为哪三类()
以下关于系统聚类的描述中,错误的是()
根原因消除工具不包括哪个()
若获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,可以使用什么方法()
市场调查中的数据收集,涉及随机抽样样本采样,获取数据的过程需要考虑的因素,不包括哪一项()
某奶茶店为了预测每天订单数,建立了一个线性回归模型,其中有一个自变量为天气类型(分类变量),分为晴、阴、雨、雪等4种类型,请问如何处理这种变量()
用户分层是在用户管理时最常被使用的标签类型,其中RFM模型是指()
近因分析阶段(现状问题描述)不能使用的图表类型是()
因果图的分析要点有哪些()