多项选择题在SparkStreaming中,以下哪些数据可以作为DStream的输入源()

A.socketSteam
B.kafkaSteam
C.flumeSteam
D.twitterSteam


您可能感兴趣的试卷

你可能感兴趣的试题

1.多项选择题对HBase构建二级索引的实现方式有哪些?()

A.MapReduce
B.Coprocessor
C.BloomFilter
D.Filter

2.多项选择题以下对Spark中RDD叙述错误的是()

A.RDD是可读、写的
B.RDD是基于内存的高度首先的数据共享模型
C.RDD是基于磁盘的高度首先的数据共享模型
D.RDD之间的依赖关系分为宽依赖与窄依赖

3.多项选择题Spark是大数据的综合处理框架,其综合性体现为()

A.能够对海量数据进行批处理
B.能够对海量数据进行流式计算
C.能够对海量数据进行交互式查询
D.能够对海量数据进行存储

4.多项选择题MapReduce框架ᨀ供了一种序列化键/值对的方法,支持这种序列化的类能够在Map和Reduce过程中充当键或值,以下说法正确的是:()

A.实现Writable接口的类是值
B.实现WritableComparable接口的类可以是值或键
C.Hadoop的基本类型Text并不实现WritableComparable接口
D.键和值的数据类型可以超出Hadoop自身支持的基本类型

5.多项选择题如果要将一个本地用户主目录下的数据文件a.data,上传到HDFS文件系统的/test-data/目录下,执行以下哪些命令可以实现?()

A.hadoop fs-copyFromLocal~/a.data/test-data/
B.hadoop fs-put~/a.data/test-data/
C.hdfs fs-copyFromLocal~/a.data/test-data/
D.hdfsd fs-copyFromLocal~/a.data/test-data/

6.多项选择题cache和pesist的描述,正确的是()

A.cache和persist都是用于将一个RDD进行缓存的,这样在之后使用的过程中就不需要重新计算了,可以大大节省程序运行时间
B.cache只有一个默认的缓存级别MEMORY_ONLY
C.persist可调用cache,而cache可以根据情况设置缓存级别
D.executor执行的时候,默认60%做cache,40%做task操作,persist最根本的函数,最底层的函数

8.多项选择题以下哪些项是HDFS(Hadoop分布式文件系统)设计的前景和目标?()

A.大数据
B.硬件错误是常态
C.流式数据访问
D.简单一致性

9.多项选择题下面哪个是RDD的特点()

A.可分区
B.可序列化
C.可修改
D.可持久化

最新试题

统计软件处理的数据类型通常包括文本型、数值型、日期型等格式,那么分析师录制数据时,通常以哪种录入方式为主()

题型:单项选择题

市场调查经常需要使用问卷技术,下面有几种说法不正确的是()

题型:多项选择题

回归模型犹如一列火车,引擎牵引的列车节箱数受速度、动力等因素所限,并不能无限增加,否则这列火车会存在安全隐患,回归也存在这类由维度(列车节箱)所引起的安全问题,因此在数据挖掘的场景中,认为自变量的维度最好不要超出15个,那么控制自变量个数的方法主要是哪种()

题型:单项选择题

市场调查中的数据收集,涉及随机抽样样本采样,获取数据的过程需要考虑的因素,不包括哪一项()

题型:多项选择题

全国性大规模调查,通常需要多种抽样方法,而多段集群抽样(muti-stagecluster sampling)提供了多种整合技术,据此说法正确的是()

题型:单项选择题

能够用于总体估计的是()

题型:单项选择题

下面关于选择何种机器学习建损思路,说法错误的是()

题型:单项选择题

若获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,可以使用什么方法()

题型:单项选择题

以下哪个不属于根据麦肯锡问题分析方法中的分类()

题型:单项选择题

近因分析阶段(现状问题描述)不能使用的图表类型是()

题型:单项选择题