单项选择题对于SparkStreaming与Storm,系列叙述错误的是()

A.二者同为大数据流式数据处理框架
B.SparkStreaming在吞吐量与集成性方面要优于Storm
C.SparkStreaming在数据处理的实时性要优于Storm
D.SparkStreming又称为准实时处理框架,对数据的处理延迟能够达到秒级别


您可能感兴趣的试卷

你可能感兴趣的试题

1.单项选择题与MapReduce相比,Spark更适合处理以下哪种类型的任务()

A.较多迭代次数的长任务
B.较多迭代次数的短任务
C.较少迭代次数的长任务
D.较少迭代次数的短任务

2.单项选择题Spark Streaming组件的主要功能是()

A.海量数据的交互式查询
B.机器学习与数据挖掘
C.图计算
D.实时数据流处理

3.单项选择题Spark SQL组件的主要功能是()

A.海量数据的交互式查询
B.机器学习与数据挖掘
C.图计算
D.实时数据流处理

4.单项选择题hive的元数据存储在derby和mysql中有什么区别()

A.没区别
B.多会话
C.支持网络环境
D.数据库的区别

5.单项选择题下面哪个操作肯定是宽依赖()

A.map
B.flatMap
C.reduceByKey
D.sample

6.单项选择题Stage的Task的数量由什么决定()

A.Partition
B.Job
C.Stage
D.TaskScheduler

7.单项选择题在Spark中,DAGScheduler的输出形式为()

A.DAG图
B.Stage
C.TaskSet
D.Task

8.单项选择题Spark Streaming中批处理时间间隔是指()

A.系统将获取到的数据流封装成一个RDD的时间间隔
B.系统对数据流进行统计分析的时间间隔
C.系统对数据流进行统计分析的频率
D.系统作业处理的周期

10.单项选择题MLlibᨀ供的分布式矩阵中,不包含行、列索引信息的矩阵类型是()

A.RowMatrix
B.IndexedRowMatrix
C.Matrix
D.CoordinateMatrix

最新试题

因果图的分析要点有哪些()

题型:多项选择题

以下哪个不是分群标签的用途()

题型:单项选择题

目前收集110份问卷,数据质量控制良好,需要分析用户推荐指数(1-100评分)的影响因素,其中包括行为类6个指标。请问一般使用什么统计方法来解决这类归因问题()

题型:单项选择题

对某商品抽样调查,抽取其中400个商品,其中98%的商品合格,以下描述正确的是()

题型:单项选择题

回归模型犹如一列火车,引擎牵引的列车节箱数受速度、动力等因素所限,并不能无限增加,否则这列火车会存在安全隐患,回归也存在这类由维度(列车节箱)所引起的安全问题,因此在数据挖掘的场景中,认为自变量的维度最好不要超出15个,那么控制自变量个数的方法主要是哪种()

题型:单项选择题

若获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,可以使用什么方法()

题型:单项选择题

在进行多元线性回归分析时,对于变量较多的情况下,可以选择变量筛选方法,下列不正确的是()

题型:单项选择题

相比获得某市员工名单而言,获取某市的企业名单会容易的多,并以企业为单位随机抽样,重点调查某个企业,这样可以节省调研成本,请问这是哪种抽样方法()

题型:单项选择题

根原因消除工具不包括哪个()

题型:单项选择题

统计软件处理的数据类型通常包括文本型、数值型、日期型等格式,那么分析师录制数据时,通常以哪种录入方式为主()

题型:单项选择题