在Spark应用开发中，以下哪项的代码能正确进行单词统计？（）

单项选择题在Spark应用开发中，以下哪项的代码能正确进行单词统计？（）

A.valcounts=textFile.map（line=>line.split（“”））.map（-rd=>（word，1））.reduceByKey（_+_）
B.valcounts=textFile.flatMap（line=>line.split（“”））.map（word=>（word，1））.reduceByKey（_+_）
C.valcounts=textFile.map（line=>line.split（“”））.map（word=>（word，1））.groupByKey（_+_）
D.valcounts=textFile.flatMap（line=>line.split（“”））.map（word=>（word，1））.groupByKey（_+_）

点击查看答案

您可能感兴趣的试卷

你可能感兴趣的试题

1.判断题FusionLnsigt HD用户想通过HBase shell操作来查询某个HBase表中的内容，这中场景下推荐管理员给这个用户分配一个机机账号。（）

参考答案：错

2.单项选择题Fiume支持实时采集数据的source类型是哪项？（）

A.taildir
B.Log4j
C.JMS
D.Thrift

点击查看答案

3.判断题FusionLnsigh HD，Oozie支持HDFS Action。（）

参考答案：对

4.多项选择题Fusionlnsight HD关于Oozie的作业操作命令，下列哪几项叙述是正确的？（）

A.submit命令可以让作业的状态变为PREP
B.statr命令可以让PREP状态的作业变为RUNNING
C.run命令可以让作业状态变为Running
D.kill命令可以作用在PREP/SUSPEND/RUNNING状态的作业上

点击查看答案

5.多项选择题Redis不适用与下面那些场景？（）

A.复杂事物操作
B.计算器应用：例如统计某个网站的登录人数
C.一条消息被多个消费者同时消费且保证消息被所有订阅者成功消费的消息队
D.取最新N个数据：例如对某条微博，获取最新的10个评论

点击查看答案

6.多项选择题关于Kafka的特点如下᧿述正确的是？（）

A.Kafka是一个高吞吐、分布式、基于发布订阅的消息系统
B.Kafka可以做到消息的持久化
C.Kafka适用于离线和在线的消息消费场景
D.Kafka可以保证每个Partion内的消息有序

点击查看答案

7.多项选择题Fusionlnsigt HD的Hive组件可以运行在哪些分布式计算机框架上？（）

A.Spark
B.Streaming
C.MapReduce
D.HDFS

点击查看答案

8.单项选择题在通过Fusionlnsight manager界面创建用户时，想要该用户对所有Topic具有读写权限，但不具有常见Topic的权限，应该加入Kafka服务的那个组？（）

A.kafkaadmin组
B.kafka组
C.kafkasuperuser组

点击查看答案

9.判断题由于Spark是基于内存的计算引擎，因此，一个Spark应用可以处理的数据量不能超过分给这个Spark应用的内存总和。（）

参考答案：错

10.多项选择题Flume写入HDFS时，文件的生成当时有哪些？（）

A.按照源文件名，直接生成文件
B.设置文件生成间隔，达到时间间隔时就关闭老文件，新数据将被写入新文
C.设置单个文件大小，当文件大小达到所设定值时，就关闭老文件，新数据
D.设置单个文件存放在event数量，当文件所存放event数量到设定值时

点击查看答案