Hadoop实现了一个分布式文件系统,其中一个组件是HDFS。关于HDFS,下列说法中正确的有()。
A.为海量的数据提供了存储
B.有高容错性的特点,并且设计用来部署在低廉的硬件上
C.它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序
D.为海量的数据提供了计算
E.放宽了POSIX的要求,可以以流的形式访问件系统中的数据
A.为海量的数据提供了存储
B.有高容错性的特点,并且设计用来部署在低廉的硬件上
C.它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序
D.为海量的数据提供了计算
E.放宽了POSIX的要求,可以以流的形式访问件系统中的数据
第1题
A.数据处理框架(MapReduce),集群管理(YARN),分布管理控制(ZooKeeper)
B.Spark高效数据处理架构
C.安全管理组件
D.Hadoop的客户端
第2题
A.HadoopYARN的目的是使得Hadoop数据处理能力超越HDFS
B.HadoopMapReduce也是YARN上的一个应用
C.YARN的另一个目标就是拓展Hadoop
D.有了YARN各种应用就可以互不干扰地运行在同一个Hadoop系统中
第3题
A.Hive最终将数据存储在HDFS中
B.Hive是Hadoop平台的数据仓库工具
C.HQL可以通过MapReduce执行任务
D.Hive对HBase有强依赖
第5题
B.core-site.xml
C.mapred-site.xml
D.core-default.xml
第8题
A.日志
B.命名空间镜像
C.(A)和(B)
D.以上都不是
第9题
A.抽象层次低,需要手工编写代码来完成,使用上难以上手
B.只提供两个操作,Map和Reduce,表达力欠缺
C.处理逻辑隐藏在代码细节中,没有整体逻辑
D.中间结果也放在HDFS文件系统中
第10题
A.yarn.scheduler.capacity.root.QueueA.user-limit-factor
B.yarn.scheduler.capacity.root.QueueA.minimum-user-limit-percent
C.yarn.scheduler.capacity.root.QueueA.capacity
D.yarn.scheduler.capacity.root.QueueA.state
第11题
A.改变现有RDD的持久性;RDD是懒散,短暂的
B.从共享的文件系统获取(如:HDFS)
C.将已存在scala集合(只要是Seq对象)并行化,通过调用SparkContext的parallelize方法实现
D.通过已存在的RDD转换