口碑好的唐山网站建设,wordpress自适应视频,保洁公司 网站模板,邯郸模板建站教程一、单项选择题
1、目前#xff0c;Hadoop的最高版本是哪个#xff08; A #xff09;
A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x
2、大数据的4V特征是指? #xff08; B #xff09;
A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Va…一、单项选择题
1、目前Hadoop的最高版本是哪个 A
A、Hadoop3.x B、Hadoop2.x C、Hadoop4.x D、Hadoop1.x
2、大数据的4V特征是指? B
A、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、技术发展速度快(Velocity)
B、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)
C、数据量大(Volume)、类型繁多(Variety)、价值密度高(Value)、数据产生速度快(Velocity)
D、数据量大(Volume)、类型繁多(Variety)、价值密度低(Value)、数据变化速度快(Velocity)
3、HDFS有一个gzip文件大小75MB客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为 D
A、一个map读取64MB另外一个map读取11MB
B、128MB C、64MB D、75MB
4、HDFS有一个LZOwith index文件大小75MB客户端设置Block大小为64MB。当运行mapreduce任务读取该文件时input split大小为 A
A、一个map读取64MB另外一个map读取11MB
B、64MB C、75MB D、128MB
5、关于SecondaryNameNode哪项是正确的? A
A、它目的是帮助NameNode合并编辑日志,减少NameNode的负担和冷启动时的加载时间
B、它对内存没有要求 C、它是NameNode的热备
D、SecondaryNameNode应与NameNode部署到一个节点
6、把本地文件放到集群里,可以使用下面哪个hadoop shell的命令? C
A、hadoop fs –put B、hadoop fs –push /
C、hadoop fs –put / D、hadoop -push /
7、如果想要修改集群的备份数量,可以修改下面哪个配置文件? C
A、mapred-site.xml B、core-site.xml
C、hdfs-site.xml D、hadoop-env.sh
8、在Centos7中,如果想要查看本机的主机名可以使用下面哪个命令? B
A、reboot B、hostname C、pwd D、tail
9、Hadoop-2.x集群中的HDFS的默认的副本块的个数是? A
A、3 B、2 C、1 D、4
10、以下哪个不是HDFS的守护进程 C
A、SecondaryNameNode B、NameNode C、MrappMaster/YarnChild D、DataNode
11、大数据至少为以下哪种存储量级? B
A、EB B、PB C、TB D、ZB
12、关于HDFS集群中的DataNode的描述不正确的是? A
A、一个DataNode上存储的所有数据块可以有相同的
B、存储客户端上传的数据的数据块
C、DataNode之间可以互相通信
D、响应客户端的所有读写数据请求,为客户端的存储和读取数据提供支撑
13、MapReduce的Shuffle过程以下中哪个操作是最后做的 B
A、排序 B、合并 C、分区 D、溢写
14、Hadoop起始于以下哪个阶段 D
A、2004年Nutch的开发者开发了NDFS。
B、2004年Google发表了关于MapReduce的论文。
C、2003年Google发布了GFS论文。 D、2002年Apach项目的Nutch。
15、下面哪个程序负责HDFS数据存储。 C
A、NameNode B、Jobtracker C、Datanode D、tasktracker
16、配置机架感知的下面哪项正确 C
A、MapReduce会根据机架获取离自己比较近的网络数据
B、写入数据的时候会写到不同机架的DataNode
C、都正确 D、如果一个机架出问题不会影响数据读写
17、下列关于HDFS的描述正确的是? A
A、NameNode磁盘元数据不保存Block的位置信息
B、DataNode通过长连接与NameNode保持通信
C、HDFS集群支持数据的随机读写
D、如果NameNode宕机,SecondaryNameNode会接替它使集群继续工作
18、一个gzip文件大小75MB客户端设置Block大小为64MB请问其占用几个Block B
A、3 B、2 C、4 D、1
19、按照所处理的数据形式和得到结果的时效性分类,大数据处理框架可以分为三类,以下系统中哪一项不是? B
A、混合处理系统 B、分布式键值系统 C、批处理系统 D、流处理系统
20、关于大数据的价值密度描述正确的是以下哪个? A
A、大数据由于其数据量大,所以其价值密度低。
B、大数据由于其数据量大,所以其价值也大。
C、大数据的价值密度是指其数据类型多且复杂。
D、大数据由于其数据量大,所以其价值密度高。 二、多选题
1、下面哪个组件可以在Hadoop集群中代替MR做一些计算? AC
A、Spark B、Sqoop C、Hive D、Avro
2、大数据的计算模式主要有哪些? ABCD
A、图计算模式 B、流计算模式 C、查询分析计算模式 D、批处理计算模式
3、Hadoop MapReduce对外提供了5个可编程组件以下哪对中的方法或任务不全在这
5个编程组件中。 AB
A、Partitioner和Combiner B、Split和Sort
C、InputFormat和OutputFormat D、Mapper和Reducer
4、YARN主要包含的模块有以下哪些 ABC
A、ApplicationMaster B、ResourceManager
C、NodeManager D、QuorumJournalManager
5、下面哪些是Hadoop 2.x的组件? ABC
A、Spark B、Hive C、HBase D、GFS
6、Hadoop的三种安装模式包括以下哪种? BCD
A、两分布式模式 B、完全分布式模式
C、伪分布模式 D、单机模式
7、VMware提供了哪几种工作模式 ABD
A、host-only仅主机模式 B、NAT模式
C、自定义除以上3种其他模式 D、桥接bridged模式
8、Hadoop集群具有以下哪个优点? ACD
A、高容错性 B、高成本性 C、高可靠性 D、高扩展性
9、关于数据副本的存放策略正确的有些? ABCD
A、第三个副本:与第一个副本相同机架的其他节点上;
B、更多副本:随机节点。
C、第一个副本,放置在上传文件的数据节点;
D、第二个副本,放置在与第一个副本不同的机架的节点上;
10、以下关于SSH免密码配置的描述正确的选项有哪个 ABCD
A、SSH专为远程登录会话和其他网络服务提供安全性的协议。
B、SSH是Secure Shell的缩写则IETF的网络工作小组制定。
C、SSH是建立 在应用层和传输导上的安全协议。
D、使用SSH公钥登录可以解决Hadoop集群节点之前的通信略掉需要输入密码才能登录的步骤。
11、大数据采集中面临的主要问题有以下哪些? ABCD
A、如何避免重复数据 B、数据源多种多样,数据量大、变化快
C、如何保证数据的质量 D、如何保证数据采集的可靠性
12、以下关于文件块的说法正确的是? ABCD
A、文件的所有Block为了容错都会被冗余复制。
B、除了最后一个Block,所有的Block都是同样的大小。
C、每个文件的Block大小和复制(Replication)因子都是可配置的。
D、HDFS将文件存储成块序列。
13、MapRecue的优点有哪些 ACD
A、可扩展性强 B、计算机性能高 C、容错性强 D、开发简单
14、以下关于HDFS体系结构的描述正确的有哪几项 ABCD
A、NameNode作为主结点用来管理文件系统的元数据命名空间和访问操作等信息。
B、DataNode作为从结点用来管理存储的数据。
C、HDFS采用主从结构模型。
D、一个HDFS集群是由一个NameNode和若干个DataNode组成的。
15、HDFS中常用命令有下面哪些? ABCD
A、hadoop fs –rm B、hadoop fs –ls
C、hadoop fs –mv D、hadoop fs –put
16、在新的Hadoop MapReduce框架YARN产生之前MapReduce架构存在的问题有哪些 ABCD
A、容易造成TaskTracker端内存溢出 B、JobTrack单点故障问题
C、JobTrack任务过重 D、容易造成资源浪费
17、常用的HDFS API有哪些? ABCD
A、rename() B、copyFromLocalFile() C、mkdirs() D、delete()
18、以下关于序列化Writable的说法正确的是 ABCD
A、反序列化也称反串行化它是指将字节流转回结构化对象的逆过程。
B、Hadoop中使用自己开发的类IntWritable、FloatWritable、Text等都是Writable的实现类。
C、序列化和反序列化在分布式数据处理中主要于进程间通信和永久存储两个领域。
D、Writable接口是一个序列化对象的接口能够将数据写入流或者从流中读出。
19、大数据关键技术包括哪些? ABCD
A、大数据存储 B、大数据预处理 C、大数据采集 D、大数据分析挖掘
20大数据中常见的类型有哪些? ABCD
A、视频 B、图片 C、音频 D、日志 三、判断题
1、Hadoop实现了一个分布式文件系统,简称HDFS。√
2、在大数据框架中,批处理系统一般不适用于对延时要示较高的场景。 √
3、HDFS既适合超大数据集存储,也适合小数据集的存储。 ×
4、Hadoop下使用MapRecue。用户只要继承MapReduceBase,提供分别实现Map和Reduce的两个类,并注册Job即可自动分布式运行。 √
5、我国的大数据产业政策一直在有序推进,工业和信息化部在2017年1月正式印发了《大数据产业发展规划》。 √
6、HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。 √
7、Hadoop的框架最核心的设计就是:HDFS和MapReduce。 √
8、HDFS以流的形式访问文件系统中的数据。 √
9、HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。 √
10、MapRecue在shuffle阶段基于排序的方法会将key相同的数据聚集在一起。√
四、填空题 1、 datanode 负责HDFS数据存储。
2、hadoop运行的模式有单机模式 、 伪分布模式 、 伪分布模式 。
3、Hadoop集群搭建中常用的4个配置文件为core-site.xml 、 hdfs-site.xml 、mapred-site.xml、 yarn-site.xml 。
4、一个HDFS集群包括两大部分即 namenode 与 datanode 。
5、格式化HDFS系统的命令为 hdfs namenode –format 。
6、hadoop创建多级目录如/a/b/c的命令为 hadoop fs –mkdir –p /a/b/c 。
7、hadoop显示根目录命令为 hadoop fs –lsr 。
8、hadoop包含的四大模块分别是 Hadoop common 、 HDFS 、 Mapreduce 、 yarn 。
9、 job 是客户端需要执行的一个工作单元。
10、map任务将其输出写入到 本地磁盘 。
11、reduce的输出通常存储在 HDFS 中以实现可靠存储。
12、大数据是由结构化和非结构化数据组成的。 10% 的结构化数据存储在数据库中 90% 的非结构化数据它们与人类信息密切相关。
13、大数据关键技术两大核心技术是 分布式存储或HDFS 和 分布式处理或MapReduce 。 五、简答题 hdfs的体系结构是什么
HDFS采用了主从Master/Slave结构模型一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器管理文件系统的命名空间和客户端对文件的访问操作集群中的DataNode管理存储的数据。 2、NameNode与SecondaryNameNode的区别与联系
1区别
1NameNode 负责管理整个文件系统的元数据以及每一个路径文件所对应的
数据块信息。
2SecondaryNameNode 主要用于定期合并命名空间镜像和命名空间镜像的编辑日志。
2联系
1SecondaryNameNode 中保存了一份和 namenode 一致的镜像文件fsimage和编
辑日志edits。
2在主 namenode 发生故障时假设没有及时备份数据可以从 SecondaryNameNode
恢复数据。 3、hdfs文件写入的流程
1) Client向NameNode发起文件写入的请求。
2) NameNode根据文件大小和文件块配置情况返回给Client它所管理部分DataNode的信息。
3) Client将文件划分为多个Block根据DataNode的地址信息按顺序写入到每一个DataNode块中。 4、完全分布模式又有什么注意点
完全分布模式通常被用于生产环境这里我们使用N台主机组成一个Hadoop集群Hadoop守护进程运行在每台主机之上。这里会存在Namenode运行的主机Datanode运行的主机以及task tracker运行的主机。在分布式环境下主节点和从节点会分开。 5、MapReduce核心思想是什么
分而治之:就是把一个复杂的问题按照一定的“分解”方法分为等价的规模较小的若干部分然后逐个解决分别找出各部分的结果把各部分的结果组成整个问题的结果
MapReduce是框架和平台主要解决海量数据的计算是目前分布式计算模型中应用较为广泛的一种
Map阶段用于对原始数据进行处理
Reduce阶段对map阶段数据进行汇总
部分任务不一定需要reduce阶段可能只有map阶段map阶段产生的数据直接写入HDFS中
有map产生相关key的输出都会集中在到Reduce中处理reduce是最终的处理过程其结果不会进行二次处理。
Hadoop系统核心组件之一它是一种可用于大数据并行处理的计算模型、框架。 6、Hadoop分布式集群默认备份数为多少每个数据块大小是多少在哪个配置文件中可以修改备份数与每个数据块大小
默认备份为3份每块数据大小128M 在hdfs-site.xml配置文件中可以修改备份数和数据块大小。