以下为《大数据技术复习题》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
大数据技术复习题
第一章 大数据基础
大数据具有哪些特点?
数据的“大量化”
数据的“快速化”
数据的“多样化”
数据的“价值化”
大数据平台的两个核心技术是什么?
分布式存储
分布式处理
第二章 大数据处理架构Hadoop
Hadoop的特性?
成本低
高可靠性
高容错性
可扩展性高
支持多种编程语言
运行在Linux平台上
Hadoop框架中最核心的设计是什么?
为海量数据提供存储的HDFS和对数据进行计算的MapReduce
在一个基本的Hadoop集群中,DataNode主要负责什么?
存储被拆分的数据块
Hadoop最初是谁创建的?
Doug Cutting
Hadoop的大数据层的功能?
离线分析
实时查询
BI分析
在一个基本的Hadoop集群中,SecondaryNameNode主要负责什么?
帮助NameNode收集文件系统运行的状态信息
Hadoop在企业中的应用架?
访问层
大数据层
数据源层
在Hadoop项目结构中,HDFS指的是什么?
分布式文件系统
在Hadoop项目结构中,MapReduce指的是什么?
分布式并行编程模型
10、在Hadoop中,访问层的功能是什么?
数据分析
数据挖掘
数据实时查询
11、MapReduce的作业主要包括什么?
从磁盘或从网络读取数据,即IO密集工作
计算数据,即CPU密集工作
12、一个基本的Hadoop集群中的节点主要包括什么?
DataNode:存储被拆分的数据块
JobTracker:协调数据计算任务
TaskTracker:负责执行JobTracker指派的任务
SecondaryNameNode:帮助NameNode收集文件系统运行的状态信息
13、关于Hadoop的描述
为用户提供了系统底层细节透明的分布式基础架构
具有很好的跨平台特性
可以部署在廉价的计算机集群中
被公认的行业大数据标准开发软件
14、Hadoop主要提供哪些技术服务?
开发工具
开源软件
商业化工具
15、Hadoop集群的整体性能主要受到什么因素影响?
CPU性能
内存
网络
存储容量
第三章 分布式文件系统HDFS
1、分布式文件系统指的是什么?
把文件分布存储到多个计算机节点上,成千上万的计算机节点构成计算机集群
2、计算机集群中的节点
主节点:Master Node
名称节点:NameNode
第二名称节点SecondaryNameNode
数据节点:DataNode
从节点:Slave Node
在HDFS中默认一个块有多大?
64MB
HDFS采用抽象的块概念带来的好处?
支持大规模文件存储
简化系统设计
适合数据备份
在HDFS中,NameNode的主要功能是什么?
存储元数据
FsImage的描述
FsImage文件没有记录文件包含哪些块以及每个块存储在哪个数据节点
FsImage文件包含文件系统中所有目录和文件inode的序列化形式
FsImage用于维护文件系统数以及文件数中所有的文件和文件夹的元数据
SecondaryNameNode的描述
SecondaryNameNode是用来保存名称节点中对HDFS元数据信息的备份,并减少名称节点重启的时间
SecondaryNameNode通过HTTPGET方式从NameNode上获取FsImage和EditLog文件,并下载到本地的相应目录下
SecondaryNameNode是HDFS架构中的一个组成部分
HDFS采用了什么模型?
主从结构模型
HDFS的描述
HDFS采用了主从(Master/Slave)结构模 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 点)出错
DataNode(数据节点)出错
数据出错
第四章 分布式数据库HBase
BigTable的描述
BigTable是一个分布式存储系统
BigTable起初用于解决典型的互联网搜索问题
网络搜索应用查询建立好的索引,从BigTable得到网页
关于HBase和BigTable的底层技术对应关系
GFS与HDFS
MapReduce与Hadoop MapReduce
Chubby与Zookeeper
在HBase中,关于数据操作的描述
HBase操作不存在复杂的表与表之间的关系
HBase操作只有简单的插入、查询、删除、清空等
HBase在设计上就避免了复杂的表与表之间的关系
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《大数据技术复习题》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。