以下为《数据采集与处理-(期末)题库》的无排版文字预览,完整格式请下载
下载前请仔细阅读文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。
数据采集与处理-题库
1、数据的质量因素包括?? ? ? ? ? ? ? ? ? ??、?? ? ? ? ? ? ? ? ?、 ? ? ? ? ? ? ? ? ?、 ? ? ? ? ? ? ? ? ?、? ? ? ? ? ? ? ? ? ??、可信性和可解释性?
答案:
准确性?;完整性;一致性;时效性;相关性
;
2、数据的质量问题从采集的角度划分,可分为(? )
A、 准确性
B、 完整性
C、 一致性
D、 时效性
答案: ABC
3、数据的质量问题从应用的角度划分,可分为( ??)
A、 准确性
B、 相关性
C、 时效性
D、 可信性
答案: BC
4、数据的质量问题从用户使用的角度划分,可分为(? )
A、 准确性
B、 完整性
C、 可信性
D、 可解释性
答案: CD
5、准确性是指数据是否正确的,数据存储在数据库中的值是否对应于真实世界的值。?
答案: 正确
6、某用户在使用支付宝绑定银行卡时,网站要求验证用户的真实姓名和身份证号码。这时要求采集的数据必须有(? )
A、 准确性
B、 完整性
C、 一致性
D、 相关性
答案: A
7、数据质量完整性是指信息具有一个实体描述的所有必需的部分
答案: 正确
8、空值是指缺失或不知道具体的值,可能是一条记录中的某个属性缺失,也可能是整条记录都丢失。
答案: 正确
9、数据质量的数据一致性是指在数据库中,不同表中存储和使用的同一数据应当是等价的,表示数据有相等的值和相同的含义。
答案: 正确
10、数据质量的数据相关性是指数据与特定的应用和领域有关。
答案: 正确
11、数据质量的时效性是指有些数据会随时间而变化的
答案: 正确
12、数据质量的可信性由三个因素决定:数据来源的权威性、数据的规范性、数据产生的时间。
答案: 正确
13、数据质量的可解释性,也称为可读性,是指数据被人理解的难易程度
答案: 正确
14、数据处理的4大流程步骤中的一个大体流向图,就是(?? )
A、 数据清理
B、 数据集成
C、 数据变换
D、 数据归约
答案: ABCD
15、由于操作员重复录入,并发处理等不规范的操作,导致产生不完整,不准确的,无效的数据也可以用在数据分析里。
答案: 错误
16、数据的缺失值是指现有数据集中某个或某些属性的值时不完整的。
答案: 正确
17、处理空缺值的基本方法有6种,包括忽略元组、人工填写空缺值、使用全局常量替换空缺值、使用属性的中心度量填充空缺值、使用与给定元组属同一类的所有样本的平均值来填充空缺值、使用最可能的值填充空缺值。
答案: 正确
18、若一条记录中有多个属性值被遗漏了,则可将该记录排除在数据挖掘之外。
答案: 正确
19、噪声数据是指一个测量变量中的随机错误或偏差
答案: 正确
20、噪声数据也可以用于数据挖掘进行分析。
答案: 错误
21、孤立点的是不符合数据模型的数据。?
答案: 正确
22、孤立点并不真实存在,是人们无意中弄出的偏差比较大的数据。
答案: 错误
23、处理噪声数据可以使用(? )方法。
A、 分箱法
B、 回归法
C、 聚类
D、 忽略元组
答案: ABC
24、数据集成是指将互相关联的分布式异构数据源集成到一起,使用户能够以透明的方式访问这些数据源。
答案: 正确
25、数据集成的方法有(? )
A、 联邦数据库
B、 中间件集成
C、 数据仓库
D、 聚类
答案: ABC
26、数据仓库是数据集成最常用的方法
答案: 正确
27、数据仓库来集成数据时需要处理的问题包 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 ut..xlsx”文件
/stringOp.xlsx
/
答案:
93、将个人信息.xlsx表中数据Gender字段改为Sex,统一数据为F、M,并去除重复数据
/排重-个人信息.xlsx
要求:1. 运行流程图截图、运行结果文件内容截图
或? ? ? ?2. 书写分析执行步骤
答案:
94、先从Excel读取数据,保存到Excel,再从文本文件中读取数据保存到Excel,如果产生错误就发送邮件,并且停止作业,如果成功发送成功邮件
/01文本文件输入.txt
/01Excel输入.xlsx
要求:1. 运行流程图截图、运行结果文件内容截图
或? ? ? ?2. 书写分析执行步骤
答案:
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]
以上为《数据采集与处理-(期末)题库》的无排版文字预览,完整格式请下载
下载前请仔细阅读上面文字预览以及下方图片预览。图片预览是什么样的,下载的文档就是什么样的。