第一章 单元测试
1、单选题:大数据的英文描述是()
A:Big data
B:Great data
C:Large data
D:Heavy data
正确答案:【Big data】
2、单选题:下面最大的储存单位是()
A:PB
B:TB
C:KB
D:GB
正确答案:【PB】
3、单选题:大数据之父是()
A:维克托·迈尔-舍恩伯格
B:詹姆斯·高斯林
C:姚期智
D:查尔斯·巴赫曼
正确答案:【维克托·迈尔-舍恩伯格】
4、多选题:大数据的特点包括()
A:Value
B:Velocity
C:Volume
D:Variety
正确答案:【Value;Velocity;Volume;Variety】
5、多选题:第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是()和()
A:Science
B:Cell
C:Nature
D:PNAS
正确答案:【Science;Nature】
6、判断题:大数据是只和互联网相关的计算机技术。
A:对
B:错
正确答案:【错】
7、判断题:企业中大部分的数据都是非结构化数据。
A:错
B:对
正确答案:【对】
8、判断题:大数据技术的基础是由阿里巴巴首先提出的。
A:对
B:错
正确答案:【错】
9、判断题:大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。
A:对
B:错
正确答案:【对】
10、判断题:大数据对网络安全没有威胁。
A:对
B:错
正确答案:【错】
第二章 单元测试
1、单选题:目前,企业的数据架构存在的最大比例问题是()
A:运营成本高
B:拓展性差
C:资源利用率低
D:高耗能
正确答案:【拓展性差】
2、判断题:目前,企业数据分析处理面临的主要问题是缺少数据全方位分析方法。
A:错
B:对
正确答案:【对】
3、单选题:地图导航根据以往的行程记录,绘制了最优路程,标明了可能堵车的地点,这表现了大数据分析理念中的()
A:注重相关性而不是因果性
B:注重相对性而不是绝对性
C:注重全体而不是局部
D:注重效率而不是准确
正确答案:【注重相关性而不是因果性】
4、单选题:最早提出大数据研发计划的国家是()
A:日本
B:法国
C:中国
D:美国
正确答案:【美国】
5、多选题:大数据可能被运用的行业有()
A:农业
B:医疗
C:教育
D:金融
正确答案:【农业;医疗;教育;金融】
6、判断题:2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。
A:对
B:错
正确答案:【错】
7、判断题:大数据的价值密度很高。
A:对
B:错
正确答案:【错】
8、判断题:日本政府将IT产业,尤其是大数据及云计算作为促进经济增长,解决内部矛盾一个关键。
A:对
B:错
正确答案:【对】
9、判断题:非结构化数据对企业也富有价值。
A:对
B:错
正确答案:【对】
10、判断题:企业的日数据生成量可达到1TB。
A:错
B:对
正确答案:【对】
第三章 单元测试
1、单选题:HDFS中文件存储的基本节点是()
A:WholeNode
B:NameNode
C:BaseNode
D:DataNode
正确答案:【DataNode】
2、单选题:下面不属于ETL的功能是()
A:翻译
B:加载
C:转换
D:抽取
正确答案:【翻译】
3、多选题:自然语言处理的范畴包括()
A:关联分析
B:中文自动分词
C:离群值检测
D:机器翻译
正确答案:【中文自动分词;机器翻译】
4、多选题:Apache Hadoop所涉及的核心技术包括()
A:MapReduce
B:HDFS
C:EMC
D:Hbase
正确答案:【MapReduce;HDFS;Hbase】
5、多选题:HDFS的主要结构包括()
A:Server
B:Client
C:DataNode
D:NameNode
正确答案:【Client;DataNode;NameNode】
6、多选题:下列算法中属于聚类算法的是()
A:Apriori
B:K-means
C:k-distance
D:DBSCAN
正确答案:【K-means;DBSCAN】
7、判断题:Hadoop可以运行在任何普通的PC机上。
A:错
B:对
正确答案:【对】
8、判断题:Client是获取分布式文件的应用程序
A:对
B:错
正确答案:【对】
9、判断题:Hadoop是一种集中式存储和计算技术。
A:对
B:错
正确答案:【错】
10、判断题:聚类之前的样本没有类别
A:对
B:错
正确答案:【对】
第四章 单元测试
1、单选题:Modeler在2009年被()收购后对产品的性能和功能进行了大幅度的改进和提升。
A:微软
B:苹果
C:谷歌
D:IBM
正确答案:【IBM】
2、单选题:Modeler数据挖掘功能将复杂的统计方法和()技术结合到一起。
A:机器学习
B:软件工程
C:信息安全
D:大数据
正确答案:【机器学习】
3、单选题:Modeler可以将模型保存为()的通用格式,支持对其进行二次开发。
A:PMML
B:PB
C:CKPT
D:PKL
正确答案:【PMML】
4、多选题:下面()是基本数据流的节点。
A:变量文件节点
B:导出节点
C:选择节点
D:导入节点
正确答案:【变量文件节点;导出节点;选择节点】
5、多选题:Modeler中的常用节点选项面板包括:()。
A:源
B:字段选项
C:建模选项
D:记录选项
E:图形选项
正确答案:【源;字段选项;建模选项;记录选项;图形选项】
6、判断题:Modeler和Statistics是相互独立的两个数据分析软件。
A:错
B:对
正确答案:【错】
7、判断题:Modeler可以对可变长度记录进行数据的处理。
A:对
B:错
正确答案:【对】
8、判断题:Modeler能通过第三方提供开放的ODBC与其他数据库连接。
A:错
B:对
正确答案:【对】
9、判断题:Modeler不支持生成散点图、分布图等来反映数据的特征。
A:对
B:错
正确答案:【错】
10、判断题:Modeler支持数据挖掘CRISP-DM的标准流程。
A:对
B:错
正确答案:【对】
第五章 单元测试
1、单选题:协方差分析中,如果两个变量的变化趋势一致,那么这两个变量之间的协方差就是()。
A:负值
B:正值
C:不清楚
D:0
正确答案:【正值】
2、单选题:在抽样调查中,如果样本数量N为()时,就称为大样本。
A:N>=50
B:N>=100
C:N>=20
D:N>=30
正确答案:【N>=30】
3、单选题:在统计调查中,()误差是由观察、测量或计算等原因所造成的。
A:登记性误差
B:抽样误差
C:系统误差
D:随机性误差
正确答案:【登记性误差】
4、多选题:常见的数据变换操作包括()。
A:聚集
B:规范化
C:平滑
D:属性构造
E:数据规约
正确答案:【聚集;规范化;平滑;属性构造;数据规约】
5、多选题:平滑处理在科学研究中广泛使用,常用方法有()。
A:聚类法
B:单纯移动平均
C:滤波法
D:加权移动平均
正确答案:【单纯移动平均;滤波法;加权移动平均】
6、多选题:维数归约的主要方法有()。
A:逐步向前删除
B:逐步向前选择
C:逐步向后删除
D:逐步向后选择
正确答案:【逐步向前选择;逐步向后删除】
7、判断题:抽样极限又称置信区间,是指一定概率下抽样误差的真实范围。
A:错
B:对
正确答案:【错】
8、判断题:数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简属性数量。
A:对
B:错
正确答案:【错】
9、判断题:聚集也称为数据汇总,用来构建数据立方体。
A:错
B:对
正确答案:【对】
10、判断题:在概率论和统计学中,协方差用于衡量两个变量的平均误差。
A:对
B:错
正确答案:【错】
第六章 单元测试
1、单选题:在计算机领域,()用来描述数据的起源或者出处。
A:缘由
B:溯源
C:源头
D:来源
正确答案:【溯源】
2、单选题:由于采集设备异常,造成接收的数据取值不合理,是属于()类型的数据质量问题。
A:数据失效
B:缺少完整性约束
C:空值
D:噪声数据
正确答案:【噪声数据】
3、单选题:数据质量的相关技术中,()被用来检查文件系统或者数据库中数据的过程。
A:数据集成
B:数据采集
C:数据剖析
D:数据清洁
正确答案:【数据剖析】
4、单选题:在四种数据集成技术中,()技术可以实现对各个数据源数据的抽取、清洗、转换和复制。
A:联邦数据库系统结构
B:MPP 数据库存储与处理架构
C:基于中间件的数据集成模型
D:基于数据仓库的数据集成模型
正确答案:【基于数据仓库的数据集成模型】
5、多选题:数据剖析的分类是()。
A:多源数据
B:结构化数据
C:单源数据
D:非结构化数据
正确答案:【多源数据;单源数据】
如有任何疑问请及时联系QQ 50895809反馈