第一章 单元测试
1、单选题:下列哪个数据库不属于NoSQL数据库?
A:Neo4J
B:Bigtable
C:Redis
D:Oracle
正确答案:【Oracle】
2、单选题:MongoDB属于哪类NoSQL数据库?
A:键值数据库
B:文档数据库
C:列数据库
D:图数据库
正确答案:【文档数据库】
3、多选题:关系数据库中的参照完整性主要通过()实现。
A:审计
B:外键
C:主键
D:关键字
正确答案:【外键;主键】
4、多选题:在关系数据库中,为了保证数据的一致性,事务处理必须保证具有哪些特性?()
A:持久性
B:一致性
C:隔离性
D:原子性
正确答案:【持久性;一致性;隔离性;原子性】
5、多选题:下面哪些是NoSQL数据库的特点?
A:高可扩展
B:可用性强
C:模式灵活
D:严格的模式定义
正确答案:【高可扩展;可用性强;模式灵活】
6、判断题:大数据价值挖掘是一个从数据到信息,再由信息到知识的凝练过程。
A:错
B:对
正确答案:【对】
7、判断题:NoSQL数据库是对SQL数据库的否定,可以完全代替SQL数据库。
A:错
B:对
正确答案:【错】
8、判断题:在并行和分布式数据库中,共享内存架构的每个处理器都有自己的磁盘,所有处理器共享一个内存空间。
A:对
B:错
正确答案:【对】
9、判断题:关系数据库采取了强一致性约束,符合CAP理论中的C和P。
A:错
B:对
正确答案:【错】
10、单选题:关系数据库的实体完整性主要通过()实现。
A:主键
B:访问控制
C:审计
D:关系表
正确答案:【主键】
第二章 单元测试
1、判断题:OLAP一般运行于业务数据库上,OLTP则一般运行于数据仓库上。
A:错
B:对
正确答案:【错】
2、判断题:数据清洗是剔除数据里的异常,使数据集成为现实世界的准确、没有重复表示的过程。
A:对
B:错
正确答案:【对】
3、判断题:联邦数据库模式不适宜进行需要在很多的数据源之间进行通讯和数据交换的数据集成。
A:错
B:对
正确答案:【对】
4、判断题:列存储数据对排序操作和数据压缩有较好的支持。
A:错
B:对
正确答案:【对】
5、多选题:在数据仓库中,ETL操作包括()。
A:抽取
B:转换
C:加载
D:传输
正确答案:【抽取;转换;加载】
6、多选题:数据源之间的异构性主要包括()。
A:数据模式的异构性
B:通讯协议异构性
C:数据管理系统的异构性
D:数据类型的异构性
正确答案:【数据模式的异构性;通讯协议异构性;数据管理系统的异构性;数据类型的异构性】
7、多选题:下列哪些技术可以用于在大数据使用过程中保护用户隐私?
A:差分隐私
B:联邦数据库
C:同态加密
D:内存数据库
正确答案:【差分隐私;联邦数据库;同态加密】
8、单选题:下列那一项不属于数据清理中的数据异常?
A:覆盖类异常
B:插入类异常
C:语义类异常
D:语法类异常
正确答案:【插入类异常】
9、单选题:在数据库中,规定了员工表的工资字段必须大于0。如果某个员工的工资<0,则属于()。
A:语法类异常
B:语义类异常
C:不规则取值
D:词法错误
正确答案:【语义类异常】
10、单选题:下列哪一项不是大数据管理的新挑战()。
A:多源、异构、跨领域
B:私保护
C:数据规模大
D:高性能数据服务要求
正确答案:【数据规模大】
第三章 单元测试
1、单选题:下列关于不同的簇类型的说法中,不正确的是()。
A:在明显分离的簇中,同簇中的对象之间的距离要大于异簇的对象
B:在基于密度的簇中,簇通常是高密度的区域
C:在基于邻近度的簇中,度量方式通常是最近邻或连通度
D:在基于中心的簇中,簇的中心通常叫质心,即簇中所有点的平均值
正确答案:【在明显分离的簇中,同簇中的对象之间的距离要大于异簇的对象】
2、多选题:以下哪些选项是K-均值聚类面临的问题?
A:K的选择具有挑战性
B:关于数据的球形假设(到聚类中心的距离)
C:贪心算法存在的问题
D:难以处理噪声、异常值
正确答案:【K的选择具有挑战性;关于数据的球形假设(到聚类中心的距离);贪心算法存在的问题;难以处理噪声、异常值】
3、多选题:凝聚层次聚类中,定义簇间的相似度的方法有()。
A:组平均
B:MIN(单链)
C:Ward方法
D:MAX(全链)
正确答案:【组平均;MIN(单链);Ward方法;MAX(全链)】
4、多选题:DBSCAN算法的缺点包括?
A:对于高维问题,密度定义是个比较麻烦的问题
B:对输入参数敏感
C:易受到噪声和异常值的影响
D:当簇的密度变化太大时,不能很好的处理
正确答案:【对于高维问题,密度定义是个比较麻烦的问题;对输入参数敏感;当簇的密度变化太大时,不能很好的处理】
5、多选题:CHAMELEON算法的优点包括:()。
A:复杂度低,适合在大规模数据集应用
B:能识别具有不同形状、大小和密度的簇
C:对噪声和异常数据不敏感
D:能够有效地聚类空间数据
正确答案:【能识别具有不同形状、大小和密度的簇;对噪声和异常数据不敏感 ;能够有效地聚类空间数据】
6、判断题:同一组数据通过不同聚类算法得到的簇的个数是相同的。
A:对
B:错
正确答案:【错】
7、判断题:相似度的度量方式随着数据对象的属性类型改变而改变。
A:错
B:对
正确答案:【对】
8、判断题:全链在处理大小不同的簇时,可能使大的簇破裂。
A:对
B:错
正确答案:【对】
9、判断题:DBSCAN聚类结果受参数影响较小。
A:对
B:错
正确答案:【错】
10、判断题:使用KMEANS、DBSCAN等多种聚类算法对同一数据集进行聚类时,可能会得到不同的分组数(类数),分组数较多的聚类算法一般是比较好的。
A:对
B:错
正确答案:【错】
第四章 单元测试
1、单选题:在贝叶斯定理的公式当中,哪一个是先验概率?
A:P(A)
B:P(B|A)
C:P(A|B)
D:P(B)
正确答案:【P(A)】
2、判断题:在电视游戏节目中,参赛者选择三个门之一; 一扇门的后面有奖,而另两扇的后面没有奖。 参赛者选择一扇门后,游戏节目主持人将打开其余的一扇门,并显示门后没有任何奖金。 然后,主持人询问参赛者是将自己的选择切换到另一扇未打开的门,还是将STICK切换到其原始选择。这对参赛者来说切换们是有利的。
A:错
B:对
正确答案:【对】
3、判断题:贝叶斯决策是由先验概率和类条件概率,推导后验概率,然后利用这个概率进行决策。
A:错
B:对
正确答案:【对】
4、单选题:关于决策树算法的描述正确的是()。
A:决策树可以看成一个If-then规则的集合。
B:在决策树算法中,每个内部结点表示在一个特征或属性;每个分支代表这个特征或属性在某个值域上的输出;每个叶结点代表一种类别。
C:决策树剪枝的目的是为了降低决策树算法的过拟合
D:在决策树的各个结点上以信息增益为准则,选择划分后信息增益最大的属性作为划分属性,递归地构建决策树。
正确答案:【决策树可以看成一个If-then规则的集合。】
5、多选题:决策树中属性选择的方法有()。
A:信息增益
B:信息值
C:信息增益率
D:GINI系数
正确答案:【信息增益;信息增益率;GINI系数】
6、单选题:对于信息增益, 决策树分裂节点, 下面说法正确的是()1.纯度高的节点需要更多的信息去区分2.信息增益可以用”1比特-熵”获得3.如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的
A:3
B:1
C:2和3
D:2
正确答案:【2和3
】
7、单选题:SVM中的泛化误差代表什么?
A:SVM中的误差阈值
B:分类超平面与支持向量的距离
C:SVM对新数据的预测准确度
正确答案:【SVM对新数据的预测准确度】
8、单选题:若参数C(cost parameter)被设为无穷,下面哪种说法是正确的?
A:只要最佳分类超平面存在,它就能将所有数据全部正确分类
B:软间隔SVM分类器将正确分类数据
C:在如此高的误分类惩罚下,存在软间隔分类超平面
正确答案:【只要最佳分类超平面存在,它就能将所有数据全部正确分类】
9、单选题:怎样理解“硬间隔”?
A:SVM只允许极小误差
B:SVM不允许有误差
C:SVM允许分类时出现一定范围的误差
正确答案:【SVM只允许极小误差】
10、单选题:VM算法的最小时间复杂度是O(n²),基于此,以下哪种规格的数据集并不适该算法?
A:中等数据集
B:小数据集
C:大数据集
D:不受数据集大小影响
正确答案:【大数据集】
如有任何疑问请及时联系QQ 50895809反馈