第一章 单元测试
1、多选题:以下哪些情景可以使用大数据分析与预测建模技术?
A:统计某零售超市一个月内哪类牛奶的销量最大
B:预测电商网站某商品未来的销售量
C:保险公司的骗保分析
D:预测某移动运营商客户转移到竞争对手的可能性
正确答案:【预测电商网站某商品未来的销售量;保险公司的骗保分析;预测某移动运营商客户转移到竞争对手的可能性】
2、单选题:有关大数据分析与预测的过程认识正确的是?
A:大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。
B:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。
C:大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。
D:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。
正确答案:【大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。】
3、单选题:有关数据质量的认识正确的是?
A:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。
B:有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。
C:数据预处理就是删除有问题的数据。
D:数据质量一般可以由机器自动完成,不需要数据分析人员参与。
正确答案:【各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。】
4、多选题:下面有关机器学习正确的说法是?
A:机器学习就是简单的统计分析。
B:机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。
C:每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。
D:在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。
正确答案:【机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。;每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。;在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。】
5、单选题:组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?
A:业务监控
B:数据货币化
C:业务优化
D:业务转型
正确答案:【数据货币化】
6、单选题:如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于
A:描述性分析
B:预测性分析
C:规范性分析
D:诊断性分析
正确答案:【预测性分析】
7、判断题:NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。
A:对
B:错
正确答案:【错】
8、单选题:根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?
A:无监督学习
B:诊断性分析
C:统计分析
D:监督学习
正确答案:【监督学习】
9、多选题:大数据分析的预测建模任务主要包括哪几大类问题?
A:模式发现
B:关联分析
C:分类
D:回归
正确答案:【关联分析;分类;回归】
10、多选题:下列哪些分析需要机器学习?
A:寻找移动运营商用户对某类套餐使用的潜在客户
B:预测移动运营商用户未来使用的网络流量
C:统计移动运营商的用户在某段时间对短信的使用数量
D:比较不同移动运营商用户对漫游业务的使用量
正确答案:【寻找移动运营商用户对某类套餐使用的潜在客户;预测移动运营商用户未来使用的网络流量;统计移动运营商的用户在某段时间对短信的使用数量】
第二章 单元测试
1、单选题:将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
A:频繁模式挖掘
B:数据流挖掘
C:数据预处理
D:分类和预测
正确答案:【数据预处理】
2、单选题:下面哪个步骤不属于数据预处理的过程?
A:分类和预测
B:数据归约
C:数据清洗
D:数据转换
正确答案:【分类和预测】
3、单选题:下面哪种不属于数据预处理的方法?
A:估计遗漏值
B:聚集
C:离散化
D:变量代换
正确答案:【估计遗漏值】
4、单选题:以下哪种方法不属于特征选择的标准方法
A:抽样
B:嵌入
C:过滤
D:包装
正确答案:【抽样】
5、单选题:下面不属于创建新属性的相关方法的是
A:特征提取
B:特征构造
C:映射数据到新的空间
D:特征修改
正确答案:【特征修改】
6、多选题:数据清洗包括以下哪几个方面?
A:噪声数据平滑技术
B:按标准差进行的标准化
C:时间相关数据的处理
D:缺失数据处理方法
正确答案:【噪声数据平滑技术;时间相关数据的处理;缺失数据处理方法】
7、多选题:以下哪几个是数据归约的策略?
A:数据立方体聚集
B:维度归约
C:离散化和概念分层产生
D:数值归约
E:数据压缩
正确答案:【数据立方体聚集;维度归约;离散化和概念分层产生;数值归约;数据压缩】
8、多选题:以下哪些是数据离散化技术?
A:分箱技术
B:基于熵的离散化
C:ChiMerge技术
D:饼图分析
正确答案:【分箱技术;基于熵的离散化;ChiMerge技术】
9、多选题:特征选择的目标有哪些?
A:挖掘多个抽象层上的数据
B:提供更快、性价比更高的学习过程
C:更好地理解生成数据的基本过程
D:提高数据挖掘模型的性能
正确答案:【提供更快、性价比更高的学习过程;更好地理解生成数据的基本过程;提高数据挖掘模型的性能】
10、多选题:特征选择算法一般分为那几类?
A:子集选择算法
B:基于熵的离散化
C:特征排列算法
D:分箱技术
正确答案:【子集选择算法;特征排列算法】
第三章 单元测试
1、单选题:有关决策树的说法哪个是错误的?
A:可以转化为决策规则
B:决策树的深度越大越好
C:决策树的算法和神经网络的原理不一样
D:对新样本起到分类预测的作用
正确答案:【决策树的深度越大越好】
2、单选题:有关决策树与特征工程的关系,以下说法错误的是?
A:如果要了解影响签署合同快慢的主要因素,可以使用决策树算法。
B:决策树获得的特征是区分不同类别的最优特征。
C:决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法。
D:决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据。
正确答案:【决策树获得的特征是区分不同类别的最优特征。】
3、单选题:下面有关支持向量机错误的说法是?
A:支持向量机是把高维的数据投影到低维的空间进行分类。
B:支持向量机一般处理两分类的问题。
C:支持向量机既可以处理线性可分的问题,也可以处理非线性可分的问题。
D:对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。
正确答案:【支持向量机是把高维的数据投影到低维的空间进行分类。】
4、多选题:以下哪些不是贝叶斯网络的应用场景?
A:机器故障诊断
B:中文分词
C:招聘人才选拔规则
D:根据客户消费行为对其进行分组
正确答案:【招聘人才选拔规则;根据客户消费行为对其进行分组】
5、单选题:下面有关线性判别分析错误的说法是哪个?
A:提高不同类样本的可分性。
B:线性变换可以使不同类别样本的距离加大。
C:线性判别分析中线性变换可以使同类样本的方差变大。
D:通过对原始的数据进行线性变换,使得不同类的样本尽量分开。
正确答案:【线性判别分析中线性变换可以使同类样本的方差变大。】
6、单选题:下面有关随机森林的说法哪个是错误的?
A:类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。
B:每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。
C:随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。
D:随机森林训练后只需选择性能最好的树最为预测模型。
正确答案:【随机森林训练后只需选择性能最好的树最为预测模型。】
7、多选题:如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?
A:修改用户的需求。
B:对算法的选择以及参数的调整进行优化。
C:补充或调整样本的选择,并加强样本的预处理。
D:采用多种算法组合。
正确答案:【对算法的选择以及参数的调整进行优化。;补充或调整样本的选择,并加强样本的预处理。;采用多种算法组合。】
8、单选题:以下哪个算法不是基于规则的分类器 ?
A:C4.5
B:C5.0
C:ID3
D:贝叶斯分类器
正确答案:【贝叶斯分类器】
9、单选题:如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?
A:关联分析
B:线性回归分析
C:决策树类算法
D:聚类分析
正确答案:【决策树类算法】
10、单选题:以下哪个指标不能用于决策树的性能评价指标?
A:准确率
B:决策树规则的数目
C:ROC曲线下的面积AUC
D:召回率
正确答案:【决策树规则的数目】
11、单选题:以下关于人工神经网络(ANN)的描述正确的说法是?
A:神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系
B:只能用于分类
C:不能确定输入属性的重要性
D:训练ANN是一个很耗时的过程
正确答案:【训练ANN是一个很耗时的过程】
12、单选题:神经网络由许多神经元(Neuron)组成,下列关于神经元的陈述中哪一个是正确的?
A:
一个神经元可以有一个输入和多个输出
B:
一个神经元可以有多个输入和多个输出
C:
其他选项都正确
D:
一个神经元可以有多个输入和一个输出
正确答案:【
其他选项都正确
】
13、单选题:有关前馈神经网络的认识正确的是?
A:神经网络训练过程是拟合训练数据模式的过程
B:神经网络模型的分类能力比决策树好
C:神经网络可用于分类和聚类
D:神经网络训练后很容易得到分类的规则
正确答案:【神经网络训练过程是拟合训练数据模式的过程】
14、单选题:下面关于感知机的说法中正确的是?
A:单个感知机是线性回归的训练过程
B:某一神经元可以连接下一层的多个神经元,表示该神经元有多个输出
C:其他都不对
D:在感知机中引入激活函数可以解决与异或问题(XOR)
正确答案:【单个感知机是线性回归的训练过程】
15、单选题:在一个神经网络里,确定每一个神经元的权重和偏差是模型拟合训练样本的目标,比较有效的办法是什么?
A:
搜索所有权重和偏差的组合,直到得到最佳值。
B:
根据人工经验随机赋值。
C:
赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。
D:
其他选项都不正确
正确答案:【
赋予一个初始值,然后迭代更新权重,直至代价函数取得极小。
】
16、多选题:有关神经网络训练时使用的学习率参数说法正确的是
A:网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。
B:学习率可以与其他网络参数一起训练,对降低代价函数是有利的。
C:学习率过大更容易导致训练陷入局部极小值。
D:学习率可以随着训练误差动态调整效果更好。
正确答案:【网络训练时刚开始学习率可以大一些,以便提高学习速度,随后应减少学习率,以免引起学习震荡。;学习率可以与其他网络参数一起训练,对降低代价函数是有利的。;学习率可以随着训练误差动态调整效果更好。】
17、多选题:激活函数通过具有以下哪些性质?
A:非线性
B:可微性
C:单调性
D:计算简单
正确答案:【非线性;可微性;单调性;计算简单】
18、多选题:在神经网络训练中,有关学习率调整说法错误的是?
A:学习率设置不当会引起神经网络过拟合。
B:固定学习率设置太大可能会使神经网络训练震荡不收敛。
C:学习率太小会使神经网络的训练迅速达到极小值。
D:学习率可以根据损失函数(代价函数)减少的快慢动态调整。
正确答案:【学习率设置不当会引起神经网络过拟合。;学习率太小会使神经网络的训练迅速达到极小值。】
19、判断题:减少神经网络过拟合可以通过增加网络的神经元个数或层数解决。
A:错
B:对
正确答案:【错】
20、判断题:BP神经网络在训练过程中,损失函数可能比较大,但随着训练的进行,损失函数基本不变化了,这种现象说明神经网络陷入全局最优解
A:对
B:错
正确答案:【错】
如有任何疑问请及时联系QQ 50895809反馈