第一章 单元测试

1、判断题:回归和分类都是有监督学习问题。()
A:对
B:错
正确答案:【对】

2、判断题:输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题。()
A:错
B:对
正确答案:【错】

3、单选题:关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x 是自变量,y 是因变量。()
A:回归在 x 和 y 之间是非对称的,相关在 x 和 y 之间是互为对称的
B:回归在 x 和 y 之间是对称的,相关在 x 和 y 之间是非对称的
C:回归和相关在 x 和 y 之间都是互为对称的
D:回归和相关在 x 和 y 之间都是非对称的
正确答案:【回归在 x 和 y 之间是非对称的,相关在 x 和 y 之间是互为对称的】

4、判断题:如果一个经过训练的机器学习模型在测试集上达到 100% 的准确率,这就意味着该模型将在另外一个新的测试集上也能得到 100% 的准确率。()
A:对
B:错
正确答案:【错】

5、判断题:机器学习学得的模型适用于新样本的能力,称为”泛化”能力,这是针对分类和回归等监督学习任务而言的,与聚类这样的无监督学习任务无关。()
A:对
B:错
正确答案:【错】

6、判断题:机器学习时,我们通常假设样本空间中的全体样本都服从某个未知”分布”,并且我们获得的每个样本都是独立地从这个分布上采样获得的。()
A:对
B:错
正确答案:【对】

7、判断题:从归纳偏好一般性原则的角度看,”奥卡姆剃刀” (Occam’s razor)准则与“大道至简”说的是相同的道理。()
A:错
B:对
正确答案:【对】

8、多选题:以下方法或系统属于”符号主义” (symbolism)学习技术的是()
A:”结构学习系统”
B:”概念学习系统”
C:”基于逻辑的归纳学习系统“
D:支持向量机
正确答案:【”结构学习系统”;”概念学习系统”;”基于逻辑的归纳学习系统“】

9、多选题:以下方法或技术属于统计学习范畴的是()
A:支持向量机
B:核方法
C:Hopfield神经网络
D:感知机
正确答案:【支持向量机;核方法】

10、判断题:归纳学习相当于”从样例中学习”,即从训练样例中归纳出学习结果。()
A:错
B:对
正确答案:【对】

第二章 单元测试

1、判断题:回归问题和分类问题都有可能发生过拟合。()
A:对
B:错
正确答案:【对】

2、多选题:对于k折交叉验证, 以下对k的说法正确的是 ()
A:选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)
B:k越大, 不一定越好, 选择大的k会加大评估时间
C:在选择k时, 要最小化数据集之间的方差
D:k越大越好
正确答案:【选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集);k越大, 不一定越好, 选择大的k会加大评估时间;在选择k时, 要最小化数据集之间的方差】

3、多选题:小明参加Kaggle某项大数据竞赛,他的成绩在大赛排行榜上原本居于前20,后来他保持特征不变,对原来的模型做了1天的调参,将自己的模型在自己本地测试集上的准确率提升了3%,然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在大赛官方的测试集上准确率反而下降了。对此,他的朋友们展开了讨论,下列说法正确的是()
A:小明这个有可能是由于过拟合导致的
B:小明可以考虑一下,使用交叉验证来验证一下是否发生了过拟合
C:从机器学习理论的角度,这样的情况不应该发生,应该去找大赛组委会反应
D:小明应该乖乖使用默认的参数就行了,调参是不可能有收益的
正确答案:【小明这个有可能是由于过拟合导致的;小明可以考虑一下,使用交叉验证来验证一下是否发生了过拟合】

4、多选题:下列哪种方法可以用来减小过拟合?()
A:减小模型的复杂度
B:更多的训练数据
C:L1 正则化
D:L2 正则化
正确答案:【减小模型的复杂度;更多的训练数据;L1 正则化;L2 正则化】

5、单选题:下列关于 bootstrap 说法正确的是?()
A:从总的 N 个样本中,有放回地抽取 n 个样本(n < N)
B:从总的 M 个特征中,无放回地抽取 m 个特征(m < M)
C:从总的 N 个样本中,无放回地抽取 n 个样本(n < N)
D:从总的 M 个特征中,有放回地抽取 m 个特征(m < M)
正确答案:【从总的 N 个样本中,有放回地抽取 n 个样本(n < N)】

6、单选题:评估完模型之后,发现模型存在高偏差(high bias),应该如何解决?()
A:减少模型的特征数量
B:增加样本数量
C:增加模型的特征数量
正确答案:【增加模型的特征数量】

第三章 单元测试

1、单选题:如果我们说“线性回归”模型完美地拟合了训练样本(训练样本误差为零),则下面哪个说法是正确的?()
A:选项中的答案都不对
B:测试样本误差不可能为零
C:测试样本误差始终为零
正确答案:【选项中的答案都不对】

2、单选题:下列关于线性回归分析中的残差(Residuals)说法正确的是?()
A:残差均值总是大于零
B:残差均值总是小于零
C:选项中的说法都不对
D:残差均值总是为零
正确答案:【残差均值总是为零】

3、多选题:下列哪些假设是我们推导线性回归参数时遵循的?()
A:X 与 Y 有线性关系(多项式关系)
B:误差一般服从 0 均值和固定标准差的正态分布
C:X 是非随机且测量没有误差的
D:模型误差在统计学上是独立的
正确答案:【X 与 Y 有线性关系(多项式关系);误差一般服从 0 均值和固定标准差的正态分布;X 是非随机且测量没有误差的;模型误差在统计学上是独立的】

4、单选题:一般来说,下列哪种方法常用来预测连续独立变量?()
A:逻辑回归
B:线性回归和逻辑回归都行
C:线性回归
正确答案:【线性回归】

5、单选题:上图中哪一种偏移,是我们在最小二乘直线拟合的情况下使用的?图中横坐标是输入 X,纵坐标是输出 Y。()
A:垂向偏移(perpendicular offsets)
B:两种偏移都可以
C:垂直偏移(vertical offsets)
正确答案:【垂直偏移(vertical offsets)】

6、单选题:加入使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是?()
A:测试样本准确率一定增加或保持不变
B:训练样本准确率一定增加或保持不变
C:训练样本准确率一定会降低
D:测试样本准确率一定会降低
正确答案:【训练样本准确率一定增加或保持不变】

7、单选题:点击率预测是一个正负样本不平衡问题(例如 99% 的没有点击,只有 1% 点击)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是 99%,则下列说法正确的是?()
A:无法对模型做出好坏评价
B:模型正确率很高,不需要优化模型了
C:模型正确率并不高,应该建立更好的模型
正确答案:【模型正确率并不高,应该建立更好的模型】

第四章 单元测试

1、多选题:在决策树分割结点的时候,下列关于信息增益说法正确的是()
A:纯度高的结点需要更多的信息来描述它
B:信息增益可以用”1比特-熵”获得
C:如果选择一个属性具有许多特征值, 那么这个信息增益是有偏差的
正确答案:【信息增益可以用”1比特-熵”获得;如果选择一个属性具有许多特征值, 那么这个信息增益是有偏差的】

2、判断题:如果自变量 X 和因变量 Y 之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。()
A:对
B:错
正确答案:【对】

3、判断题:在决策树学习过程中,用属性α 对样本集D 进行划分所获得的”信息增益”越大,则意味着使用属性α 来进行划分所获得的”纯度提升”越大。()
A:对
B:错
正确答案:【对】

4、多选题:对于划分属性选择,以下说法正确的是()
A:选项中说法都不对
B:C4.5算法并不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。
C:增益率准则对可取值数目较少的属性有所偏好
D:信息增益准则对可取值数目较多的属性有所偏好
正确答案:【C4.5算法并不是直接选择增益率最大的候选划分属性,而是先从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的。;增益率准则对可取值数目较少的属性有所偏好 ;信息增益准则对可取值数目较多的属性有所偏好】

5、判断题:数据集D 的纯度可用它的基尼值来度量,基尼值越小,则数据集D 的纯度越高。()
A:错
B:对
正确答案:【对】

第五章 单元测试

1、单选题:假定你在神经网络中的隐藏层中使用激活函数 X。在特定神经元给定任意输入,你会得到输出 -0.01。X 可能是以下哪一个激活函数? ()
A:ReLU
B:Sigmoid
C:选项中都有可能
D:tanh
正确答案:【tanh】

2、单选题:在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?()
A:更新权重 w 时,使用的是矩阵求逆还是梯度下降
B:多项式阶数
C:使用常数项
正确答案:【多项式阶数】

3、多选题:深度神经网络中常用Relu函数作为激活函数,其好处是:()
A:选项中没有正确答案
B:收敛快
C:具有稀疏特性
D:求梯度简单
正确答案:【收敛快;具有稀疏特性;求梯度简单】

4、单选题:梯度爆炸问题是指在训练深度神经网络的时候,梯度变得过大而损失函数变为无穷。在RNN中,下面哪种方法可以较好地处理梯度爆炸问题?()
A:选项中的方法都不行
B:梯度裁剪
C:用改良的网络结构比如LSTM和GRUs
D:Dropout
正确答案:【梯度裁剪】

剩余章节答案支付后查看
如有疑问请及时联系QQ 50895809反馈
如遇卡顿看不了剩余内容请换个浏览器即可打开

没找到的科目也可以提醒我们更新

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注