一、机器学习相关

1-1 简述解决一个机器学习问题时，你的流程是怎样的？
1. 确定问题：有监督问题还是无监督问题？回归问题还是分类问题？
2. 数据收集与处理
3. 特征工程：包括特征构建、特征选择、特征组合等
4. 模型训练、调参、评估：包括模型的选择，选择最优的参数
5. 模型部署：模型在线上运行的效果直接决定模型的成败
1-2 损失函数是什么，如何定义合理的损失函数？

机器学习模型关于单个样本的预测值与真实值的差称为损失。用于计算损失的函数称为损失函数。损失函数是$f(x)$和$y$的非负实值函数函数。
1-3 回归模型和分类模型常用损失函数有哪些？各有什么优缺点

回归模型常用的损失函数有：
1. 0-1损失函数： $$ L(f(x),y) = \begin{cases} 1, & y \neq f(x) \ 0, & y = f(x) \end{cases} $$
2. 绝对损失函数：异常点多的情况下鲁棒性好；但不方便求导 $$ L(f(x), y) = |f(x)-y| $$

平方损失函数：求导方便，能够用梯度下降法优化；对异常值敏感 $$ L(f(x),y) = (f(x)-y)^2 $$
对数损失函数/对数似然损失函数： $$ L(P(Y|X),Y) = -{\rm log} P(Y|X) $$
Huber 损失函数：结合了绝对损失函数和平方损失函数的优点；缺点是需要调整超参数 $δ$ $$ L_{Huber}(f, y) = \begin{cases} (f-y)^2 & |f-y| \leq \delta \ 2 \delta |f-y| - \delta^2 & |f-y| > \delta \end{cases} $$
Log-Cosh 损失函数：具有Huber的所有优点，同时二阶处处可微（牛顿法要求二阶可微） $$ L(f,y) = \log \cosh(f-y) $$

1-4 什么是结构误差和经验误差？训练模型的时候如何判断已经达到最优？

经验风险（经验损失）：模型 $f (X)$ 关于训练数据集的平均损失 $$ R_{\rm emp}(f) = \frac{1}{N} \sum_{i=1}^N L(y_i,f(x_i)) $$ 结构风险：是在经验风险上加上表示模型复杂度的正则化项 $$ R_{\rm srm}(f) = \frac{1}{N} \sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f) $$ 经验风险最小化的策略认为，经验风险最小的模型是最优的模型。

结构风险最小化是为了防止过拟合而提出的，结构风险最小化等价于正则化。结构风险最小化的策略认为结构风险最小的模型是最优的模型。

1-5 模型的“泛化”能力是指？如何提升模型泛化能力？

通常将模型对未知数据的预测能力称为泛化能力（generalization ability）。现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。

1-6 如何选择合适的模型评估指标？AUC、精准度、召回率、F1值都是什么？如何计算？有什么优缺点？

TP：将正类预测为正类数

FN：将正类预测为负类数

FP：将负类预测为正类数

TN：将负类预测为负类数

$分类任务指标$

Accuracy（准确率）：分类正确的样本占总样本个数的比例 $$ Accuracy = \frac{n_{correct}}{n_{total}} $$

缺点：不同类别的样本比例非常不均衡时，占比大的类别往往成为影响准确率的最主要因素。比如，当负样本占99%时，分类器把所有样本都预测为负样本也可以获得99%的准确率。
解决：可以使用每个类别下的样本准确率的算术平均（平均准确率）作为模型评估的指标。

Precision（精确率）：分类正确的正样本个数占分类器判定为正样本的样本个数的比例 $$ Precision = \frac{TP}{TP+FP} $$ Recall（召回率）：分类正确的正样本数占真正的正样本个数的比例 $$ Recall = \frac{TP}{TP+FN} $$ F1-score：precision和recall的调和平均值；当精确率和召回率都高时，F1值也会高 $$ {\rm F1} = \frac{2 \times precision \times recall}{precision + recall} $$ 在排序问题中，通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本，而是采用Top N返回结果的Precision和Recall值来衡量排序模型的性能。即认为模型返回的Top N结果就是模型判定的正样本，计算前N个位置的Precision@N和Recall@N。为了综合评估一个排序模型的好坏，不仅要看模型在不同Top N下的Precision@N和Recall@N，而且最好画出模型的P-R曲线。P-R曲线的横轴是Recall，纵轴是Precision。

ROC：横坐标为假阳性率（False Positive Rate，FPR）；纵坐标为真阳性率（True Positive Rate，TPR） $$ FPR = \frac{FP}{N} \ TPR = \frac{TP}{P} $$ 其中P是真实的正样本的数量，N是真实的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被预测为正样本的个数。

【如何绘制ROC曲线】通过不断移动分类器的“截断点”来生成曲线上的一组关键点。在二分类问题中，模型输出一般是预测样本为正例的概率，在输出最终的正例负例之前，我们需要制定一个阈值。大于该阈值的样本判定为正例，小于该阈值的样本判定为负例。通过动态调整截断点，绘制每个截断点对应位置，再连接所有点得到最终的ROC曲线。

AUC：ROC曲线下的面积大小。计算AUC值只要沿着ROC横轴做积分就可以。AUC取值一般在0.5~1之间。AUC越大，分类性能越好。AUC表示预测的正例排在负例前面的概率。

指标想表达的含义，简单来说其实就是随机抽出一对样本（一个正样本，一个负样本），然后用训练得到的分类器来对这两个样本进行预测，预测得到正样本的概率大于负样本概率的概率

AUC为0.5表明对正例和负例没有区分能力，对于不论真实类别是1还是0，分类器预测为1的概率是相等的。

我们希望分类器达到的效果：对于真实类别为1的样本，分类器预测为1的概率（TPR）要大于真实类别为0而预测类别为1的概率（FPR），即y>x

AUC的计算方法同时考虑了分类器对于正例和负例的分类能力，在样本不平衡的情况下，依然能够对分类器作出合理的评价。

思路：1.首先对预测值进行排序，排序的方式用了python自带的函数sorted，详见注释。

　　　2.对所有样本按照预测值从小到大标记rank，rank其实就是index+1，index是排序后的sorted_pred数组中的索引

　　　3.将所有正样本的rank相加，遇到预测值相等的情况，不管样本的正负性，对rank要取平均值再相加

4.将rank相加的和减去正样本排在正样本之后的情况，再除以总的组合数，得到auc

$回归任务指标$

RMSE：计算预测值和实际值的平均误差 $$ {\rm RMSE} = \sqrt{\frac{\sum_{i=1}^n (y_i-\hat{y}_i)^2}{n}} $$

1-7 什么是混淆矩阵？

混淆矩阵，又称误差矩阵，就是分别统计分类模型归错类，归对类的观测值个数，然后把结果放在一个表里展示出来。这个表就是混淆矩阵。

混淆矩阵是ROC曲线绘制的基础，同时它也是衡量分类型模型准确度中最基本，最直观，计算最简单的方法。

混淆矩阵预测结果预测结果

真实情况反例正例

反例 TN（真反例） FP（假正例）

正例 FN（假反例） TP（真正例）
- TN：True Negative，被判定为负样本，事实上也是负样本
- FP：False Positive，被判定为正样本，但事实上是负样本
- FN：False Negative，被判定为负样本，但事实上是正样本
- TP：True Positive，被判定为正样本，事实上也是正样本
1-8 ROC曲线如何绘制？相比P-R曲线有什么特点？

ROC曲线的纵轴为TPR，横轴为FPR，曲线上每个点对应一个TPR和FPR。通过调整模型阈值可以得到一个个点，从而将各个点连起来即可得到ROC曲线。

一般情况下，PR曲线易受样本数量的影响，样本数量不均衡情况下PR曲线会有明显变化，故一般使用ROC曲线。
1-9 如何评判模型是过拟合还是欠拟合？遇到过拟合或欠拟合时，你是如何解决？

过拟合是指学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象。

当训练集效果差，欠拟合（如accuracy<0.8）；训练集效果好，测试集效果差，过拟合

欠拟合解决方法：

增加特征
提高模型复杂度：神经网络提高神经元数、增加层数；SVM使用核函数；
减小正则项的系数

过拟合解决方法：

提高样本数量：
- 神经网络：Data Augmentation（数据增强）
简化模型：
- 神经网络使用 Dropout、Early Stopping
- 决策树剪枝、限制树的深度
加入正则化项（L1或L2）或提高惩罚系数
使用集成学习
神经网络中使用dropout机制
early stopping
标签平滑

1-10 你是如何针对应用场景选择合适的模型？
1-11 如何选择模型中的超参数？有什么方法，并说说其优劣点

超参搜索算法一般包括的要素（1）目标函数（2）搜索范围，上限和下限缺点（3）其他参数，如搜索步长。

网格搜索

查找搜索范围内所有的点来确定最优值；实际应用中先用较大搜索范围和较大步长，寻找全局最优值可能位置；然后逐步缩小搜索范围和搜索步长，寻找更精确位置。

优点
- 简单
- 如果采用较大的搜索范围和较小步长，有很大概率找到全局最优值
缺点
- 耗时
- 目标函数非凸时，可能错过全局最优解

随机搜索

不再测试上界和下界之间的所有值，而是在搜索范围中随机选取样本点。如果样本点集足够大，通过随机搜索也能大概率找到全局最优解或其近似。

优点
- 更快
缺点
- 可能错过全局最优解

贝叶斯优化算法

对目标函数形状进行学习，找到使目标函数向全局最优值提升的参数。

优点
- 不同于前两种方法测试一个新点时会忽略前一个点的信息；贝叶斯优化算法充分利用之前的信息
缺点
- 容易陷入局部最优值
1-12 误差分析是什么？你是如何进行误差分析？

误差诊断：通过训练误差和测试误差来分析模型是否存在高方差、高偏差。
- 如果训练误差较高：说明模型的偏差较大，模型出现了欠拟合。
- 如果训练误差较低，而测试误差较高：说明模型的方差较大，出现了过拟合。
- 如果训练误差较低，测试误差也较低：说明模型的方差和偏差都适中，是一个比较理想的模型。
- 如果训练误差较高，且测试误差更高：说明模型的方差和偏差都较大。
上述分析的前提是：训练集、测试集的数据来自于同一个分布，且最优误差较小。否则讨论更复杂。
1-13 你是如何理解模型的偏差和方差？什么样的情况是高偏差，什么情况是高方差？
- 高偏差对应于模型的欠拟合：模型过于简单，以至于未能很好的学习训练集，从而使得训练误差过高。
  
  此时模型预测的方差较小，表示预测较稳定。但是模型预测的偏差会较大，表示预测不准确。
- 高方差对应于模型的过拟合：模型过于复杂，以至于将训练集的细节都学到，将训练集的一些细节当做普遍的规律，从而使得测试集误差与训练集误差相距甚远。
1-14 出现高偏差或者高方差的时候你有什么优化策略？
1-15 奥卡姆剃刀定律是什么？对机器学习模型优化有何启发？举例说明

奥卡姆剃刀定律：若有多个假设与观察一致，则选最简单的那个

奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的，也就是应该选择的模型。

从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

1-16 线性模型和非线性模型的区别？哪些模型是线性模型，哪些模型是非线性模型？

非概率模型可以分为线性模型和非线性模型。如果函数 $y = f (x)$ 或 $z = g (x)$ 是线性函数，则称模型是线性模型，否则成模型为非线性模型。

线性模型：感知机、线性支持向量机、k近邻、k均值、潜在语义分析

非线性模型：核函数支持向量机、AdaBoost，神经网络

1-17 生成式模型和判别式模型的区别？哪些模型是生成式模型，哪些模型是判别式模型？

监督学习方法分为生成方法（generative approach）和判别方法（discriminative approach）。所学习到的模型分别称为生成模型和判别模型。监督学习的模型一般形式为决策函数：$Y = f(X)$ 或者条件概率分布 $P (Y | X)$ 。

生成方法由数据学习联合概率分布 $P (X, Y)$ ，然后求出条件概率分布 $P (Y | X)$ 作为预测模型： $$ P(Y|X) = \frac{P(X,Y)}{P(X)} $$ 之所以成为生成方法，是因为模型表示了给定输入 $X$ 产生输出 $Y$ 的生成关系。

典型的生成模型：朴素贝叶斯法、隐马尔可夫模型。

判别方法由数据直接学习决策函数 $f (X)$ 或者条件概率分布 $P (X, Y)$ 作为预测的模型，关心的是对给定的输入 $X$ ，应该预测什么样的输出 $Y$ 。

典型的判别模型：k近邻、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法、条件随机场。

1-18 概率模型和非概率模型的区别？哪些模型是概率模型，哪些模型是非概率模型？

概率模型与非概率模型的区别在于模型的内在结构。概率模型一定可以表示为联合概率分布的形式，其中的变量表示输入、输出、因变量甚至参数。而针对非概率模型则不一定存在这样的联合概率分布。

统计学习的模型可以分为概率模型（probabilistic model）和非概率模型（non-probabilistic model）或者确定性模型（deterministic model）。在监督学习中，概率模型取条件概率分布形式 $p (y | x)$ ，非概率模型取函数形式 $y = f (x)$ ，其中$x$是输入，$y$是输出。在无监督学习中，概率模型取条件概率分布形式 $p (z | x)$ 或 $p (x | z)$ ，其中$x$是输入，$z$是输出。在监督学习中，概率模型是生成模型，非概率模型是判别模型。

概率模型：决策树、朴素贝叶斯、隐马尔可夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分布、高斯混合模型

非概率模型：感知机、支持向量机、k近邻、AdaBoost、k均值、潜在语义分析、神经网络

逻辑斯蒂回归即可看做概率模型，又可看做非概率模型。

1-19 参数化模型和非参数化模型的区别？哪些模型是参数化模型，哪些模型是非参数化模型？

统计学习模型又可以分为参数化模型（parametric model）和非参数化模型（non-parametric model）。参数化模型假设模型参数的维度固定，模型可以由有限维参数完全刻画；非参数模型假设模型参数的维度不固定或者说无穷大，随着训练数据量的增加而不断增大。

参数化模型：感知机、朴素贝叶斯、逻辑斯蒂回归、k均值、高斯混合模型

非参数化模型：决策树、支持向量机、AdaBoost、k近邻、潜在语义分析、概率潜在语义分析、潜在狄利克雷分配

2、经典机器学习

缺失值较多.直接将该特征舍弃掉，否则可能反倒会带入较大的噪声，对结果造成不良影响。
缺失值较少,其余的特征缺失值都在10%以内，我们可以采取很多的方式来处理:
1. 把NaN直接作为一个特征，假设用0表示；（离散特征取值k维扩充到k+1维）
2. 用均值填充；（连续特征-均值，离散特征-特征取值的众数）
3. 用随机森林等算法预测填充

词袋模型（Bag of Words）：每篇文章看成一袋子词，并忽略每个词出现的顺序。每篇文章可以表示成一个长向量，向量中的每一位代表一个单词，该维对应的权重则反映这个词在原文章中的重要程度，常用TF-IDF来计算权重。

缺点：无法识别出两个不同的词或者词组具有相同的主题。

TF-IDF

N-gram模型：将连续出现的n个词（n<=N）组成的词组也作为一个单独的特征放到向量表示中。

缺点：无法识别出两个不同的词或者词组具有相同的主题。

主题模型（Topic Model）：是一种特殊的概率图模型

词嵌入模型（Word Embedding）：将词向量化；核心思想是将每个词映射到低维空间（K=50~300维）上的一个稠密向量。K维空间的每一维也可以看作一个隐含的主题

2-1-19 讲解TFF原理，它有什么优点和缺点？针对它的缺点，你有什么优化思路？

$T F - I D F (t, d) = T F (t, d) \times I D F (t)$

其中 $T F (t, d)$ 为单词t在文档d中出现的频率，${\rm IDF}(t)$ 是逆文档频率，用来衡量单词t对表达语义所起的重要性 $$ {\rm IDF}(t) = {\rm log} \frac{文章总数}{包含单词t的文章总数+1} $$ 优点：

2-1-20 N-gram算法是什么？有什么优缺点？
2-1-21 讲解一下word2vec工作原理？损失函数是什么？

定义中心词预测上下文$p\left(w_{t+j} | w_{t}\right)$

负采样
[ ]
2-1-22 讲解一下LDA模型原理和训练过程？
2-1-23 Word2vec和LDA两个模型有什么区别和联系？
2-1-24 Skin-gram和cbow有何异同？

不同点：skip-gram使用中心词预测上下文；CBOW用上下文预测中心词

相同点：都是根据word共现的频率建模word的相似度

2-1-25 图像数据如何处理？有哪些常用的图像特征提取方法
2-1-26 你是怎样做特征选择的？卡方检验、信息值（IV）、VOE都是如何计算？

从给定的特征集合中选出相关特征子集的过程称作特征选择feature selection。

进行特征选择的原因：
- 首先，在现实任务中经常会遇到维数灾难问题，这是由于属性过多造成的。如果能从中选择出重要的特征，使得后续学习过程仅仅需要在一部分特征上构建模型，则维数灾难问题会大大减轻。
  
  从这个意义上讲，特征选择与降维技术有相似的动机。事实上它们是处理高维数据的两大主流技术。
- 其次，去除不相关特征往往会降低学习任务的难度。
要想从初始的特征集合中选取一个包含了所有重要信息的特征子集，如果没有任何领域知识作为先验假设，则只能遍历所有可能的特征组合。

这在计算上是不可行的，因为这样会遭遇组合爆炸，特征数量稍多就无法进行。

一个可选的方案是：
- 产生一个候选子集，评价出它的好坏。
- 基于评价结果产生下一个候选子集，再评价其好坏。
- 这个过程持续进行下去，直至无法找到更好的后续子集为止。
常见的特征选择方法大致可分为三类：过滤式filter、包裹式wrapper、嵌入式embedding 。

过滤式选择
- 过滤式方法先对数据集进行特征选择，然后再训练学习器，特征选择过程与后续学习器无关。
  
  这相当于先用特征选择过程对初始特征进行过滤，再用过滤后的特征来训练模型。
包裹式选择
- 与过滤式特征选择不考虑后续学习器不同，包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。其目的就是为给定学习器选择最有利于其性能、量身定做的特征子集。LVW算法中使用随机策略来进行子集搜索。
  - 优点：由于直接针对特定学习器进行优化，因此从最终学习器性能来看，效果比过滤式特征选择更好。
  - 缺点：需要多次训练学习器，因此计算开销通常比过滤式特征选择大得多。
嵌入式选择
- 嵌入式特征选择是将特征选择与学习器训练过程融为一体，两者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征选择。
- 以线性回归模型为例。引入 $L_{1}$ 范数（lasso回归）除了降低过拟合风险之外，还有一个好处：它求得的 $\vec{w}$ 会有较多的分量为零。即：它更容易获得稀疏解。
- 于是基于 $L_{1}$ 正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程与学习器训练过程融为一体，二者同时完成。
- $\vec{w}$ 取得稀疏解意味着初始的d个特征中仅有对应着$\overrightarrow{\mathrm{w}}$的非零分量的特征才会出现在最终模型中。$L_1$ 正则化问题的求解可以用近端梯度下降Proximal Gradient Descent:PGD算法求解。
2-1-27 计算特征之间的相关性方法有哪些？有什么优缺点

基础算法原理和推导

KNN

2-2-1 Knn建模流程是怎样的？

（1）根据给定的距离度量，在训练集 $T$ 中找出与 $x$ 最邻近的 $k$ 个点，涵盖这 $k$ 个点的邻域记作 $N_{k} (x)$ ；

（2）在$N_k(x)$中根据分类决策规则（如多数表决）决定 $x$ 的类别 $y$ ： $$ y=\arg \max {c{j}} \sum_{x_{i} \in N_{k}(x)} I\left(y_{i}=c_{j}\right), \quad i=1,2, \cdots, N_{i} \quad j=1,2, \cdots, K $$ 在上式中，$I$为指示函数，即当$y_{i}=c_{j}$时为1，否则为0

2-2-2 Knn优缺点是什么？

knn优点：

理论成熟，思想简单，既可以用来做分类又可以做回归
KNN是一种在线技术，新数据可以直接加入数据集而不必进行重新训练
可用于非线性分类（数据集不要求线性可分）
和朴素贝叶斯之类的算法比，对数据没有假设，准确度高，对异常点不敏感

knn缺点：

计算量大，尤其是数据集非常大的时候
样本不平衡的时候，对稀有类别的预测准确率低
KD树，球树之类的模型建立需要大量的内存
k值大小的选择很重要

2-2-3 Knn适合什么样的场景和数据类型？

通常最近邻分类器使用于特征与目标类之间的关系为比较复杂的数字类型，或者说二者关系难以理解，但是相似类间特征总是相似。

数据要求归一化，统一各个特征的量纲。
2-2-4 常用的距离衡量公式都有哪些？具体说明它们的计算流程，以及使用场景？

特征空间 $X$ 是n维实数向量空间 $R^{n}$ ，$x_i,x_j\in \mathcal{X}, x_i = (x_i^{(1)}, x_i^{(2)},\cdots x_i^{(n)} ), x_j = (x_j^{(1)}, x_j^{(2)}, \cdots, x_j^{(n)})$ 。则 $x_{i}, x_{j}$ 的 $L_{p}$ 距离（闵可夫斯基距离）定义为 $$ L_p(x_i, x_j) = (\sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}|)^{\frac{1}{p}} $$ 这里 $p \geq 1$ 。

1.欧式距离

当 $p = 2$ 时，称为欧氏距离，强调数值上的绝对误差

是严格定义的距离，满足正定性、对称性、三角不等式 $$ L_2(x_i, x_j) = (\sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}|)^{\frac{1}{p}} $$ 2.曼哈顿距离（p=1） $$ L_1(x_i, x_j) = \sum_{l=1}^n |x_i^{(l)}-x_j^{(l)}| $$ 3.切比雪夫距离（$p = \infty$），各个坐标距离数值差的绝对值的最大值 $$ L_{\infty}(x_i, x_j) = \mathop{\max}_{l} \ |x_i^{(l)}-x_j^{(l)}| $$ 4.马氏距离

考虑各个分量（特征）之间的相关性并与各个分量的尺度无关。给定一个样本集合$X$，$X=(x_{ij}){m\times n}$，其协方差矩阵记为$S$。样本$x_i$与样本$x_j$之间的马氏距离$d{ij}$定义为 $$ d_{ij} = [(x_i - x_j)^TS^{-1}(x_i - x_j)]^{\frac{1}{2}} $$ 当$S$为单位矩阵时，即样本数据的各个分量互相独立且各个分量的方差为1时，马氏距离就是欧氏距离。

汉明距离

两个等长字符串之间的汉明距离是两个字符串对应位置的不同字符的个数

1011101 与 1001001 之间的汉明距离是 2。

2143896 与 2233796 之间的汉明距离是 3。

"toned" 与 "roses" 之间的汉明距离是 3。

5.相关系数（correlation coefficient）

相关系数的绝对值越接近1，表示样本越相似；越接近0，表示样本越不相似。

$x_{i}$ 与$x_j$之间的相关系数定义为 $$ r_{ij} = \frac{\sum_{k=1}^{m}\left(x_{k i}-\overline{x}{i}\right)\left(x{k j}-\overline{x}{j}\right)}{\left[\sum{k=1}^{m}\left(x_{k i}-\overline{x}{i}\right)^{2} \sum{k=1}^{m}\left(x_{k j}-\overline{x}_{j}\right)^{2}\right]^{\frac{1}{2}}} $$

$$ \overline{x}{i}=\frac{1}{m} \sum{k=1}^{m} x_{k i}, \quad \overline{x}{j}=\frac{1}{m} \sum{k=1}^{m} x_{k j} $$

4.余弦相似度

强调方向上的相对误差

不是严格定义的距离，满足正定性、对称性，不满足三角不等式 $$ cos(A,B) = \frac{A \cdot B}{||A||_2 ||B||_2} $$ 5.KL散度

计算两个分布的差异性

不是严格定义的距离，满足正定性，不满足对称性、三角不等式

使用场景

欧氏距离：适用于向量各分量的度量标准统一的情况；当某些特征比其他特征取值大很多时，精确度会变差，很多特征值为0，即稀疏矩阵，结果不准，数据点的分布是某个圆心的半径，用欧式距离就不能比较了。

曼哈顿距离：适用于计算类似街区距离这样的实际问题。异常值对分类结果影响比欧式距离小。量纲不同时使用曼哈顿距离比欧式距离好。

总结

用距离度量相似度时，距离越小样本越相似；用相关系数时，相关系数越大样本越相似。

2-2-5 超参数K值过大或者过小对结果有什么影响，你是如何选择K值？

如果选择较小的K值，就相当于用较小的领域中的训练实例进行预测，“学习”近似误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，与此同时带来的问题是“学习”的估计误差会增大，换句话说，K值的减小就意味着整体模型变得复杂，容易发生过拟合；

如果选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少学习的估计误差，但缺点是学习的近似误差会增大。这时候，与输入实例较远（不相似的）训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单。

K=N，则完全不足取，因为此时无论输入实例是什么，都只是简单的预测它属于在训练实例中最多的累，模型过于简单，忽略了训练实例中大量有用信息。

在实际应用中，K值一般取一个比较小的数值，例如采用交叉验证法（简单来说，就是一部分样本做训练集，一部分做测试集）来选择最优的K值。

2-2-6 介绍一下Kd树？如何建树，以及如何搜索最近节点？

kd树是一种对k维空间中的实例点进行存储，以便对其进行快速检索的树形数据结构。kd树是二叉树，表示对k维空间的一个划分。构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分，构成一系列的k维超矩形区域。kd树的每个节点对应于一个k维超矩形区域。

构造平衡kd树过程：

输入：k维空间数据集
Missing or unrecognized delimiter for \left
```
$T=\left{x_{1}, x_{2}, \cdots, x_{N}\right}$
```
，其中$x_{i}=\left(x_{i}^{(1)}, x_{i}^{(2)}, \cdots, x_{i}^{(k)}\right)^{\mathrm{T}}, \quad i=1,2, \cdots, N_{\mathrm{i}}$ 输出：kd树（1）开始：构造根节点，根节点对应于包含T的k维空间的超矩形区域选择 $x^{(1)} $ 为坐标轴，以T中所有实例的 $x^{(1)} $ 坐标的中位数为切分点，将根节点对应的超矩形区域且分为两个子区域。切分由通过切分点并与坐标轴 $x^{(1)}$ 垂直的超平面实现。

由根节点生成深度为1的左、右子节点：左子节点对应坐标 $x^{(1)}$ 小于切分点的子区域，右子节点对应于坐标 $x^{(1)}$ 大于切分点的子区域。

将落在切分超平面上的实例点保存在根节点。

（2）重复：对深度为$j$ 的节点，选择 $x^{(l)}$ 为切分的坐标轴，$l = j({\rm mod}\ k) + 1$，以该节点的区域中所有实例的 $x^{(l)}$ 坐标的中位数为切分点，将该节点对应的超矩形区域切分为两个子区域。切分由通过切分点并与坐标轴 $x^{(l)}$ 垂直的超平面实现。

由该节点生成深度为 $j + 1$ 的左、右子节点：左子节点对应坐标 $x^{(l)}$ 小于切分点的子区域，右子节点对应坐标$x^{(l)}$大于切分点的子区域。

将落在切分超平面上的实例点保存在根节点。

（3）直到两个子区域没有实例存在时停止，从而形成kd树的区域划分

算法：用kd树的最近邻搜索

输入：已构造的kd树：目标点$x$；

输出：$x$的最近邻

（1）在kd树中找出包含目标点$x$的叶节点：从根节点出发，递归地向下访问kd树。若目标点$x$当前维的坐标小于切分点的坐标，则移动到左子节点，否则移动到右子节点。直到子节点为叶节点为止。

（2）以此叶节点为“当前最近点”。

（3）递归地向上回退，在每个节点进行以下操作：

（a）如果该节点保存的实例点比当前最近点距离目标点更近，则以该实例点作为“当前最近点”

（b）当前最近点一定存在于该节点一个子节点对应的区域。检查该子节点的父节点的另一子节点（兄弟节点）对应区域是否有更近的点。具体地，检查另一子节点对应的区域是否与以目标点为球心、以目标点与“当前最近点”间的距离为半径的超球体相交。

如果相交，可能在另一个子节点对应的区域内存在距目标点更近的点，移动到另一个子节点。接着递归地进行最近邻搜索；

如果不相交，向上回退

（4）当回退到根节点时，搜索结束。最后的“当前最近点”即为$x$的最近邻点。

如果实例点是随机分布的，kd树搜索的平均计算复杂度是 $O (l o g N)$ ，这里 $N$ 是训练实例数。**kd树更适用与训练实例数远大于空间维数时的k近邻搜索。**当空间维数接近训练实例数时，它的效率会迅速下降，几乎接近线性扫描。

支持向量机

hinge loss + kernel method

2-3-1 简单讲解SVM模型原理？

支持向量机是是一种二类分类模型，它的基本模型是是定义在特征空间的间隔最大的线性分类器，间隔最大，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略是间隔最大化，可形式化为求解凸二次规划的问题，也等价于正则化的合页损失函数最小化问题。

线性可分支持向量机：当训练数据线性可分，通过硬间隔最大化，学习一个线性的分类器

线性支持向量机：当训练数据近似线性可分，通过软间隔最大化，学习一个线性的分类器

非线性支持向量机：当训练数据线性不可分，通过使用核技巧及软间隔最大化，学习非线性分类器

2-3-2 SVM为什么会对缺失值敏感？实际应用时候你是如何处理？

涉及到距离度量(distance measurement)时，如计算两个点之间的距离，缺失数据就变得比较重要。如果缺失值处理不当就会导致效果很差，如SVM，KNN。

常用的缺失值处理方法：

（1）把数值型变量(numerical variables)中的缺失值用其所对应的类别中(class)的中位数(median)替换。把描述型变量(categorical variables)缺失的部分用所对应类别中出现最多的数值替代(most frequent non-missing value)。【快速简单但效果差】（平均数、中位数、众数、插值等）

（2）将缺失值当成新的数值，NaN

（3）忽略该项数据（当缺失少时）

2-3-3 SVM为什么可以分类非线性问题？

原输入空间是一个非线性可分问题，能用一个超曲面将正负例正确分开；

通过核技巧的非线性映射，将输入空间的超曲面转化为特征空间的超平面，原空间的非线性可分问题就变成了新空间的的线性可分问题。低维映射到高维。

在核函数 $K (x, z)$ 给定的条件下，可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。学习是隐式地在特征空间进行的，在学习和预测中只定义核函数 $K (x, z)$ ，而不需要显式地定义特征空间和映射函数$\phi$，这样的技巧成为核技巧。通常直接计算$K(x,z)$比较容易，而通过$\phi(x)$和$\phi(z)$计算$K(x,z)$并不容易。

对于给定核 $K (x, z)$ ，特征空间和映射函数的取法并不唯一。

2-3-4 常用的核函数有哪些？你是如何选择不同的核函数的？

核函数定义：设$\mathcal{X}$是输入空间，又设$\mathcal{H}$为特征空间，如果存在一个从$\mathcal{X}$到$\mathcal{H}$的映射 $$ \phi(x) : \mathcal{X} \rightarrow \mathcal{H} $$ 使得对所有$x, z \in \mathcal{X}$，函数$K(x, z)$满足条件 $$ K(x, z)=\phi(x) \cdot \phi(z) $$ 则称$K(x, z)$为核函数，$\phi(x)$为映射函数，式中$\phi(x) \cdot \phi(z)$$为\phi(x)$和$\phi(z)$的内积

线性核函数 $$ K(x,z) = x\cdot z $$ 主要用于线性可分的情况。可以看到特征空间到输入空间的维度是一样的，其参数少速度快，对于线性可分数据，其分类效果很理想，因此我们通常首先尝试用线性核函数来做分类，看看效果如何，如果不行再换别的。

多项式核函数（polynomial kernel function） $$ K(x, z)=(x \cdot z+1)^{p} $$ 对应的支持向量机是一个p次多项式分类器。分类决策函数为 $$ f(x)=\operatorname{sign}\left(\sum_{i=1}^{N_{s}} a_{i}^{} y_{i}\left(x_{i} \cdot x+1\right)^{p}+b^{}\right) $$ 多项式核函数可以实现将低维的输入空间映射到高维的特征空间，但是多项式核函数的参数多，当多项式的阶数比较高的时候，核矩阵的元素值将趋于无穷大或者无穷小，计算复杂度会大到无法计算。

高斯核函数（Gaussian kernel function） $$ K(x,z) = exp(-\frac{1}{2} \ ||x - z ||2 ) = \phi(x) \cdot \phi(z) $$ 对应的支持向量机是高斯径向基函数（radial basis function）分类器，分类决策函数为 $$ f(x)=\operatorname{sign}\left(\sum{i=1}^{N_{s}} a_{i}^{} y_{i} \exp \left(-\frac{|x-x_i|^{2}}{2 \sigma^{2}}\right)+b^{}\right) $$ 高斯径向基函数是一种局部性强的核函数，其可以将一个样本映射到一个更高维的空间内，该核函数是应用最广的一个，无论大样本还是小样本都有比较好的性能，而且其相对于多项式核函数参数要少，因此大多数情况下在不知道用什么核函数的时候，优先使用高斯核函数。

Sigmod核函数 $$ K\left(x, z\right)=\tanh \left(\eta \ x \cdot z +\theta\right) $$ 总结

如果特征的数量大到和样本数量差不多，则选用LR或者线性核的SVM；
- （特征维度高，往往线性可分，SVM解决非线性分类问题的思路就是将样本映射到更高维的特征空间中）
如果样本数量很多，由于求解最优化问题的时候，目标函数涉及两两样本计算内积，使用高斯核明显计算量会大于线性核，所以手动添加一些特征，使得线性可分，然后可以用LR或者线性核的SVM
如果特征的数量小，样本的数量正常，则选用SVM+高斯核函数；

2-3-5 RBF核函数一定线性可分么？为什么

根据Cover定理，从低维度映射到高维度后，线性可分的可能性比较大。

而RBF核函数将原始空间映射到无穷维的特征空间，基本线性可分（也有线性不可分的情况，如加入噪声：同一样本不同标签）。如果忽略噪声，同时允许一定限度的误差，可以说升到足够高的维度，几乎所有数据集都是线性可分了。

同时，维度特别高，几乎一定线性可分，也以为这模型特别复杂，几乎一定会碰到过拟合问题。

2-3-6 SVM属于线性模型还是非线性模型？为什么？

基本模型是一个线性分类器；而通过使用核函数可以学习非线性支持向量机

2-3-7 训练误差为0的SVM分类器一定存在吗？说明原因？

对于训练一个不加入松弛变量的SVM模型时，一定存在。百面p55

对于加入松弛变量的SVM的训练误差不一定能达到0

2-3-8 当用支持向量机进行分类时，支持向量越多越好还是越少越好

结论：在n维特征空间中，线性SVM一般会产生n+1个支持向量（不考虑退化情况）

通常的SVM的使用会伴随着核技巧（kernel），这用于将低维空间映射到一个更高维的空间，使得原本不线性可分的数据点变得在高维空间中线性可分。虽然这种映射是隐式的，我们通常并不知道映射到的空间是什么样子。但是根据之前的结论，我们可以认为如果训练出来的SVM有d+1个支持向量，这个kernel在这个任务里就讲原来的数据映射到了一个d维的空间中，并使得其线性可分。

更高的维度通常意味着更高的模型复杂度，所以支持向量越多，表示着训练得到的模型越复杂。根据泛化理论，这意味着更有过拟合的风险。

如果在性能一致的情况下，更少的支持向量可能是更好的。但是这一点其实不绝对，因为泛化理论仅仅是误差的上界，实际的泛化情况的决定因素比较复杂，也可能取决于kernel的性质。所以还是自己做cross validation比较好。

2-3-9 多类分类问题
1. 某些算法原生的支持多分类，如：决策树、最近邻算法等。但是有些算法只能求解二分类问题，如：支持向量机。
2. 对于只能求解二分类问题的算法，一旦遇到问题是多类别的，那么可以将多分类问题拆解成二分类任务求解。
  
  即：
  - 先对原问题进行拆分，然后为拆出的每个二分类任务训练一个分类器。
  - 测试时，对这些二分类器的预测结果进行集成，从而获得最终的多分类结果。
3. 多分类问题有三种拆解方式：
  - 一对其余(One-vs-rest:OvR) 。
    - 为每一对类别训练一个分类器。
  - 一对一(one-vs-one:OvO) 。
    - 训练k(k-1)个分类器
  - 多对多(many-vs-many:MvM) 。

朴素贝叶斯模型

2-4-1 讲解贝叶斯定理？ $$ P\left(B_{i} | A\right)=\frac{P\left(B_{i}\right) P\left(A | B_{i}\right)}{\sum_{j=1}^{n} P\left(B_{j}\right) P\left(A | B_{j}\right)} $$
2-4-2 什么是条件概率、边缘概率、联合概率？

条件概率：条件概率表示在条件$Y=b$成立的情况下，$X=a$的概率，记作$P(X=a|Y=b)$或$P(a|b)$。它具有如下性质： “在条件Y=b下X的条件分布”也是一种“X的概率分布”，因此穷举X的可取值之后，所有这些值对应的概率之和为1 即： $$ \sum_{a} P(X=a | Y=b)=1 $$ 边缘概率：仅与单个随机变量有关的概率称为边缘概率，如 $P (X = a)$ 或 $P (Y = b)$

联合概率：联合概率指的是包含多个条件且所有条件同时成立的概率，记作$P(X=a,Y=b)$或$P(a,b)$

联合概率、边缘概率与条件概率的关系： $$ P(X=a | Y=b)=\frac{P(X=a, Y=b)}{P(Y=b)} $$
2-4-3 后验概率最大化的含义是什么？

朴素贝叶斯法将实例分到后验概率最大的类中。后验概率最大化这等价于期望风险最小化。

假设选择0-1损失函数： $$ L(Y, f(X))=\left{\begin{array}{ll}{1,} & {Y \neq f(X)} \ {0,} & {Y=f(X)}\end{array}\right. $$ 其中 $f (X)$ 是分类决策函数。这是期望风险函数为 $$ R_{\operatorname{cap}}(f)=E[L(Y, f(X))] $$ 期望是对联合分布 $P (X, Y)$ 取的。由此取条件期望 $$ R_{\mathrm{exp}}(f)=E_{X} \sum_{k=1}^{K}\left[L\left(c_{k}, f(X)\right)\right] P\left(c_{k} | X\right) $$ 为了使期望奉献最小化，只需对 $X = x$ 逐个最小化，由此得到 $$ \begin{aligned} f(x) &=\arg \min {y \in \mathcal{Y}} \sum{k=1}^{K} L\left(c_{k}, y\right) P\left(c_{k} | X=x\right) \ &=\arg \min {y \in \mathcal{Y}} \sum{k=1}^{K} P\left(y \neq c_{k} | X=x\right) \ &=\arg \min {y \in \mathcal{Y}}\left(1-P\left(y=c{k} | X=x\right)\right) \ &=\arg \max {y \in \mathcal{Y}} P\left(y=c{k} | X=x\right) \end{aligned} $$ 这样一来，根据期望风险最小化准则就得到了后延概率最大化准则： $$ f(x)=\arg \max {c{k}} P\left(c_{k} | X=x\right) $$ 即朴素贝叶斯法所采用原理
2-4-4 朴素贝叶斯模型如何学习的？训练过程是怎样？

对于给定的训练数据集，首先基于特征条件独立性假设学习输入输出的联合概率分布；

然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。

训练过程：

（1）计算先验概率及条件概率 $$ \begin{array}{l}{P\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}{N}, \quad k=1,2, \cdots, K} \ {P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j}, y_{i}=c_{k}\right)}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)}} \ {j=1,2, \cdots, n ; \quad l=1,2, \cdots, S_{j} ; \quad k=1,2, \cdots, K}\end{array} $$ （2）对于给定实例 $x = {(x^{(1)}, x^{(2)}, \dots, x^{(n)})}^{T}$ ，计算 $$ P\left(Y=c_{k}\right) \prod_{i=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right), \quad k=1,2, \cdots, K $$ （3）确定实例x的类（最大后验概率） $$ y = \arg\max_{c_k}\ P(Y=c_k)\prod_{j}P(X^{(j)}=x^{(j)}|Y=c_k) $$
2-4-5 你如何理解生成模型和判别模型？

生成方法由数据学习联合概率分布 $P (X, Y)$ ，然后求出条件概率分布 $P (Y | X)$ 作为预测模型： $$ P(Y|X) = \frac{P(X,Y)}{P(X)} $$ 之所以成为生成方法，是因为模型表示了给定输入 $X$ 产生输出 $Y$ 的生成关系。

典型的生成模型：朴素贝叶斯法、隐马尔可夫模型。

判别方法由数据直接学习决策函数 $f (X)$ 或者条件概率分布 $P (X, Y)$ 作为预测的模型，关心的是对给定的输入 $X$ ，应该预测什么样的输出 $Y$ 。

典型的判别模型：k近邻、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法、条件随机场。
2-4-6 朴素贝叶斯模型“朴素”体现在哪里？存在什么问题？有哪些优化方向？

"朴素"体现在朴素贝叶斯模型对条件概率分布作了条件独立性假设，这是一个较强的假设。 $$ \begin{aligned} P(X&=x | Y=c_{k} )=P\left(X^{(1)}=x^{(1)}, \cdots, X^{(n)}=x^{(n)} | Y=c_{k}\right) \ &=\prod_{j=1}^{n} P\left(X^{(j)}=x^{(j)} | Y=c_{k}\right) \end{aligned} $$ 存在问题：当特征分布不满足条件独立性假设时，分类的性能不高

优化方法：贝叶斯网络
2-4-7 什么是贝叶斯网络？它能解决什么问题？

朴素贝叶斯法假设输入变量都是条件独立的，如果假设他们之间存在概率依存关系，模型就被成了贝叶斯网络。

贝叶斯网络也称为“信念网”，借助有向无环图来刻画属性之间的依赖关系，并使用条件概率表来描述属性的联合概率分布。贝叶斯网结构有效地表达了属性的条件独立性。

具体来说，一个贝叶斯网B由结构G和参数 $θ$ 表示，即 $B =< G, θ >$ 。网络结构G是一个邮箱无环图，其每个节点对应于一个属性，若两个属性有直接依赖关系，则它们由一条边连接起来；参数 $θ$ 定量描述这种依赖关系，假设属性 $x_{i}$ 在G中的父节点集为 $π_{i}$ ，则 $θ$ 包含了每个属性的条件概率 $θ_{x_{i} | π_{i}} = P_{B} (x_{i} | π_{i})$ 。

给定父节点集，贝叶斯网假设每个属性与它的非后裔属性独立，于是将属性的联合概率分布定义为

$P_{B} (x_{1}, x_{2}, \dots, x_{d}) = \prod_{i = 1}^{d} P_{B} (x_{i} | π_{i}) = \prod_{i = 1}^{d} θ_{x_{i} | π_{i}} 以上图为例，联合概率分布定义为$

$$ P\left(x_{1}, x_{2}, x_{3}, x_{4}, x_{5}\right)=P\left(x_{1}\right) P\left(x_{2}\right) P\left(x_{3} | x_{1}\right) P\left(x_{4} | x_{1}, x_{2}\right) P\left(x_{5} | x_{2}\right) $$ 贝叶斯网学习过程

精确求解NP难，所以（1）贪心法：从某个网络结构出发，每次调整一条边，直到评分函数值不再降低（2）给网络结构施加约束条件：如限定为树形结构等。

贝叶斯网推断

理想情况根据贝叶斯网定义的联合概率分布来精确计算后验概率，但这样的精确推断时NP难的。近似推断采用吉布斯采样法，通过随机游走，使马尔可夫链趋于平稳分布。

2-4-8 为什么说朴素贝叶斯也是线性模型而不是非线性模型呢？

线性分类器是通过特征的线性组合来做出分类决定的分类器。本质上，朴素贝叶斯分类器是一种线性分类器。

朴素贝叶斯分类器是建立在属性变量相互独立的基础上，后验概率为判定准则的分类器。不等式1成立，则样例x=[x_1,...,x_n]为正类。否则，样例为负类。

(1)

线性分类器直观地来说，是在高维样本空间中找到一组超平面，将样本空间划分了两个区域。每个区域对应于不同的类别。数学上来说，线性分类器能找到权值向量w，使得判别公式可以写成特征值的线性加权组合。

(2)

如果公式2成立，则样本属于正类；反之，则样本属于负类。

离散特征的朴素贝叶斯分类器

一般离散特征的取值范围有两种，{-1,1}或者{0,1}。这两种取值方式不会影响分析。不妨假设离散特征的取值范围为{-1,1}。下面的不等式成立，样例x=[x_1,...,x_n]为正类。 (3)

对于某个特征x，我们很容易推导出下面的公式

(4)

其中p(x|F)也有类似的结果，从而有 (5)

将公式5带入朴素贝叶斯分类器的公式3，得到下面的公式 (6)

根据公式6，离散特征的朴素贝叶斯分类器判别公式能够写成特征值的加权线性组合。也就是说，离散特征的朴素贝叶斯分类器本质上是线性分类器。
2-4-9 如何解决用极大似然法可能出现所要估计的概率为0的情况？

分子加1，分母加可能情况数

用极大似然法估计可能会出现所要估计的概率值为0的情况。这是会影响到后验概率的计算结果，使分类产生偏差。解决这一问题的方法是采用贝叶斯估计。具体地，条件概率的贝叶斯估计是 $$ P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(x_{i}^{(j)}=a_{j l}, y_{i}=c_{k}\right)+\lambda}{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+S_{j} \lambda} $$ 式中 $λ \geq 0$ 。等价于在随机变量各个取值的频数上赋予一个正数 $λ$ 。当$\lambda=0$时就是极大似然估计。常取 $λ = 1$ ，这时称为拉普拉斯平滑（laplacian smoothing）。显然，对任何$l=1,2, \cdots, S_{j}, \quad k=1,2, \cdots, K$ 有 $$ \begin{array}{l}{P_{\lambda}\left(X^{(j)}=a_{j l} | Y=c_{k}\right)>0} \ {\sum_{l=1}^{s_{j}} P\left(X^{(j)}=a_{j l} | Y=c_{k}\right)=1}\end{array} $$

表明上式确实为一种概率分布。同样，先验概率的贝叶斯估计是 $$ P_{\lambda}\left(Y=c_{k}\right)=\frac{\sum_{i=1}^{N} I\left(y_{i}=c_{k}\right)+\lambda}{N+K \lambda} $$

线性回归

2-5-1 线性回归的基本思想是？
2-5-2 什么是“广义线性模型”？

考虑单调可微函数 $g (\cdot)$ ，令 $g (y) = {\vec{w}}^{T} \vec{x} + b$ ，这样得到的模型称作广义线性模型 (generalized linear model)。其中函数 $g (\cdot)$ 称作联系函数 (link function) 。
2-5-3 线性回归常用的损失函数有哪些？优化算法有哪些？
2-5-4 线性回归适用什么类型的问题？有哪些优缺点？
2-5-5 请用最小二乘法推倒参数更新公式？

逻辑回归

2-6-1 逻辑回归相比于线性回归有什么异同？

不同点：

逻辑回归处理的是分类问题，线性回归处理的是回归问题；
逻辑回归中认为y是因变量，即逻辑回归的因变量是离散的，线性回归的因变量是连续的。

相同点：

二者都使用了极大似然估计来对训练样本进行建模
求解超参数过程中，都可以使用梯度下降的方法

联系：

如果把一个事件的几率（odds）定义为该事件发生的概率与不发生概率的比值 $\frac{p}{1 - p}$ ，那么逻辑回归可以看做是对于"y=1|x"这一事件的对数几率的线性回归 $$ {\rm log} \frac{p}{1-p} = \theta^{T}x ，其中\ p = P(y=1|x) $$

2-6-2 逻辑回归和广义线性模型有何关系？

可以看做广义线性模型在因变量y服从二元分布时的一个特殊情况。

2-6-3 逻辑回归如何处理多标签分类？

如果一个样本只对应于一个标签（多分类问题）：假设每个样本属于不同标签的概率服从几何分布，使用softmax regression进行分类： $$ h_\theta = \left[ \begin{matrix} p(y=1|x;\theta)\ p(y=2|x;\theta) \ \vdots \ p(y=k|x;\theta) \end{matrix} \right]

\frac{1}{\sum_{j=1}^{k} e^{\theta^T x}}

\left[ \begin{matrix} e^{\theta_1^T x}\ e^{\theta_2^T x} \ \vdots \ e^{\theta_k^T x} \end{matrix} \right]

\tag{3} $$ 其中 $θ_{1}, θ_{2} \dots, θ_{k} \in R^{n}$

如果存在样本可能属于多个标签的情况时，可以训练k个二分类的逻辑回归分类器。第i个分类器用以区分每个样本是否可以归为第i类。

2-6-4 为什么逻辑回归需要进行归一化或者取对数？
- 由于概率的乘积会因为很多原因不便使用（如容易出现数值下溢出），因此转换为对数的形式
2-6-5 为什么逻辑回归把特征离散化之后效果会提升？
1. 在工业界很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列 0/1 的离散特征。
  
  其优势有：
  - 离散化之后得到的稀疏向量，内积乘法运算速度更快，计算结果方便存储。
  - 离散化之后的特征对于异常数据具有很强的鲁棒性。
    
    如：销售额作为特征，当销售额在 [30,100) 之间时，为1，否则为 0。如果未离散化，则一个异常值 10000 会给模型造成很大的干扰。由于其数值较大，它对权重的学习影响较大。
  - 逻辑回归属于广义线性模型，表达能力受限，只能描述线性关系。特征离散化之后，相当于引入了非线性，提升模型的表达能力，增强拟合能力。
    
    假设某个连续特征 $j$ ，它离散化为 $M$ 个 0/1 特征 $j_{1}, j_{2}, \dots, j_{M}$ 。则：$w_{j} * x_{j} \rightarrow w_{j_{1}} * x_{j_{1}}^{\prime}+w_{j_{2}} * x_{j_{2}}^{\prime}+\cdots+w_{j_{M}} * x_{j_{M}}^{\prime}$ 。其中 $x_{j_{1}}^{'}, \dots, x_{j_{μ}}^{'}$ 是离散化之后的新的特征，它们的取值空间都是 $0, 1$ 。
    
    上式右侧是一个分段线性映射，其表达能力更强。
  - 离散化之后可以进行特征交叉。假设有连续特征 $j$ ，离散化为 $M$ 个 0/1 特征；连续特征 $k$ ，离散化为 $N$ 个 0/1 特征，则分别进行离散化之后引入了 $M + N$ 个特征。
    
    假设离散化时，并不是独立进行离散化，而是特征 $M + N$ 联合进行离散化，则可以得到 $M \times N$ 个组合特征。这会进一步引入非线性，提高模型表达能力。
  - 离散化之后，模型会更稳定。
    
    如对销售额进行离散化，[30,100) 作为一个区间。当销售额在40左右浮动时，并不会影响它离散化后的特征的值。
    
    但是处于区间连接处的值要小心处理，另外如何划分区间也是需要仔细处理。
2. 特征离散化简化了逻辑回归模型，同时降低模型过拟合的风险。
  
  能够对抗过拟合的原因：经过特征离散化之后，模型不再拟合特征的具体值，而是拟合特征的某个概念。因此能够对抗数据的扰动，更具有鲁棒性。
  
  另外它使得模型要拟合的值大幅度降低，也降低了模型的复杂度。
2-6-6 类别不平衡问题你是如何处理的？什么是过采样，什么是欠采样？举例

这里讨论中，假设正类样本偏少、反类样本偏多。
1. 对于类别不平衡问题，常用的有三种方法：
  - 基于再缩放策略进行决策，称之为阈值移动threshold-moving 。
  - 直接对训练集里的反类样本进行欠采样undersampling。
  - 直接对训练集里的正类样本进行过采样oversampling。
再缩放
1. 假设对样本 $\vec{x}$ 进行分类时，预测为正类的概率为 p。常规的做法是将p 与一个阈值，比如 0.5 ，进行比较。如果 p>0.5 时，就判别该样本为正类。
  
  概率 p 刻画了样本为正类的可能性，几率 $\frac{p}{1 - p}$ 刻画了正类可能性与反类可能性的比值。
2. 当存在类别不平衡时，假设 $N^{+}$ 表示正类样本数目，$N^{-}$ 表示反类样本数目，则观测几率是 $\frac{N^{+}}{N^{-}}$ 。
  
  假设训练集是真实样本总体的无偏采样，因此可以用观测几率代替真实几率。于是只要分类器的预测几率高于观测几率就应该判断为正类。即如果 $\frac{p}{1 - p} > \frac{N^{+}}{N^{-}}$ ，则预测为正类。
3. 通常分类器都是基于概率值来进行预测的，因此需要对其预测值进行调整。在进行预测的时候，令：
  
  $$ \frac{\overline{p}}{1-\overline{p}}=\frac{p}{1-p} \times \frac{N^{-}}{N^{+}} $$ 然后再将 $\overset{―}{p}$ 跟阈值比较。这就是类别不平衡学习的一个基本策略：再缩放rescalling 。
4. 再缩放虽然简单，但是由于“训练集是真实样本总体的无偏采样”这个假设往往不成立，所以无法基于训练集观测几率来推断出真实几率。
欠采样（下采样）
1. 欠采样会去除一些反类使得正、反类数目接近。
2. 欠采样若随机抛弃反类，则可能丢失一些重要信息。
  
  常用方法是将反类划分成若干个集合供不同学习器使用，这样对每个学习器来看都是欠采样，但是全局来看并不会丢失重要信息。
过采样（上采样）
1. 过采样会增加一些正类使得正、反类数目接近。
2. 过采样不能简单的对原始正类进行重复采样，否则会导致严重的过拟合。
  
  通常在原始正类之间插值来生成额外的正类。
3. 常见的有以下过采样策略：
  - SMOTE方法：对于每个正类样本 $\overrightarrow{\mathbf{x}}{i}^{+}$ ，从它的 $k$ 近邻中随机选取一个样本点 $\hat{\mathbf{x}}{i}^{+}$ ，然后根据下式生成一个新的正类样本：$\overrightarrow{\mathbf{x}}{n e w}^{+}=\overrightarrow{\mathbf{x}}{i}^{+}+\left(\hat{\mathbf{x}}{i}^{+}-\overrightarrow{\mathbf{x}}{i}^{+}\right) \times \delta$ ，其中 $δ \in [0, 1]$ 是随机数。（插值方法）
该方法有两个问题：
- 增加了正类样本之间重叠的可能性。
- 生成了一些没有提供有益信息的样本。
2-6-7 讲解L1和L2正则，它们都有什么作用，解释为什么L1比L2更容易产生稀疏解；对于存在线性相关的一组特征，L1正则如何选择特征？

L1和L2正则，都可以防止过拟合，增强模型的泛化能力；区别在于L1使参数更稀疏，达到特征选取的作用；L2使参数更接近于0

从解空间的形状来看：

L1正则项约束后的解空间是多边形，而L2正则项约束后的解空间是圆形。而多边形的解空间更容易在尖角处与等高线碰撞出稀疏解。

对于存在线性相关的一组特征，L1正则会使得部分参数为0

从函数叠加的观点：

权重衰减（L2正则化的作用）

作用：权重衰减（L2正则化）可以避免模型过拟合问题。思考：L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？原理：（1）从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。（2）从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。
2-6-8 使用交叉熵作为损失函数，梯度下降作为优化方法，推倒参数更新公式

似然函数： $$ L(w)=\prod\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}} $$ 对数似然函数： $$ \begin{aligned} \ln L(w) &=\sum\left[y_{i} \ln \pi\left(x_{i}\right)+\left(1-y_{i}\right) \ln \left(1-\pi\left(x_{i}\right)\right)\right] \=& \sum\left[y_{i} \ln \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\ln \left(1-\pi\left(x_{i}\right)\right)\right] \ &=\sum\left[y_{i}\left(w \cdot x_{i}\right)-\ln \left(1+e^{w \cdot x_{i}}\right)\right] \end{aligned} $$ 损失函数：负对数似然函数 $$ J(W)=-\frac{1}{n} \ln L(w) $$ 使用梯度下降法求解逻辑回归参数估计

求梯度： : $$ \begin{aligned} J\left(w_{k}\right) &=-\frac{1}{N} \ln L\left(w_{k}\right) \Rightarrow-\ln L\left(w_{k}\right) \=-& \sum\left[y_{i}\left(w_{k} \cdot x_{i}\right)-\ln \left(1+e^{w_{k} \cdot x_{i}})\right]\right.\end{aligned} $$

$\begin{aligned} g (w_{k}) & = - \frac{1}{N} \sum_{i} [x_{i} \cdot y_{i} - \frac{x_{i} \cdot e^{w_{k} \cdot x_{i k}}}{1 + e^{w_{k} \cdot x_{i}}}] & = - \frac{1}{N} \sum_{i} x_{i k} [y_{i} - π (w_{k} \cdot x_{i})] \end{aligned}$

2-6-9 代码写出训练函数

FM模型

2-7-1 FM模型与逻辑回归相比有什么优缺点？

优点：
- 存储空间和计算复杂度减小
- 解决样本过于稀疏训练不充分的问题
缺点：
- 记忆能力不如LR
2-7-2 为什么FM模型计算复杂度时O(kn)？
2-7-3 介绍FFM场感知分解机器（Field-aware Factorization Machine），说说与FM异同？
2-7-4 使用FM进行模型训练时候，有哪些核心参数对模型效果影响大？
2-7-5 如何从神经网络的视角看待FM模型？

决策树

2-8-1 讲解完成的决策树的建树过程

自上而下，对样本数据进行树形分类的过程。每个内部节点表示一个特征，叶节点表示一个类别。从顶部根节点开始，所有的样本聚在一起。经过根节点的划分，样本被分到不同的子节点，再根据子节点的特征进一步划分，直至所有样本被归到某一个类别（叶节点）中。

2-8-2 你是如何理解熵？从数学原理上解释熵公式可以作为信息不确定性的度量？

熵（entropy）是表示随机变量不确定性的度量， $X$ 是一个取有限个值的离散随机变量，其概率分布为 $$ P(X = x_i) = p_i, \ i=1,2,\cdots,n $$ 则随机变量 $X$ 的熵定义为 $$ H(X) = -\sum_{i=1}^{n} p_i {\rm log } \ p_i $$ 熵越大，随机变量的不确定性就越大。

而熵其实表示的是一个系统的平均信息量。自信息量是用来描述某一条信息的大小 $$ I = - {\rm log} \ p_i $$ 通常以2为底，单位是bit；含义是用多少位二进制可以表示衡量该信息的大小。而通常我们衡量整个系统的信息量，系统存在多个事件 $X = x_{1}, \dots, x_{n}$ ，每个事件的概率分布$P={p_1,\cdots,p_n}$ ，熵是整个系统的平均信息量 。

2-8-3 联合熵、条件熵、KL散度、信息增益、信息增益比、gini系数都是什么？如何计算？

联合熵：将一维随机变量分布推广到多维随机变量分布 $$ H(X,Y) = -\sum\limits_{x,y} p(x,y)\ {\rm log}\ p(x,y) $$ 条件熵：某个特征A对于数据集D的经验条件熵 $H (D | A)$ 为 $$ H(D|A) = - \sum_{i=1}^{n} \frac{|D_i|}{|D|} H(D_i) \ = - \sum_{i=1}^{n} \frac{|D_i|}{|D|} \lgroup \sum_{k=1}^{K} \frac{|D_{ik}|}{|D_i|} {\rm log } \frac{|D_{ik}|}{|D_i|} \rgroup $$ 信息增益： $g (D, A)$ 定义为数据集D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D | A)$ 的差 $$ g(D,A) = H(D) - H(D|A) $$

信息增益比：特征A对于数据集D 的信息增益比定义为 $$ g_R(D|A) = \frac{g(D|A)}{H_A(D)} $$ 其中 $$ H_A{(D)} = - \sum_{i=1}^{n} \frac{|D_i|}{|D|} {\rm log } \frac{|D_i|}{|D|} $$ 为数据集D关于A的取值熵；n为特征A在D上的取值数目；

Gini系数：描述数据的不确定性。数据集D的Gini系数为 $$ {\rm Gini}(D) = 1 - \sum_{k=1}^{K }(\frac{|C_k|}{|D|})^2 $$ 其中 $C_{k}$ 是 D中第k类的样本子集，K是类的个数。例如二分类问题，K=2。基尼系数越大，样本集合的不确定性也就越大，这一点与熵相似。基尼系数Gini(D,A)表示经A=a分割后集合D的不确定性。

交叉熵：刻画两个概率分布之间的距离，通过q来表示p的交叉熵为；一般p(x)为真实分布，q(x)为预测分布

交叉熵不对称。交叉熵越小，概率分布越接近 $$ H(p,q) = - \sum\limits_{x} p(x) {\rm log } \ q(x) $$ KL散度/相对熵： $$ D_{K L}(p | q)=\sum_{i=1}^{n} p\left(x_{i}\right) \log \left(\frac{p\left(x_{i}\right)}{q\left(x_{i}\right)}\right) $$ n表示事件可能发生的情况总数，KL散度的值越小表示两个分布越接近。 $$ D_{KL}(p||q) = H(p,q) - H(p) $$

机器学习中，我们常常使用KL散度来评估predict和label之间的差别，但是由于KL散度的后半部分是一个常量，所以我们常常将前半部分的交叉熵作为损失函数，其实二者是一样的。

2-8-4 常用的决策树有哪些？ID3、C4.5、CART有啥异同？

不同点	ID3	C4.5	CART
原则	信息增益最大	信息增益比最大	划分后集合基尼指数最小
用途	分类	分类	分类、回归
输入取值	离散	离散、连续	离散、连续
树结构	多叉树	多叉树	二叉树
	特征在层级间不复用	特征在层级间不复用	每个特征可被重复利用
	对样本特征缺失值敏感

ID3 最大信息增益

信息增益 $g (D, A)$ 定义为数据集D的经验熵 $H (D)$ 与特征A给定条件下D的经验条件熵 $H (D | A)$ 的差 $$ g(D,A) = H(D) - H(D|A) $$ 选择 $g (D, A)$ 最大的特征，所有样本根据此特征，划分到不同的节点上。在经验熵不为0的节点中继续生长。ID3算法只有树的生成，容易产生过拟合。

C4.5 最大信息增益比

因为信息增益对取值数目多的属性有所偏好，为了减少这种偏好带来的影响，使用信息增益比来选择最优划分属性。

CART 基尼指数

基尼系数Gini（D）用来表示集合D的不确定性。CART在每一次迭代中选择划分后基尼指数最小的特征及其对应的切分点进行分类。CART是一颗二叉树，每次将数据按特征A的区分分成两份，分别进入左右子树。

2-8-5 决策树如何防止过拟合？前剪枝和后剪枝过程是怎样的？剪枝条件都是什么

通过剪枝防止过拟合。

预剪枝是指在决策树生成的过程中，对每个节点在划分前先进行估计，若当前节点的划分不能带来决策树泛化性能提升，则停止划分，并将当前节点标记为叶子节点；此时可能存在不同类别的样本同时存于同个节点中，按照多数投票的原则判断节点所属类别

预剪枝对于何时停止决策树的生长：

（1）当树达到一定深度

（2）当到达当前节点的样本数量小于某个阈值

（3）计算每次分裂对测试集的准确度提升，小于某个阈值时停止

后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶子节点进行考察，若该节点对应的子树替换成叶子结点能带来泛化性能提升，则将该子树替换为叶子节点。

随机森林（RF）

2-9-1 介绍RF原理和思想
2-9-2 RF是如何处理缺失值？
2-9-3 RF如何衡量特征重要度？
2-9-4 RF“随机”主要体现在哪里？
2-9-5 RF有哪些优点和局限性？
2-9-6 为什么多个弱分类器组合效果会比单个要好？如何组合弱分类器可以获得更好的结果？原因是什么？
2-9-7 Bagging的思想是什么？它是降低偏差还是方差，为什么？

Bagging的思想是通过对数据再抽样，然后在每组样本上训练出来的模型取平均。Bagging是降低方差，防止过拟合。可以这样理解，对n个独立不相关的模型的预测结果取平均，方差是原来单个模型的 $1 / n$ 。

2-9-8 可否将RF的基分类模型由决策树改成线性模型或者knn？为什么？

随机森林属于bagging类的集成学习方法，主要好处是减小集成后分类器的方差，比基分类器的方差小。所以Bagging所采用的的基分类器最好是本身对样本分布较为敏感（不稳定分类器），这样bagging才能体现效果。而线性分类器和KNN属于较为稳定的分类器，本身方差不大，所以将他们作为基分类器使用bagging不能再原基分类器的基础上获得更好的表现。相反地，可能因为bagging的采样而使得训练中难以收敛从而增大集成分类器的偏差。

GBDT

梯度提升Gradient Boosting的基本思想是根据当前模型损失函数负梯度信息来训练新加入的弱分类器，然后将训练好的弱分类器以累加的形式结合到现有的模型中。

GBDT（梯度提升决策树）的核心思想：每一棵树学的是之前所有树结果和的残差，这个残差就是加上预测之后能得到真实值的累加量。

2-10-1 梯度提升和梯度下降有什么区别和联系？

两者都是在每一轮迭代中，利用损失函数相对于模型的负梯度方向的信息来对当前模型进行更新，只不过在梯度下降中，模型是以参数化的形式表示，从而模型的更新等价于参数的更新。

而在梯度提升中，模型并不需要参数化表示，而是直接定义在函数空间中，从而大大扩展了可以使用的模型种类。

2-10-2 你是如何理解Boosting和Bagging？他们有什么异同？

Bagging通过模型集成降低方差，提高弱分类器的性能。

Boosting通过模型集成降低偏差，提高弱分类器的性能。

	Bagging	Boosting
降低	方差	偏差
训练	各个弱分类器可独立训练	弱分类器需要依次生成
典型方法	随机森林	Adaboost，GBDT，XGBoost

2-10-3 讲解GBDT的训练过程？

用每个样本的残差训练下一棵树，直到残差收敛到某个阈值以下，或者树的总数达到某个上限为止。

2-10-4 你觉得GBDT训练过程中哪些环节可以平行提升训练效率？

决策树内部局部并行。

2-10-5 GBDT的优点和局限性有哪些？

优点

（1）预测阶段计算速度块，树与树之间可并行化计算

（2）在分布稠密的数据集上，泛化能力和表达能力都很好

（3）采用决策树作为弱分类器使得GBDT模型具有较好的可解释性和鲁棒性，能够自动发现特征间的高阶关系，并且不需要对数据进行特殊的预处理如归一化等

缺点

（1）GBDT在高维稀疏的数据集上，表现不如支持向量机或者神经网络

（2）GBDT在处理文本分类特征问题上，优势不如在处理数值特征时明显

（3）训练过程需要串行训练，只能在决策树内容采用一些局部并行手段提高训练速度

2-10-6 GBDT是否对异常值敏感，为什么？

GDBT对异常值敏感。对于回归类的问题，如果采用平方损失函数。当出现异常值时，后续模型会对异常值关注过多。

2-10-7 如何防止GBDT过拟合？

在工程应用中，通常利用下列公式来更新模型： $f_{m} (\vec{x}) = f_{m - 1} (\vec{x}) + ν h_{m} (\vec{x}; Θ_{m}), 0 < ν \leq 1$ 。

其中 $ν$ 称作学习率。

学习率是正则化的一部分，它可以降低模型更新的速度（需要更多的迭代）。
- 经验表明：一个小的学习率 ( $ν < 0.1$ ) 可以显著提高模型的泛化能力（相比较于$\nu=1$ ) 。
- 如果学习率较大会导致预测性能出现较大波动。
Freidman 从bagging 策略受到启发，采用随机梯度提升来修改了原始的梯度提升树算法。

每一轮迭代中，新的决策树拟合的是原始训练集的一个子集（而并不是原始训练集）的残差。

这个子集是通过对原始训练集的无放回随机采样而来。
子集的占比 $f$ 是一个超参数，并且在每轮迭代中保持不变。
- 如果 $f = 1$ ，则与原始的梯度提升树算法相同。
- 较小的$f$ 会引入随机性，有助于改善过拟合，因此可以视作一定程度上的正则化。
- 工程经验表明， $0.5 \leq f \leq 0.8$ 会带来一个较好的结果。
这种方法除了改善过拟合之外，另一个好处是：未被采样的另一部分子集可以用来计算包外估计误差。

因此可以避免额外给出一个独立的验证集。

梯度提升树会限制每棵树的叶子结点包含的样本数量至少包含 $m$ 个样本，其中 $m$ 为超参数。在训练过程中，一旦划分结点会导致子结点的样本数少于 $m$ ，则终止划分。

这也是一种正则化策略，它会改善叶结点的预测方差。

2-10-8 在训练过程中哪些参数对模型效果影响比较大？这些参数造成影响是什么？

减小步长需要对应增加最大迭代次数
1. n_estimators: 也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，又容易过拟合，一般选择一个适中的数值。默认是100。在实际调参的过程中，我们常常将n_estimators和下面介绍的参数learning_rate一起考虑。
2. learning_rate: 即每个弱学习器的权重缩减系数νν，也称作步长，在原理篇的正则化章节我们也讲到了，加上了正则化项
3. subsample: 即我们在原理篇的正则化章节讲到的子采样，取值为(0,1]。注意这里的子采样和随机森林不一样，随机森林使用的是放回抽样，而这里是不放回抽样。如果取值为1，则全部样本都使用，等于没有使用子采样。如果取值小于1，则只有一部分样本会去做GBDT的决策树拟合。选择小于1的比例可以减少方差，即防止过拟合，但是会增加样本拟合的偏差，因此取值不能太低。推荐在[0.5, 0.8]之间，默认是1.0，即不使用子采样。

k-means

kmean的总体特点

PCA降维

2-12-1 为什么要对数据进行降维？它能解决什么问题？

高维（多变量）数据，很难观察变量的样本区分能力，也很难观察样本之间的关系。降维是将样本集合中的样本从高维空间转换到低维空间。假设样本原本存在于低维空间，或近似存在与低维空间，通过降维则可以更好地表示样本数据的结构，即更好地表示样本之间的关系。降维有线性降维和非线性降维。

维度灾难
2-12-2 你是如何理解维度灾难？

特征数量超过一定值的时候，分类器的效果反而下降。原因：特征数过多，过拟合
2-12-3 PCA主成分分析思想是什么？

变量之间可能存在相关性，以致增加了分析的难度。考虑用少数不想管的变量来替代相关的变量，用来表示数据，并且要求能保留数据中的大部分信息。

PCA利用正交变换把线性相关变量表示的观测数据转换为少数几个由线性无关变量表示的数据，线性无关的变量称为主成分。PCA属于降维方法。
2-12-4 如何定义主成分？

协方差矩阵的特征向量
2-12-5 如何设计目标函数使得降维达到提取主成分的目的？

PCA目标函数：最大化投影方差。因为方差表示新变量的信息量大小。
2-12-6 PCA有哪些局限性？如何优化

（1）无法进行非线性降维

通过核映射对PCA进行扩展得到核主成分分析（KPCA）

通过流形映射的降维方法，比如等距映射、局部线性嵌入（LLE）、拉普拉斯特征映射等

（2）无监督的，算法没有考虑数据的标签，只是把把元数据映射到方差比较大的方向

有监督的降维方法：线性判别分析 LDA
2-12-7 线性判别分析和主成分分析在原理上有何异同？在目标函数上有何区别和联系？

PCA选择的是投影后数据方差最大的方向。由于PCA是无监督的，因此假设方差越大，信息量越多，用主成分来表示原始数据可以去除冗余的维度，达到降维。

LDA选择的是投影后类内方差最小，类间方差最大的方向。其用到了类别标签信息，为了找到数据中具有判别性的维度，使得原始数据在这些方向投影后，不同类别尽可能区分开。

3、深度学习

DNN

3-1-1 描述一下神经网络？推倒反向传播公式？
3-1-2 讲解一下dropout原理？

在神经网络前向传播的时候，让某个神经元的激活值以一定的概率p停止工作，这样可以使模型泛化性更强，因为它不会太依赖某些局部的特征。

3-1-3 梯度消失和梯度膨胀的原因是什么？有什么方法可以缓解？

（1）深度学习的网络层数太多，在进行反向传播时根据链式法则，要连乘每一层梯度值

（2）每一层的梯度值是由，非线性函数的导数以及本层的权重相乘得到的，这样非线性的导数的大小和初始化权重的大小会直接影响是否发生梯度弥散或者梯度爆炸

注：任何网络都有可能发生梯度弥散或者梯度爆炸，这是深度学习的基本性质决定的，无法避免。

梯度消失（梯度弥散）的原因：

解决方法：

梯度爆炸的原因：

解决方法：

3-1-4 什么时候该用浅层神经网络，什么时候该选择深层网络
3-1-5 Sigmoid、Relu、Tanh激活函数都有哪些优缺点？

Sigmoid $$ f(x) = \frac{1}{1+ exp(-x)} \ f'(x) = f(x)(1-f(x)) $$ $$ \begin{aligned} f'(z) &= (\frac{1}{1+e^{-z}})' \ &= \frac{e^{-z}}{(1+e^{-z})^{2}} \ &= \frac{1+e^{-z}-1}{(1+e^{-z})^{2}}
\ &= \frac{1}{(1+e^{-z})}(1-\frac{1}{(1+e^{-z})}) \ &= f(z)(1-f(z)) \ \end{aligned} $$

优点：

缺点：（1）需要计算指数，速度慢（2）会产生梯度消失问题

Tanh $$ f(x) = tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} \

f'(x) = 1 - (f(x))^2 $$ 优点：

缺点：（1）需要计算指数，速度慢（2）会产生梯度消失问题

Relu $$ f(x) = max(x,0) \ \begin{equation} f'(x)=\left{ \begin{aligned} 1,x>0 \ 0,x\leq0 \ \end{aligned} \right. \end{equation} $$ 优点：（1）从计算的角度上，sigmoid和tanh都需要计算指数，复杂度高，而ReLU只需要一个阈值就可以得到激活值

（2）ReLU的非饱和性可以有效解决梯度消失的问题，提供相对宽的激活边界

（3）ReLU的单侧抑制提供了网络的稀疏表达能力（防止过拟合）

缺点：（1）训练过程中会导致神经元死亡的问题

Leaky ReLU $$ \begin{equation} f(x)=\left{ \begin{aligned} x,x>0 \ ax,x\leq0 \ \end{aligned} \right. \end{equation} \

f'(x)=\left{ \begin{aligned} 1,x>0 \ a,x\leq0 \ \end{aligned} \right. $$ 优点：实现单侧抑制，又保留了部分附体度信息以致不完全消失

缺点：a值需要人工选择

3-1-6 写出常用激活函数的导数

3-1-7 训练模型的时候，是否可以把网络参数全部初始化为0？为什么

不可以；参数全部为0时，网络不同神经元的输出必然相同，相同输出则导致梯度更新完全一样，会使得更新后的参数仍然保持完全相同。从而使得模型无法训练。

3-1-8 Batchsize大小会如何影响收敛速度？

CNN

3-2-1 简述CNN的工作原理？

CNN利用了图像的三个性质：

（1）图像的pattern通常比整张图像小

（2）通用的patterns会出现在图像的不同区域

（3）对图像进行子采样并不影响图像的识别

CNN通过卷积层+pooling层不断堆积，从小的pattern开始不断识别到大的pattern，从而识别整张图像。

CNN适合处理什么问题

具有以上三个特性的问题

3-2-2 卷积核是什么？选择大卷积核和小卷积核有什么影响？
3-2-3 你在实际应用中如何设计卷积核？
3-2-4 为什么CNN具有平移不变性？

参数共享的物理意义是使得卷积层具有平移等变性。在卷积神经网路中，卷积核中的每一个元素将作用于每一次局部输入的特定位置上。

假如图像中有一只猫，无论它出现在图像中的任何位置，我们都应该将它识别为猫，也就是说神经网络的输出对于平移变换来说应当是等变的。

3-2-5 Pooling操作是什么？有几种？作用是什么？

将Pooling核覆盖区域中所有值的平均值（最大值）作为汇合结果

average-pooling，Max-polling，stochastic-polling（对输入数据中的元素按照一定概率大小随机选择，元素值大的activattion被选中的概率大）

Pooling操作后的结果相比起输入减小了，是一种降采样操作。

pooling层的作用

特征不变性（feature invariant）。pooling操作使模型更关注是否存在某些特征而不是特征具体的位置。
数据降维。降采样的操作使模型可以抽取更广范围的特征，同时减小了下一层输入大小，进而减少计算量和参数个数

3-2-6 为什么CNN需要pooling操作？
3-2-7 什么是batchnormalization？它的原理是什么？在CNN中如何使用？

为了解决内部协方差偏移（ICS）问题提出的。高层网络需要不断适应底层输出的分布，导致

对于某一层某个神经元d维输入$\mathrm{x}=\left(x^{(1)} \ldots x^{(d)}\right)$，对每一个维度进行批标准化 $$ \widehat{x}^{(k)}=\frac{x^{(k)}-\mathrm{E}\left[x^{(k)}\right]}{\sqrt{\operatorname{Var}\left[x^{(k)}\right]}} $$

BN训练和测试的区别

先说结论：并不是测试时的mean,var的计算方式与训练时不同，而是测试时的mean,var在训练完成整个网络中就全部固定了。

由于在优化网络的时候，我们一般采用的是batch梯度下降。所以在训练过程中，只能计算当前batch样本上的mean和var。但是我们做的normalization是对于整个输入样本空间，因此需要对每个batch的mean, var做指数加权平均来将batch上的mean和var近似成整个样本空间上的mean和var.

而在测试Inference过程中，一般不必要也不合适去计算测试时的batch的mean和var，比如测试仅对单样本输入进行测试时，这时去计算单样本输入的mean和var是完全没有意义的。因此会直接拿训练过程中对整个样本空间估算的mean和var直接来用。此时对于inference来说，BN就是一个线性变换。
3-2-8 卷积操作的本质特性包括稀疏交互和参数共享，具体解释这两种特性以其作用？

稀疏交互：每个神经元的只跟上一层的某些神经元连接（vs DNN全连接），用到较少参数

参数共享：同一层的不同神经元之间共享部分权重，用到比原来更少的参数

3-2-9 你是如何理解fine-tune？有什么技巧
3-2-10 怎么观察CNN每个神经元学到了什么

假设第k个filter是一个11 x 11 的矩阵（一个神经元），可以用以下系数来表示第k个filter被激活的程度 $$ a^k = \sum_{i=1}^{11} \sum_{i=1}^{11} a_{ij}^k $$ 并通过梯度上升找到使 $a^{k}$ 最大的x，该x表示的图像表示该filter对应的检测纹路。 $$ x^* = \mathop{arg \ \rm max}\limits_{x} \ a^k $$

resnet skip-connection

假如，我们在这个block的旁边加了一条“捷径”（如图5橙色箭头），也就是常说的“skip connection”。假设左边的上一层输入为x，虚线框的输出为f(x)，上下两条路线输出的激活值相加为h(x)，即h(x) = F(x) + x，得出的h(x)再输入到下一层。

图6

当进行后向传播时，右边来自深层网络传回来的梯度为1，经过一个加法门，橙色方向的梯度为dh(x)/dx=1，蓝色方向的梯度也为1。这样，经过梯度传播后，现在传到前一层的梯度就变成了[1, 0.0001, 0.01]，多了一个“1”！正是由于多了这条捷径，来自深层的梯度能直接畅通无阻地通过，去到上一层，使得浅层的网络层参数等到有效的训练！

RNN

4、基础工具

Spark

Xgboost

4-2-1 你选择使用xgboost的原因是什么？

xgboos的优点：

速度非常快
XGBoost支持多种类型的基分类器，比如线性分类器
XGBoost采用了多种策略防止过拟合：（1）目标函数正则项相当于预剪枝（2）每轮迭代支持数据行采样（bagging），还有列采样
对缺失值自动处理

4-2-2 Xgboost和GBDT有什么异同？

GBDT是机器学习算法，XGBoost是该算法的工程实现
传统GBDT以CART作为基分类器，XGBoost还支持线性分类器，这个时候XGBoost相当于带L1和L2正则化项的Logistic回归（分类问题）或者线性回归（回归问题）。
传统的GBDT只用了一阶导数信息（使用牛顿法的除外），而XGBoost对损失函数做了二阶泰勒展开。并且XGBoost支持自定义损失函数，只要损失函数一阶、二阶可导。
在使用CART作为基分类器时，XGBoost的目标函数多了正则项控制模型复杂度，相当于预剪枝，使得学习出来的模型更加不容易过拟合。
传统的GBDT在每轮迭代时使用全部数据，XGBoost则采用了与随机森林相似的策略，支持对数据进行采样（行采样和列采样）。
对缺失值的处理。传统的GBDT没有涉及对缺失值进行处理，XGBoost能够自动学习出缺失值的处理策略。
XGBoost工具支持并行。当然这个并行是在特征的粒度上，而非tree粒度，因为本质还是boosting算法。我们知道，决策树的学习最耗时的一个步骤是对特征的值进行排序（因为要确定最佳分割点）。xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为可能。在进行节点分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。
可并行的近似直方图计算。

4-2-3 为什么xgboost训练会那么快，主要优化点是什么？

当数据集大的时候使用近似算法：在特征分裂时，根据特征k的分布确定$l$个候选切分点。根据这些切分点把相应的样本放入对应的桶中，对每个桶的$G,H$进行累加，最后通过遍历所有的候选分裂点来找到最佳分裂点。我们对这么多个桶进行分支判断，显然比起对n个样本找分裂节点更快捷。
Block与并行。分块并行，针对的是寻找最优切分点的过程中的排序部分。
CPU cache 命中优化。对于exact greedy算法中, 使用缓存预取。具体来说，对每个线程分配一个连续的buffer，读取梯度信息并存入Buffer中（这样就实现了非连续到连续的转化），然后再统计梯度信息。
Block预取、Block压缩、Block Sharding等

4-2-4 Xgboost是如何处理缺失值的？

XGBoost能对缺失值自动进行处理，其思想是对于缺失值自动学习出它该被划分的方向（左子树or右子树）:

注意，上述的算法只遍历非缺失值。划分的方向怎么学呢？很naive但是很有效的方法：

让特征k的所有缺失值的都到右子树，然后和之前的一样，枚举划分点，计算最大的gain
让特征k的所有缺失值的都到左子树，然后和之前的一样，枚举划分点，计算最大的gain

这样最后求出最大增益的同时，也知道了缺失值的样本应该往左边还是往右边。使用了该方法，相当于比传统方法多遍历了一次，但是它只在非缺失值的样本上进行迭代，因此其复杂度与非缺失值的样本成线性关系。

4-2-5 Xgboost和lightGBM有哪些异同？

不同点：

由于在决策树在每一次选择节点特征的过程中，要遍历所有的属性的所有取值并选择一个较好的。XGBoost使用的是近似算法，先对特征值进行排序Pre-sort，然后根据二阶梯度进行分桶，能够更精确地找到数据分割点；但是复杂度较高。

LightGBM使用的是直方图算法，只需要将数据分割成不同的段即可，不需要进行预先的排序。占用内存更低，数据分隔的复杂度更低**。**
决策树的生长策略

XGBoost使用的是Level-wise的树生长策略；LightGBM使用的是leaf-wise的生长策略。

在XGBoost中，树是按层生长的，称为Level-wise tree growth，同一层的所有节点都做分裂，最后剪枝，如下图所示：

Level-wise过一次数据可以同时分裂同一层的叶子，容易进行多线程优化，也好控制模型复杂度，不容易过拟合。但实际上Level-wise是一种低效的算法，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销，因为实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。

而LightGBM采用的是Leaf-wise tree growth：

Leaf-wise则是一种更为高效的策略，每次从当前所有叶子中，找到分裂增益最大的一个叶子，然后分裂，如此循环。因此同Level-wise相比，在分裂次数相同的情况下，Leaf-wise可以降低更多的误差，得到更好的精度。Leaf-wise的缺点是可能会长出比较深的决策树，产生过拟合。因此LightGBM在Leaf-wise之上增加了一个最大深度的限制，在保证高效率的同时防止过拟合。
并行策略

XGBoost的并行主要集中在特征并行上，而LightGBM的并行策略分特征并行，数据并行以及投票并行。

4-2-6 Xgboost为什么要使用泰勒展开式，解决什么问题？

简短来说，就是为了统一损失函数求导的形式以支持自定义损失函数。

作者原回答

因为这样做使得我们可以很清楚地理解整个目标是什么，并且一步一步推导出如何进行树的学习。这一个抽象的形式对于实现机器学习工具也是非常有帮助的。传统的GBDT可能大家可以理解如优化平法残差，但是这样一个形式包含可所有可以求导的目标函数。也就是说有了这个形式，我们写出来的代码可以用来求解包括回归，分类和排序的各种问题，正式的推导可以使得机器学习的工具更加一般。

实际上使用二阶泰勒展开是为了xgboost能够【自定义loss function】，如果按照最小二乘法的损失函数直接推导，同样能够得到xgboost最终的推导式子：

$w_j^* = - \frac {G_j} {H_j + \lambda} \quad Obj = - \frac 1 2 \sum_{j=1}^T \frac {G_j^2} {H_j + \lambda} + \gamma T$

二阶泰勒展开实际不是 $\approx$ 最小二乘法，平方损失函数的二阶泰勒展开=最小二乘法。但作者为何想用二阶泰勒展开呢，一种猜想为了xgboost库的可扩展性，因为任何损失函数只要二阶可导即能【复用】文章中的的任何推导。而且泰勒的本质是尽量去模仿一个函数，我猜二阶泰勒展开已经足以近似大量损失函数了，典型的还有基于分类的对数似然损失函数。嘿，这样同一套代码就能完成回归或者分类了，而不是每次都推导一番，重写训练代码。

xgboost使用了一阶和二阶偏导, 二阶导数有利于梯度下降的更快更准. 使用泰勒展开取得函数做自变量的二阶导数形式, 可以在不选定损失函数具体形式的情况下, 仅仅依靠输入数据的值就可以进行叶子分裂优化计算, 本质上也就把损失函数的选取和模型算法优化/参数选择分开了. 这种去耦合增加了xgboost的适用性, 使得它按需选取损失函数, 可以用于分类, 也可以用于回归。

4-2-7 Xgboost是如何寻找最优特征的？

通常采用贪心法，每次尝试分裂一个叶节点，计算分裂后的增益，选增益最大的。这个方法在之前的决策树算法中大量被使用。而增益的计算方式比如ID3的信息增益，C4.5的信息增益率，CART的Gini系数等。那XGBoost呢？

XGBoost使用下面的公式计算增益： $$ Gain = \frac{1}{2}[\underbrace{\frac{G_L^2}{H_L+\lambda}}{左子树分数} + \underbrace{\frac{G_R^2}{H_R+\lambda}}{右子树分数} – \underbrace{\frac{(G_L+G_R)^2}{H_L+H_R+\lambda}}{分裂前分数}] – \underbrace{\gamma}{新叶节点复杂度}\tag{2-9} $$ 分裂后 – 分裂前的分数。Gain值越大，说明分裂后能使目标函数减少越多，就越好。在寻找最优分裂点时，遍历得到增益最大的点作为分裂点。注意分裂不一定会使情况变好，因为有一个引入新叶子的惩罚项 $γ$ ，优化这个目标相当于进行树的剪枝。当引入的分裂带来的增益小于一个阀值的时候，不进行分裂操作。

4-2-8 Xgboost的缺点？

空间开销大。需要保存数据的特征值。XGBoost采用Block结构，存储指向样本的索引，需要消耗两倍的内存。
时间开销大（相对于lightGBM而言）。在寻找最优切分点时，要对每个特征都进行排序，还要对每个特征的每个值都进行了遍历，并计算增益。
对Cache不友好（相对于lightGBM而言）。使用Block块预排序后，特征对梯度的访问是按照索引来获取的，是一种随机访问，而不同特征访问顺序也不一样，容易照成命中率低的问题。同时，在每一层长树的时候，需要随机访问一个行索引到叶子索引的数组，并且不同特征访问的顺序也不一样，也会造成较大的Cachemiss。

Tensorflow

4-3-1 使用tensorflow实现逻辑回归，并介绍其计算图
4-3-2 sparse_softmax_cross_entropy_with_logits和softmax_cross_entropy_with_logits有何异同？
4-3-3 使用tensorflow过程中，常见调试哪些参数？举例说明
4-3-4 Tensorflow梯度更新是同步还是异步，有什么好处？
4-3-5 讲解一下TFRecords
4-3-6 tensorflow如何使用如何实现超大文件训练？
4-3-7 如何读取或者加载图片数据？

5、推荐系统

5-1-1 你是如何选择正负样本？如何处理样本不均衡的情况？

样本不均衡处理：

1）上采样和子采样；2）修改权重（修改损失函数）；3）集成方法：bagging，类似随机森林、自助采样；4）多任务联合学习；

	优点	缺点	适用场景
item-based CF	注重个性化，发掘长尾商品	推荐结果过于热门，需要惩罚	item更新频率低的（如购物网站、图书、电影网站）
user-based CF	社交网络		item更新频率高（新闻）

l

5-1-18 深度学习可以应用到推荐问题上解决哪些问题？为什么比传统机器学习要好？
为什么CTR任务中损失函数一般选择交叉熵作为损失函数（分类）而不用平方损失函数（回归）

一方面点击-不点击本身是一个二分类的任务，分类任务采用交叉熵作为损失函数是常规做法。另一方面考虑参数更新。

深度学习同样有许多损失函数可供选择，如平方差函数（Mean Squared Error），绝对平方差函数（Mean Absolute Error），交叉熵函数（Cross Entropy）等。而在理论与实践中，我们发现Cross Entropy相比于在线性模型中表现比较好的平方差函数有着比较明显的优势。其主要原因是在深度学习通过反向传递更新W和b的同时，激活函数Sigmoid的导数在取大部分值时会落入左、右两个饱和区间，造成参数的更新非常缓慢。具体的推导公式如下：

一般的MSE被定义为：

其中y是我们期望的输出，a为神经元的实际输出a=σ(Wx+b)。由于深度学习反向传递的机制，权值W与偏移量b的修正公式被定义为：

因为Sigmoid函数的性质，导致σ′(z)在z取大部分值时会造成饱和现象。

Cross Entropy的公式为：

如果有多个样本，则整个样本集的平均交叉熵为：

其中n表示样本编号，i表示类别编号。如果用于Logistic分类，则上式可以简化成:

与平方损失函数相比，交叉熵函数有个非常好的特质：

可以看到，由于没有了σ′这一项，这样一来在更新w和b就不会受到饱和性的影响。当误差大的时候，权重更新就快，当误差小的时候，权重的更新就慢。
深度学习模型有什么缺点？

单纯的DNN模型对于CTR的提升并不明显。而且单独的DNN模型本身也有一些瓶颈例如，当用户本身是非活跃用户时，由于其自身与Item之间的交互比较少，导致得到的特征向量会非常稀疏，而深度学习模型在处理这种情况时有可能会过度的泛化，导致推荐与该用户本身相关较少的Item（FM模型也存在该问题）。因此，我们将广泛线性模型与深度学习模型相结合，同时又包含了一些组合特征，以便更好的抓住Item-Feature-Label三者之间的共性关系。我们希望在宽深度模型中的宽线性部分可以利用交叉特征去有效地记忆稀疏特征之间的相互作用，而在深层神经网络部分通过挖掘特征之间的相互作用，提升模型之间的泛化能力。

二、数学相关

6、概率论和统计学

伯努利分布（0-1分布）

单个二值随机变量的分布，x的取值为0或者1；随机变量为1的概率p，为0的概率是1-p $$ p({\rm x} = x) = p^x(1-p)^{1-x} $$

极大似然估计中采样需满足一个重要的假设，就是所有的采样都是独立同分布的。

那么我们就知道了极大似然估计的核心关键就是对于一些情况，样本太多，无法得出分布的参数值，可以采样小样本后，利用极大似然估计获取假设中分布的参数。

极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

最大后验概率是计算给定数据条件下模型的条件概率，即后验概率。使用模型的先验分布是贝叶斯学习的特点。

频率学派和贝叶斯学派什么区别？

频率学派

频率学派是上帝视角，认为频率是固定的，事件在多次重复实验中趋于一个稳定的值p，那么这个值就是该事件的概率。

他们认为模型参数是个定值，希望通过类似解方程组的方式从数据中求得该未知数。这就是频率学派使用的参数估计方法-极大似然估计（MLE），这种方法往往在大数据量的情况下可以很好的还原模型的真实情况。

贝叶斯派

他们认为世界是不确定的，因获取的信息不同而异。假设对世界先有一个预先的估计，然后通过获取的信息来不断调整之前的预估计。他们认为模型参数源自某种潜在分布，希望从数据中推知该分布。对于数据的观测方式不同或者假设不同，那么推知的该参数也会因此而存在差异。这就是贝叶斯派视角下用来估计参数的常用方法-最大后验概率估计（MAP）

这种方法在先验假设比较靠谱的情况下效果显著，随着数据量的增加，先验假设对于模型参数的主导作用会逐渐削弱，相反真实的数据样例会大大占据有利地位。极端情况下，比如把先验假设去掉，或者假设先验满足均匀分布的话，那她和极大似然估计就如出一辙了。
MLE和MAP的联系

MLE与MAP的联系

**-**在介绍经验风险与结构风险最小化的时候以具体的逻辑回归（LR）与概率矩阵分解（PMF）模型来介绍MLE和MAP，接下里从宏观的角度，不局限于具体的某个模型来推导MLE与MAP。

**-**假设数据是满足独立同分布（i.i.d.）的一组抽样，接下来就利用两种参数估计方法来求解。
- MLE对参数的估计方法可以如下：
- MAP对的估计方法可以如下推导：
**-**所以MAP和MLE在优化时的不同就是在于增加了一个先验项。

**-**通过以上的分析可以大致给出他们之间的联系：。
大数定理和中心极限定理

7、最优化问题

（1）从矩阵计算角度

mini-batch不同的输入可以拼成一个矩阵，和W计算矩阵相乘可以并行地计算，比SGD一个一个计算快。对于GPU，矩阵相乘可以并行地处理，速度快。

7-1-11 7-1-11 为什么不把batch size设得特别大

（1）GPU内存限制

（2）性能差；容易卡在局部极小值

Name	Name	Last commit message	Last commit date
Latest commit zhengjingwei 增加优化算法内容：牛顿法、拟牛顿法 Sep 26, 2019 51323eb · Sep 26, 2019 History 26 Commits
README.md	README.md	增加优化算法内容：牛顿法、拟牛顿法	Sep 26, 2019

混淆矩阵	预测结果	预测结果
真实情况	反例	正例
反例	TN（真反例）	FP（假正例）
正例	FN（假反例）	TP（真正例）

zhengjingwei/machine-learning-interview

Folders and files

Latest commit

History

Repository files navigation

一、机器学习相关

1、基本概念

2、经典机器学习

特征工程

解答