知识浓缩

机器学习

SVM
- 间隔最大化(函数间隔和几何间隔的转化，加条间隔线)
- 将不等式约束用拉格朗日乘子法，然后对偶问题–>极大极小值问题
- 软间隔：在原来间隔最大化的问题上加松弛变量—->问题可能线性不可分
  - 1、用老方法
  - 2、另一种表示：合页损失函数
- 核函数投影
- SMO：1、求解两个变量二次规划的解析方法，2、选择变量的启发式方法
  - 1
    - 选一个可以一个不可以
    - 转化成在一个二维平面上优化两个变量的问题
  - 2
    - 第一个外层循环，违反最严重
    - 第二个内层循环，最能改变上者的
xgboost
- GDBT形式+L1,L2 norm
- new function二阶导逼近
- 三种分裂方式
  - 精确贪心，近似算法(百分比)，带权重的分位数略图(带二阶导权重的百分比)
- 稀疏情况(自适应分割：缺失值左右试一试)
- 随机森林的行(自助法)列采样(选择一定量的feature)
lightgbm
- 箱型图算法，并做差加速
- leaf-wise
- GOSS(单边梯度采样)
  - 像排出小梯度，然后下采样，对于小梯度乘上伸缩系数
- EFB捆绑，对于很多特征帮他们绑起来，NP–>贪心(解决绑什么(按度排序，设阈值)和怎么绑(用bin的左index))
- 各种工程优化
  - 并行
  - cache命中率
线性回归
- 最小二乘
- 岭回归
  - 带L2正则(平方)，让回归系数可求
聚类
- kmeans
- 高斯混合
  - 多维高斯
  - EM(这个属于哪一类是隐函数)+极大似然
- 最小生成树
- 密度聚类DBSCAN
  - 以每个数据点做圆，并统计里面的个数，超过阈值的就是核心点
  - 核心点对圈里的点密度可达，两个核心点都对它密度可达就密度向连成聚类簇
数据评估
- 正确率和召回率
- 混淆矩阵
- F1(正确率和查准率的调和平均，可带加权)
- ROC和AUC，真正例和假正例召回率的线和面积
异常值
- 发现
  - 各种
- 处理
  - 各种
  - 置信区域外去掉
  - 回归
  - 分箱平滑填噪声(宽度，深度分)
逻辑回归
- 二分类模型+对数极大似然+梯度下降
数据划分
- 留出
- k折
- 自助
- 留一

CV

ResNet
- 因为深的网络效果可能会变差，最后变成恒等映射，以及连乘不稳定
- 构造不是恒等映射x–>F(x)—>x+F(x)(网络会自动把F(x)学成0)
  - 乘变加解决梯度弥散的问题
  - 正则
卷积核
- 线性运算
- 对输入信号局部加权，根据所选的函数来揭示不同的信息
- 参数共享(感受野)
激活函数(易于求导)
- sigmoid
  - 平滑
  - 接近饱和后(梯度消失)
  - 都是正数(非零均值)，所有数据改变方向相同，会波动(Z字抖动)
- tanh
  - 解决非零均值问题
  - 两边饱和，任存在梯度消失
  - 计算耗时
- relu
  - 计算速度快，收敛快
  - 正区间解决梯度消失
  - 线性性较强，分段函数能增加网络非线性性
  - 输出不是零均值，神经元坏死(负值)
池化
- 一种降采样(减少参数)
- 增大感受野，平移不变(两个图像中一个区域就平移了一下，能相同池化)
- 最大池化(保留纹理特征，打断梯度回传)用的多，平均池化(保留数据特征，丢失细节)

VGG
- 用小的核，多个小的核代替一个大的核(小的核能减少参数，还能加深)
- 深
googlenet
- inception(网中网)，不仅考虑了深度还考虑了宽度(同一层有很多个不同的核)
- 用两个1×n的卷积核代替n×n的

优化方法

梯度下降
- 整个数据集，算均值
随机梯度下降
- 每次更新一个样本
mini batch梯度
- 用一小快来，算均值
动量法
- 用动量(先前梯度指数的加权平均，考虑过去方向)，减少震荡(类似有一个惯性加速度)
NAG
- 类似对加速度求导，防止速度变大变小过快
adagrad
- 学习率自适应参数(低频更新参数大幅更新，高频更新小幅)，适合处理稀疏数据
- 记录到t时刻所有梯度的平方只和
- 之前梯度小，现在梯度大；之前大反之
adadelta
- 对梯度累加只是在一个区间
- 累加的时候有衰减变量
adam
- 结合上面的知识(动量，自适应)

NLP

LSTM
- 解决长期的梯度问题
- 输入，遗忘(相当于一个继承的衰减项)，合并，输出
GRU
- p不用细胞状态直接使用隐藏状态来记录传输的信息。GRU直接把状态传给下一个单元，由下一个单元的重置门来控制输入，而LSTM是用输出门来控制这个输出的。(只有重置门和更新门，就形式上来说，我感觉GRU把这个单元的输出门和下一个单元的输入门合并在了一起)
- 参数更少
attention
- N to M
- 用加权求和的形式处理不同隐藏层对decoder每个状态的贡献
- 加权求和的形式有点乘，加矩阵系数点乘，拼接