知识浓缩
机器学习
SVM
- 间隔最大化(函数间隔和几何间隔的转化,加条间隔线)
- 将不等式约束用拉格朗日乘子法,然后对偶问题–>极大极小值问题
- 软间隔:在原来间隔最大化的问题上加松弛变量—->问题可能线性不可分
- 1、用老方法
- 2、另一种表示:合页损失函数
- 核函数投影
- SMO:1、求解两个变量二次规划的解析方法,2、选择变量的启发式方法
- 1
- 选一个可以一个不可以
- 转化成在一个二维平面上优化两个变量的问题
- 2
- 第一个外层循环,违反最严重
- 第二个内层循环,最能改变上者的
- 1
xgboost
- GDBT形式+L1,L2 norm
- new function二阶导逼近
- 三种分裂方式
- 精确贪心,近似算法(百分比),带权重的分位数略图(带二阶导权重的百分比)
- 稀疏情况(自适应分割:缺失值左右试一试)
- 随机森林的行(自助法)列采样(选择一定量的feature)
lightgbm
- 箱型图算法,并做差加速
- leaf-wise
- GOSS(单边梯度采样)
- 像排出小梯度,然后下采样,对于小梯度乘上伸缩系数
- EFB捆绑,对于很多特征帮他们绑起来,NP–>贪心(解决绑什么(按度排序,设阈值)和怎么绑(用bin的左index))
- 各种工程优化
- 并行
- cache命中率
线性回归
- 最小二乘
- 岭回归
- 带L2正则(平方),让回归系数可求
聚类
- kmeans
- 高斯混合
- 多维高斯
- EM(这个属于哪一类是隐函数)+极大似然
- 最小生成树
- 密度聚类DBSCAN
- 以每个数据点做圆,并统计里面的个数,超过阈值的就是核心点
- 核心点对圈里的点密度可达,两个核心点都对它密度可达就密度向连成聚类簇
数据评估
- 正确率和召回率
- 混淆矩阵
- F1(正确率和查准率的调和平均,可带加权)
- ROC和AUC,真正例和假正例召回率的线和面积
异常值
- 发现
- 各种
- 处理
- 各种
- 置信区域外去掉
- 回归
- 分箱平滑填噪声(宽度,深度分)
- 发现
逻辑回归
- 二分类模型+对数极大似然+梯度下降
数据划分
- 留出
- k折
- 自助
- 留一
CV
ResNet
- 因为深的网络效果可能会变差,最后变成恒等映射,以及连乘不稳定
- 构造不是恒等映射x–>F(x)—>x+F(x)(网络会自动把F(x)学成0)
- 乘变加解决梯度弥散的问题
- 正则
卷积核
- 线性运算
- 对输入信号局部加权,根据所选的函数来揭示不同的信息
- 参数共享(感受野)
激活函数(易于求导)
- sigmoid
- 平滑
- 接近饱和后(梯度消失)
- 都是正数(非零均值),所有数据改变方向相同,会波动(Z字抖动)
- tanh
- 解决非零均值问题
- 两边饱和,任存在梯度消失
- 计算耗时
- relu
- 计算速度快,收敛快
- 正区间解决梯度消失
- 线性性较强,分段函数能增加网络非线性性
- 输出不是零均值,神经元坏死(负值)
- sigmoid
池化
- 一种降采样(减少参数)
- 增大感受野,平移不变(两个图像中一个区域就平移了一下,能相同池化)
- 最大池化(保留纹理特征,打断梯度回传)用的多,平均池化(保留数据特征,丢失细节)
VGG
- 用小的核,多个小的核代替一个大的核(小的核能减少参数,还能加深)
- 深
googlenet
- inception(网中网),不仅考虑了深度还考虑了宽度(同一层有很多个不同的核)
- 用两个1×n的卷积核代替n×n的
优化方法
- 梯度下降
- 整个数据集,算均值
- 随机梯度下降
- 每次更新一个样本
- mini batch梯度
- 用一小快来,算均值
- 动量法
- 用动量(先前梯度指数的加权平均,考虑过去方向),减少震荡(类似有一个惯性加速度)
- NAG
- 类似对加速度求导,防止速度变大变小过快
- adagrad
- 学习率自适应参数(低频更新参数大幅更新,高频更新小幅),适合处理稀疏数据
- 记录到t时刻所有梯度的平方只和
- 之前梯度小,现在梯度大;之前大反之
- adadelta
- 对梯度累加只是在一个区间
- 累加的时候有衰减变量
- adam
- 结合上面的知识(动量,自适应)
NLP
LSTM
- 解决长期的梯度问题
- 输入,遗忘(相当于一个继承的衰减项),合并,输出
GRU
- p不用细胞状态直接使用隐藏状态来记录传输的信息。GRU直接把状态传给下一个单元,由下一个单元的重置门来控制输入,而LSTM是用输出门来控制这个输出的。(只有重置门和更新门,就形式上来说,我感觉GRU把这个单元的输出门和下一个单元的输入门合并在了一起)
- 参数更少
attention
- N to M
- 用加权求和的形式处理不同隐藏层对decoder每个状态的贡献
- 加权求和的形式有点乘,加矩阵系数点乘,拼接