0%

知识浓缩

知识浓缩

机器学习

  • SVM

    • 间隔最大化(函数间隔和几何间隔的转化,加条间隔线)
    • 将不等式约束用拉格朗日乘子法,然后对偶问题–>极大极小值问题
    • 软间隔:在原来间隔最大化的问题上加松弛变量—->问题可能线性不可分
      • 1、用老方法
      • 2、另一种表示:合页损失函数
    • 核函数投影
    • SMO:1、求解两个变量二次规划的解析方法,2、选择变量的启发式方法
      • 1
        • 选一个可以一个不可以
        • 转化成在一个二维平面上优化两个变量的问题
      • 2
        • 第一个外层循环,违反最严重
        • 第二个内层循环,最能改变上者的
  • xgboost

    • GDBT形式+L1,L2 norm
    • new function二阶导逼近
    • 三种分裂方式
      • 精确贪心,近似算法(百分比),带权重的分位数略图(带二阶导权重的百分比)
    • 稀疏情况(自适应分割:缺失值左右试一试)
    • 随机森林的行(自助法)列采样(选择一定量的feature)
  • lightgbm

    • 箱型图算法,并做差加速
    • leaf-wise
    • GOSS(单边梯度采样)
      • 像排出小梯度,然后下采样,对于小梯度乘上伸缩系数
    • EFB捆绑,对于很多特征帮他们绑起来,NP–>贪心(解决绑什么(按度排序,设阈值)和怎么绑(用bin的左index))
    • 各种工程优化
      • 并行
      • cache命中率
  • 线性回归

    • 最小二乘
    • 岭回归
      • 带L2正则(平方),让回归系数可求
  • 聚类

    • kmeans
    • 高斯混合
      • 多维高斯
      • EM(这个属于哪一类是隐函数)+极大似然
    • 最小生成树
    • 密度聚类DBSCAN
      • 以每个数据点做圆,并统计里面的个数,超过阈值的就是核心点
      • 核心点对圈里的点密度可达,两个核心点都对它密度可达就密度向连成聚类簇
  • 数据评估

    • 正确率和召回率
    • 混淆矩阵
    • F1(正确率和查准率的调和平均,可带加权)
    • ROC和AUC,真正例和假正例召回率的线和面积
  • 异常值

    • 发现
      • 各种
    • 处理
      • 各种
      • 置信区域外去掉
      • 回归
      • 分箱平滑填噪声(宽度,深度分)
  • 逻辑回归

    • 二分类模型+对数极大似然+梯度下降
  • 数据划分

    • 留出
    • k折
    • 自助
    • 留一

CV

  • ResNet

    • 因为深的网络效果可能会变差,最后变成恒等映射,以及连乘不稳定
    • 构造不是恒等映射x–>F(x)—>x+F(x)(网络会自动把F(x)学成0)
      • 乘变加解决梯度弥散的问题
      • 正则
  • 卷积核

    • 线性运算
    • 对输入信号局部加权,根据所选的函数来揭示不同的信息
    • 参数共享(感受野)
  • 激活函数(易于求导)

    • sigmoid
      • 平滑
      • 接近饱和后(梯度消失)
      • 都是正数(非零均值),所有数据改变方向相同,会波动(Z字抖动)
    • tanh
      • 解决非零均值问题
      • 两边饱和,任存在梯度消失
      • 计算耗时
    • relu
      • 计算速度快,收敛快
      • 正区间解决梯度消失
      • 线性性较强,分段函数能增加网络非线性性
      • 输出不是零均值,神经元坏死(负值)
  • 池化

    • 一种降采样(减少参数)
    • 增大感受野,平移不变(两个图像中一个区域就平移了一下,能相同池化)
    • 最大池化(保留纹理特征,打断梯度回传)用的多,平均池化(保留数据特征,丢失细节)
  • VGG

    • 用小的核,多个小的核代替一个大的核(小的核能减少参数,还能加深)
  • googlenet

    • inception(网中网),不仅考虑了深度还考虑了宽度(同一层有很多个不同的核)
    • 用两个1×n的卷积核代替n×n的

优化方法

  • 梯度下降
    • 整个数据集,算均值
  • 随机梯度下降
    • 每次更新一个样本
  • mini batch梯度
    • 用一小快来,算均值
  • 动量法
    • 用动量(先前梯度指数的加权平均,考虑过去方向),减少震荡(类似有一个惯性加速度)
  • NAG
    • 类似对加速度求导,防止速度变大变小过快
  • adagrad
    • 学习率自适应参数(低频更新参数大幅更新,高频更新小幅),适合处理稀疏数据
    • 记录到t时刻所有梯度的平方只和
    • 之前梯度小,现在梯度大;之前大反之
  • adadelta
    • 对梯度累加只是在一个区间
    • 累加的时候有衰减变量
  • adam
    • 结合上面的知识(动量,自适应)

NLP

  • LSTM

    • 解决长期的梯度问题
    • 输入,遗忘(相当于一个继承的衰减项),合并,输出
  • GRU

    • p不用细胞状态直接使用隐藏状态来记录传输的信息。GRU直接把状态传给下一个单元,由下一个单元的重置门来控制输入,而LSTM是用输出门来控制这个输出的。(只有重置门和更新门,就形式上来说,我感觉GRU把这个单元的输出门和下一个单元的输入门合并在了一起)
    • 参数更少
  • attention

    • N to M
    • 用加权求和的形式处理不同隐藏层对decoder每个状态的贡献
    • 加权求和的形式有点乘,加矩阵系数点乘,拼接