对抗自编码器(AAE).md

Posted on 2020-06-16

对抗自编码器(AAE)

自编码器转换成生成模型
通过两个目标训练：传统的重构误差函数和对抗训练函数—>将AE隐藏层向量表示的聚合后验分布与任意先验分布匹配。训练准则和VAE很像
- 1、编码器学到将数据分布转换成该先验分布
- 2、解码器学到一个模型，可以将强加的先验映射到数据分布上

Professor forcing

Posted on 2020-05-31 Edited on 2020-06-01

Professor forcing

引入前的想法

teacher forcing的不足

teacher forcing的方法通过将被观测的序列值作为训练过程中的输入和使用该网络自己的提前一步预测(one-step-ahead-predictions)l来进行多步采样
- 比如时间序列的条件分布模型:
  - $$
    P(y_1,y_2,…,y_T)=P(y_1)\prod_{t=1}^T P(y_t|y_1,…,y_{t-1})
    $$
  - 这种形式一般的机器学习的训练策略就是最大似然，而在RNN中，这种策略可以类似为teacher forcing，由于使用真值样本，将其反馈到模型中，以便对后一时刻输出进行预测。这种反馈迫使(force)RNN接近真实的序列

知识浓缩

Posted on 2020-05-18

知识浓缩

机器学习

SVM
- 间隔最大化(函数间隔和几何间隔的转化，加条间隔线)
- 将不等式约束用拉格朗日乘子法，然后对偶问题–>极大极小值问题
- 软间隔：在原来间隔最大化的问题上加松弛变量—->问题可能线性不可分
  - 1、用老方法
  - 2、另一种表示：合页损失函数
- 核函数投影
- SMO：1、求解两个变量二次规划的解析方法，2、选择变量的启发式方法
  - 1
    - 选一个可以一个不可以
    - 转化成在一个二维平面上优化两个变量的问题
  - 2
    - 第一个外层循环，违反最严重
    - 第二个内层循环，最能改变上者的
xgboost
- GDBT形式+L1,L2 norm
- new function二阶导逼近
- 三种分裂方式
  - 精确贪心，近似算法(百分比)，带权重的分位数略图(带二阶导权重的百分比)
- 稀疏情况(自适应分割：缺失值左右试一试)
- 随机森林的行(自助法)列采样(选择一定量的feature)
lightgbm
- 箱型图算法，并做差加速
- leaf-wise
- GOSS(单边梯度采样)
  - 像排出小梯度，然后下采样，对于小梯度乘上伸缩系数
- EFB捆绑，对于很多特征帮他们绑起来，NP–>贪心(解决绑什么(按度排序，设阈值)和怎么绑(用bin的左index))
- 各种工程优化
  - 并行
  - cache命中率
线性回归
- 最小二乘
- 岭回归
  - 带L2正则(平方)，让回归系数可求
聚类
- kmeans
- 高斯混合
  - 多维高斯
  - EM(这个属于哪一类是隐函数)+极大似然
- 最小生成树
- 密度聚类DBSCAN
  - 以每个数据点做圆，并统计里面的个数，超过阈值的就是核心点
  - 核心点对圈里的点密度可达，两个核心点都对它密度可达就密度向连成聚类簇
数据评估
- 正确率和召回率
- 混淆矩阵
- F1(正确率和查准率的调和平均，可带加权)
- ROC和AUC，真正例和假正例召回率的线和面积
异常值
- 发现
  - 各种
- 处理
  - 各种
  - 置信区域外去掉
  - 回归
  - 分箱平滑填噪声(宽度，深度分)
逻辑回归
- 二分类模型+对数极大似然+梯度下降
数据划分
- 留出
- k折
- 自助
- 留一

LightGBM

Posted on 2020-05-14 Edited on 2020-05-15

LightGBM

同样也是决策树

从下图实验数据可以看出， LightGBM比XGBoost快将近10倍，内存占用率大约为XGBoost的1/6，并且准确率也有提升。

XGboost

Posted on 2020-05-13 Edited on 2020-05-18

XGboost

基础GDBT

对于任意函数进行提升树，拟合的残差就是这个函数在当前节点的梯度
最后的多棵树对应的权值加起来

隐马尔科夫模型(HMM)

Posted on 2020-04-26 Edited on 2020-05-15

隐马尔科夫模型(HMM)

基于时序的概率模型

定义

$$
Q=[q_1,q_2…,q_N]是所有可能的状态集合 \qquad V=[v_1,v_2…v_M]是所有目标集合\
I=[i_1,i_2…i_T]表示长度为T的状态序列\qquad O=[o_1,o_2…o_T]表示长度为T的观测序列\
\
概率转移矩阵A=[a_{ij}]{n×n}\qquad a{ij}=P(i_{t+1}=q_j|i_{t}=q_i)\qquad(在t时刻)\
观测概率矩阵B=[b_j(k)]_{N×M}\qquad b_j(k)=P(o_t=v_k|i_t=q_j)\
初始状态概率向量\pi=(\pi_i)\qquad \pi_i=P(i_1=q_i)
$$