0%

神经网络

思想来源

神经网络的思想来源于模拟人脑的神经系统的运作,即”神经网络是有具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应”

Read more »

聚类

定义

把数据集分成若干个互不相交的簇(一坨数据集),使簇间相似度尽量的小,簇内相似度尽量的大

性能度量

Read more »

决策树

类型

  • ID3
  • C4.5
  • CART(回归树)

优缺点

优点:计算复杂度不高,输出易于理解,对缺失值不敏感,可以处理不相关特征数据

Read more »

逻辑回归(Logistic回归)

优缺点

  • 优点:计算代价不高,易于理解和实现
  • 缺点:容易欠拟合,分类精度可能不高
  • 使用数据类型:数值型和标称型数据
Read more »

preprocessing

缺失值的处理

简单的preprocessing直接用pandas,类似

1
2
3
4
5
dataO['Sex'] = dataO['Sex'].apply(lambda s: 1 if s == 'male' else 0)
dataO["Age"] = dataO["Age"].fillna(dataO["Age"].median())
dataO["child"] = dataO["Age"].apply(lambda x: 1 if x < 15 else 0)
dataO["Embarked"] = dataO["Embarked"].fillna("S")
dataO = dataO.fillna(0)
Read more »

数据评估

基本数值

acc(准确率)

顾名思义,$\frac{正确的}{总数}$

precision(查准率)与recall(召回率)

Read more »

数据划分

留出法(Hold-Out)

定义与流程

就是有一个数据集$D$,要分出$S,T满足S\bigcup T=\emptyset,S\bigcap T=D$

Read more »

pandas复习

文件操作

对csv文件的读取

1
fr=read_csv(filename,header=None,names=None);
Read more »

缺失值的处理

缺失值:信息(暂时)无法获取,丢失,冲突矛盾而不可用,获取代价大

1、删除

  • 删除有缺失值的特征
  • 删除有缺失值数据
Read more »