基本概念
分类即给定一个有标注的实体训练集,产生一个能给测试集实体进行标注的规则。
分类中有很多种类:
- 二分分类
- 多类别分类
- 非排除类别
- 权值排序
分类的度量指标:
- 错误率
- 不同类别错误的代价
- 执行点
表示
一个对象可以通过$(x, y)$表示
- $x$为该对象的描述
- $y$为该对象的标签
分类器的正确性依赖于对象的描述的选取。描述的选取可以看作是一个学习问题,事实上存在自动学习描述选取过程的方式。但通常会需要人工判断。
数据类型
分类判断有很多特征选取方式:
- 物理属性
- 行为属性
- 上下文
- 历史信息
- ……
现实中有很多可以选取并分析的数据:
- 文本与超文本
- 邮件
- 蛋白质序列
- Unix系统调用序列
- 网络拓扑
- 图片
- ……
例子
垃圾邮件识别
输入:邮件
输出:是否是垃圾邮件
启动:
- 给定一个示例邮件集合,每个都被标注是否为垃圾邮件
- 需要有人来手动标注这些邮件
- 目标是通过学习来预测新的邮件的标签
识别特征:
- 单词:FREE!
- 文本模式:$dd,CAPS
- 非文本信息:发送者域名等
- ……
手写数字识别
输入:图片/像素矩阵
输出:一个数字
启动:
- 给定一个示例图片集合,每个都被标注一个数字
- 需要有人来手动标注这些图片
- 目标是通过学习来预测新的图片的数字
识别特征:
- 像素:(6, 8)=ON
- 形状特征:圈圈、切割比例等
- ……
其他分类的例子
- 诈骗检测
- 搜索引擎刷屏检测
- 语音识别
- 医疗诊断
- 自动论文打分
- 用户邮件路由
- 链接分析
- 化学分析
训练与验证
数据
标注后的实体,包括训练集、验证集和测试集
训练
- 分析训练集的参数
- 调整验证集的超参数
- 反馈测试集的结果
- 训练集中任何短板都会产生过于乐观的主张
评估
包含多种度量方式,例如是否正确、方差等
统计讨论
需要分类器在训练集上表现非常好,但可能有过拟合问题。
过拟合:对训练数据非常切合,但对泛化数据表现不佳
误差条形图
常用方法
朴素贝叶斯
贝叶斯公式:
\[P(A\mid B)= P(A)\frac{P(B\mid A)}{P(B)}\]三个项分别为后验概率、先验概率和可能性函数。后验即事件B发生后对A的概率的重新评估。
后验概率=先验概率*调整因子
整体流程:
-
确定特征属性、获取训练集
-
训练阶段对每个类别进行计算$P(C_i)$,对每个特征计算所有划分的条件概率
-
使用阶段对每个类别计算$P(X\mid C_i)P(C_i)$,以最大项为X的所属类别