Newtank

个人站

欢迎来到我的个人站~


分类

目录

基本概念

分类即给定一个有标注的实体训练集,产生一个能给测试集实体进行标注的规则。

分类中有很多种类:

  • 二分分类
  • 多类别分类
  • 非排除类别
  • 权值排序

分类的度量指标:

  • 错误率
  • 不同类别错误的代价
  • 执行点

表示

一个对象可以通过$(x, y)$表示

  • $x$为该对象的描述
  • $y$为该对象的标签

分类器的正确性依赖于对象的描述的选取。描述的选取可以看作是一个学习问题,事实上存在自动学习描述选取过程的方式。但通常会需要人工判断。

数据类型

分类判断有很多特征选取方式:

  • 物理属性
  • 行为属性
  • 上下文
  • 历史信息
  • ……

现实中有很多可以选取并分析的数据:

  • 文本与超文本
  • 邮件
  • 蛋白质序列
  • Unix系统调用序列
  • 网络拓扑
  • 图片
  • ……

例子

垃圾邮件识别

输入:邮件

输出:是否是垃圾邮件

启动:

  • 给定一个示例邮件集合,每个都被标注是否为垃圾邮件
  • 需要有人来手动标注这些邮件
  • 目标是通过学习来预测新的邮件的标签

识别特征:

  • 单词:FREE!
  • 文本模式:$dd,CAPS
  • 非文本信息:发送者域名等
  • ……

手写数字识别

输入:图片/像素矩阵

输出:一个数字

启动:

  • 给定一个示例图片集合,每个都被标注一个数字
  • 需要有人来手动标注这些图片
  • 目标是通过学习来预测新的图片的数字

识别特征:

  • 像素:(6, 8)=ON
  • 形状特征:圈圈、切割比例等
  • ……

其他分类的例子

  • 诈骗检测
  • 搜索引擎刷屏检测
  • 语音识别
  • 医疗诊断
  • 自动论文打分
  • 用户邮件路由
  • 链接分析
  • 化学分析

训练与验证

数据

标注后的实体,包括训练集、验证集和测试集

训练

  • 分析训练集的参数
  • 调整验证集的超参数
  • 反馈测试集的结果
  • 训练集中任何短板都会产生过于乐观的主张

评估

包含多种度量方式,例如是否正确、方差等

统计讨论

需要分类器在训练集上表现非常好,但可能有过拟合问题。

过拟合:对训练数据非常切合,但对泛化数据表现不佳

误差条形图

常用方法

朴素贝叶斯

贝叶斯公式:

\[P(A\mid B)= P(A)\frac{P(B\mid A)}{P(B)}\]

三个项分别为后验概率、先验概率和可能性函数。后验即事件B发生后对A的概率的重新评估。

后验概率=先验概率*调整因子

整体流程:

  • 确定特征属性、获取训练集

  • 训练阶段对每个类别进行计算$P(C_i)$,对每个特征计算所有划分的条件概率

  • 使用阶段对每个类别计算$P(X\mid C_i)P(C_i)$,以最大项为X的所属类别