Active Learning

也称为查询学习或者最优实验设计. 主动学习通过设计合理的查询函数, 不断从未标注的数据中挑选出数据标注后放入训练集. 有效的主动学习数据选择策略可以有效地降低训练的代价并同时提高模型的识别能力.

一. 主动学习的场景

  1. Membership Query Sythesis 生成一个询问, 并请求这个样本的标签, 这个样本可能是未标注数据中的任意一个, 甚至是从头生成的, 反正这些数据一般不是简单的服从一个自然分布的随机.

  2. Stream-Based (Sequential) Selective Sampling 基于流的有选择性地选择目标, 这种通常是假设会有大量廉价的无标签数据. 它将采样一个无标签的数据, 然后决定是要询问它的标签还是忽略它 (如果数据是均匀分布, 那么和上一种情况一样), 通常基于下面的两个度量:

    • 更大的信息量: 选择这些具有高信息量的数据
    • 不确定性原则: 选择落在这种不确定域之中的数据
  3. Pool Based Sampling 基于池的采样, 假设能够一次性获得大量未标注的数据, 并进行同时处理. 可以对数据池中的数据进行信息量排序, 直接采最有信息量的数据进行分析.

基于流的场景下, 数据是顺序来到的, 不会有全局的视野, 而基于池的则是更加常见的做法可以一次性对所有数据的信息量进行分析. 但是有的时候因为数据的生成情况或者计算带宽内存等的限制, 人们还是不得已还是要使用基于流的场景.

二. Query Strategy Frameworks

用$x^*_A$表示某种采样算法$A$下最有信息量的样本.

Uncertainty Sampling

  • 用熵作度量: $x^*_{ENT} = \rm{argmax}_x -\sum_i P(y_i|x;\theta)\log P(y_i|x;\theta)$
  • 用置信度作度量: $x^_{LC} = \rm{argmin}_x P(y^|x; \theta)$, $y^* = \rm{argmin}y P{\theta}(y|x)$, 选取最大置信度最小的样本
  • 用最小间隔作度量: $x^_{SM} = \rm{argmax}x P{\theta}(y^1|x) - P{\theta}(y^_2|x), y^_1, y^*_2$ 为可能性最高的两个样本.

Query-By-Committee (QBC)

  • 选择一定数量的模型构成委员会 $\mathcal{C}={\theta^{(1)},…,\theta^{(C)}}$, 对未标注的数据进行处理, 挑选出所有未标记数据中各个模型意见最不一致的样本. 不一致的度量:
    • 用投票熵作度量: $$x^*_{VE} = \rm{argmax}_x-\sum_i\dfrac{V(y_i)}{C}\log\dfrac{V(y_i)}{C}$$
    • 用KL散度(衡量两个分布的差异)作度量: $$x^*{KL} = \argmax_x\dfrac{1}{C}\sum{c=1}^CD(P_{\theta^{(c)}}|P_{\mathcal{C}})$$, 其中 $$D(P_{\theta^{(c)}}|P_{\mathcal{C}}) = \sum_iP(y_i|x;\theta^{(c)})\log\dfrac{P(y_i|x;\theta^{(c)})}{P(y_i|x;\mathcal{C})}$$

Expected Model Change

  • 去采的样本应当具备条件: 当它被赋予标记, 应当最大程度优化模型 —— 用训练梯度作为这种优化的衡量. $$x^*_{EGL} = \rm{argmax}_x\sum_iP(y_i|x;\theta)|\nabla \mathcal{l}(\mathcal{L}\cup\langle x, y_i\rangle;\theta)|$$

Variance Reduction and Fisher Information Ratio

  • 最小化学习器的未来误差 (偏置-方差分解): $$E_T[(o-y)^2|x] = E[(y-E[y|x])^2] + (E_{\mathcal{L}}[o] - E[y|x])^2 + E_{\mathcal{L}}[(o-E_{\mathcal{L}}[o])^2]$$

  • 右边三项分别为噪音、偏置的平方、方差. 只适用于回归任务.

  • 离散分类器使用Fisher Information: $$\mathcal{I}(\theta) = -\int_xP(x)\int_yP(y|x;\theta)\dfrac{\partial^2}{\partial\theta^2}\log P(y|x;\theta)$$

  • 最佳检索样本应最小化Fisher Information Ratio: $$x^*_{FIR} = \argmin_xtr(\mathcal{I}x(\theta)^{-1}\mathcal{I}{\mathcal{U}}(\theta))$$

  • $\mathcal{I}x(\theta)$不仅说明模型对样本$x$的不确定性有多大, 而且说明了是哪个参数造成了这种不确定性. $\mathcal{I}{\mathcal{U}}(\theta)$表明了在整个数据集上的不确定性.

Estimated Error Reduction

Density-Weight Methods

三. 主动学习分析

理论分析

四. Problem Setting Varients (变体)

结构化输出的主动学习

  • 序列化模型 (CRF 或 HMM) 产生的输出.
  • 树状输出.

批处理模式下的主动学习

  • 适合并行处理. 每次选取最优的N个样本不一定能达到很好的效果, 因为没有考虑这些样本间信息的重合度.

主动学习的代价

多种访问类型