Paper Notes - Week 1 | Michelia'Log

Mining Typhoon Knowledge with Neural Networks – Zhi-Hua Zhou, Shi-Fu Chen, Zhao-Qian Chen - 1999

需解决的问题: 神经网络的两个缺点 – 数据量大, 训练时间长; 神经网络对知识的学习果不能直接用于决策.
Fast neural model - FTART (Firld Theory based Adaptive Resonance Theory): 隐层的激活函数是Sigmoid函数, 输入层和第二层之间使用Gaussian权重, 并更新. 第二层用于分类输入,第三层用于分类输出, 在这两层之间建立关系来进行有监督学习.
Rule extraction algorithm - SPT (Statistic based Producing and Testing):
- 用大量实例来训练一个神经网络
- 结合输入和神经网络的输出来构造一个虚拟示例集, 如果存在多个输入分量的组合, 且投影到它时等价的示例属于某个类的概率为$\lambda$, 则通过将组合作为前因, 类别作为后继来构造规则.
- 如果没有这样的组合, 则选择具有最佳聚类效果的连续输入组件并离散化. (?)
- 如何去噪: (?).

FANRE: A Fast Adaptive Neural Regression Estimator – Zhi-Hua Zhou, Shi-Fu Chen, Zhao-Qian Chen - 1999

Adaptive Resonance Theory: 像是一个KNN网络, 可以实现神经元的动态扩充. 对于新来的样本, 和之前的聚类中心进行比较, 如果符合阈值设定(形成共振), 则单独训练与之匹配的聚类中心对应的神经元的相关链接权重, 其他神经元保持不变; 如果所有神经元都不匹配, 那就创造一个新的神经元分配给这个数据形成新的一类.
FANRE的结构: 输入层, 输出层, 中间两层隐层. 最初隐层为空, 随输入动态添加隐层结点. 增量学习, 每个样例只过一遍.
- 两个参数$\theta_{ij}, \alpha_{ij}$, 代表从第一层的$unit_i$到第二层的$unit_j$的高斯权重的响应中心和响应特征宽度.
- $Err_{max}$: 最大容错值, $Vig_1$: first-degree vigilance, $Vig_2$: second-degree vigilance. 且有$Err_{max} < Vig_1 < Vig_2$
FANRE的学习流程: 输入新样例 $\Rightarrow$ 第二层竞争 $\Rightarrow$ 第三层竞争 $\Rightarrow$ 计算网络输出:(*)
- $Err < Err_{max}$ [已有的attracting basin能覆盖当前样例, 不需要调整] $\Rightarrow$ 下一个样例(**)
- $Err \geq Err_{max}$:
  - $Err_{max} \leq Err < Vig_1$ [虽然总体的近似表现不尽如人意, 但内部对输入输出模式的近似还是可用的] $\Rightarrow$ 调整$\theta_{ij}'$和$\alpha_{ij}$, 回到(*)
  - $Vig_1 \leq Err < Vig_2$ [由结点$u$表示的对输出的近似可用, 但由第二层结点表示的对输入的近似不合适] $\Rightarrow$ 第二层添加一个结点, 回到(**)
  - $Err \geq Vig_2$ [由结点$u$表示的对输出的近似, 和由第二层结点表示的对输入的近似均不合适] $\Rightarrow$ 第二层和第三层各添加一个结点, 回到(**)

Ensemble of GA based Selective Neural Network Ensembles – Jian-Xin Wu, Zhi-Hua Zhou, Zhao-Qian Chen - 2002

$\textbf{GASEN}$

$N$个基学习器$f_i:\mathbf{R}^m\rightarrow\mathbf{R}^n$加权: $\overline{f}(x) = \sum_{i=1}^Nw_if_i(x)$
设对于输入$x$, 期望输出为$d(x)$, 则基学习器和ensemble的误差为 $$E_i(x) = (f_i(x)-d(x))^2, E(x) = (\overline{f}(x)-d(x))^2$$
设$x$服从分布$p(x)$, 则基学习器和ensemble在分布上的泛化误差为 $$E_i = \int p(x)E_i(x)\rm{d}x, E = \int p(x)E(x)\rm{d}x$$
平均误差为$\overline{E}(x) = \sum_{i=1}^Nw_iE_i(x)$, 平均泛化误差为$\overline{E} = \int p(x)\overline{E}(x)\rm{d}x$
Ambiguity of the i-th learner on input $x$: $$A_i(x) = (f_i(x)-\overline{f}(x))^2, A_i = \int p(x)A_i(x)\rm{d}x$$ $$\overline{A}(x)=\sum_{i=1}^Nw_iA_i(x), \overline{A} = \int p(x)\overline{A}(x)\rm{d}x$$
定义ensemble的泛化性能: $E = \overline{E} - \overline{A}$
两个基学习器的相关性: $$C_{ij} = \int p(x)(f_i(x)-d(x))(f_j(x)-d(x))\rm{d}x$$ $$E = \sum_{i=1}^N\sum_{j=1}^Nw_iw_jC_{ij}$$
当对于第$k$个基学习器, 满足 $$(2N-1)\sum_{i=1,i\neq k}^N\sum_{j=1,j\neq k}^NC_{ij} < 2(N-1)^2\sum_{i=1,i\neq k}^NC_{ik} + (N-1)^2E_k$$

$\textbf{e-GASEN}$ 先用GASEN算法训几个ensembles, 再用简单的集成算法把这几个ensembles集成起来.

Hybrid Decision Tree – Zhi-Hua Zhou, Zhao-Qian Chen, 2002

处理有序属性 – 定量分析; 无序属性 – 定性分析. 结合symbolic leanring (无序属性) 和 neural learning (有序属性).
树的扩展: 将属性集分为无序属性$\mathcal{L}_0$和有序属性$\mathcal{L}_1$, 先将HDT按照无序属性扩展, 当树的分支因为结点里的样本属于同一类别而无法扩展时, 终止扩展; 当因为结点中无序属性均被使用过而无法扩展时, 将这个叶结点标记为neural node.
Neural Processing: 落入neural node的样本被连续属性集重新表示, 并被归一化. 然后使用FANNC做分类 (增量学习)
几种增量学习:
- E-IL (Example-Incremental Learning) —— 新的样本到来时, 保证学到新知识的同时不要牺牲过多的旧知识. 非增量学习方法会有灾难性遗忘的缺陷.
- C-IL (Class-Incremental Learning) —— 当新样例属于新类时, 学到新的知识且不用牺牲太多旧的知识 (例如重新学习整个系统)
- A-IL (Attribute-Incremental Learning) —— 当新样例带有新属性时, 学到新的知识且不用牺牲太多旧的知识 (例如重新学习整个系统)

Face recognition with one training image per person – Jian-Xin Wu, Zhi-Hua Zhou, 2002

人脸识别算法主要有两种类别: geometric feature-based and template-based techniques.
PCA属于后者, 但没有考虑标签信息; 而考虑标签信息的每个类别至少需要两张图片 (LDA).
$(PC)^2A$ —— projection-combined principal component analysis: 针对每张图片对其进行变换
- $x\in [1,N_1], y\in [1,N_2], P(x,y)\in [0,1]$, $P(x,y)$是灰度图
- $V_P(x) = \sum_{y=1}^{N_2}P(x,y), H_P(y) = \sum_{x=1}^{N_1}P(x,y)$
- $\overline{P} = \dfrac{\sum_{x=1}^{N_1}\sum_{y=1}^{N_2}P(x,y)}{N_1N_2}, M_P(x,y) = \dfrac{V_P(x)H_P(y)}{N_1N_2\overline{P}}$
- $P_{\alpha}(x,y) = \dfrac{P(x,y)+\alpha M_P(x,y)}{1+\alpha}$
- $P_{\alpha}'(x,y) = \dfrac{P_{\alpha}(x,y) - \min(P_{\alpha}(x,y))}{\max(P_{\alpha}(x,y)) - \min(P_{\alpha}(x,y))}$
最后在projection-combined version of image $P_{\alpha}(x,y)$上使用$PCA$.

Learning a Rare Event Detection Cascade by Direct Feature Selection – Jianxin Wu, James M.Rehg, Matthew D.Mullin, 2003

人脸检测是稀有事件检测的典型例子, 给一些人脸大小的图片, 其中很少的部分会包含人脸, target patterns occur with much lower frequency than non-targets.
搜索-分类: 搜索图片中可能的区域, 再判别是否包含脸. Viola-Jones framework 包含三个元素: 层叠式结构, 一些长方形特征, 基于AdaBoost的算法 - 在每个分类器中构造长方形特征的ensemble. 每个分类器拒绝一部分不包含人脸的区域, 并使包含人脸的通过.
在每个结点, 给定一个训练集${x_i,y_i}$, 训练目标是从总共$F$个特征中选出一些弱分类器${h_t}$, 集成的分类器$H_i$需要有很高的检测率$d_i$和中等的假正率$f_i$, 则整个层叠式模型的检测率$d = \prod_{i=1}^nd_i$和假正率$f = \prod_{i=1}^nf_i$, 可以保证有较高的检测率和很低的假正率. 第$t$轮boosting后, ensemble表示为 $$H(x) = \left{\begin{aligned} 1\quad & \sum_{t=1}^T\alpha_th_t(x) \geq \theta\ 0\quad & otherwise \end{aligned}\right.$$
训练一个结点的过程:
- 训练所有的弱分类器, (*)判断是否$d > D?$
  - yes $\Rightarrow$ 添加这个特征以最小化ensemble的假正率
  - no $\Rightarrow$ 添加这个特征以最大化ensemble的检测率
  - (以上的最大化和最小化均通过穷举法完成, 选择加入ensemble后能给ensemble带来最大提升的classifier)
- 如果 $f \geq F or d \leq D$ $\Rightarrow$ 返回(*)
和Viola-Jones相比, 本算法在每个结点每个弱学习器之训练一次, 而Viola-Jones算法中每个弱学习器每针对一个特征就要训练一次.(?)

A Scalable Approach to Activity Recognition based on Object Use – Jianxin-Wu, Adebola Osuntogun, Tanzeem Choudhury, ICCV 2006

使用动态贝叶斯网络 (Dynamic Bayesian Network), 从视频中稀疏且有噪声的RFID传感器数据和一些活动的常识学习训练模型.
Object-use Based Activity Recognition:
- $A^t, O^t, R^t, V^t$分别代表活动, 使用的物体, RFID和视频帧.
- DBN具有的参数: 先验$P(A^1)$, 观测模型$P(O^1|A^1), P(O^{t+1}|O^{t}, A^{t+1})$, 状态转移模型$P(A^{t+1}|A^{t})$, 输出模型$P(V^t|O^t), P(R^t|O^t)$
- 如何确定正在使用的物体 —— 除了RFID传感器数据, 借助视频, 将像素组成$8\times 8$的superpixels, 对比当前帧$t$和$t-3$$t+3$两帧的superpixels, 计算差距, 若差距均超过阈值则将其中的物体认定为正在使用的物体.
- 将segmented area中提取SIFT特征, 将视频帧看成的集合$V^t = (v^t_1,v^t_2,…,v^t_{n^t})$, 其中任两个SIFT特征相互独立, 且$P(V^t|O^t) = \prod_{i=1}^{n^t}P(v^t_i|O^t) = \prod_{i=1}^{n^t}\mathbf{h}_{O^t}(v_i^t)$
Learning object models w/o human labeling
- 在EM算法中使用RFID readings和common knowledge去学习object models.
- E步: 估计给定$R^t, V^t, \mathbf{h}_{O^t}(v_i^t)$时$O^t$的边际概率
- 用standard junction tree算法估计每一个时刻$O^t$的边际概率
- 给定$O^t$的边际概率, $V^t$和$A^t$独立
- M步: 计数, 更新$\mathbf{h}_{O^t}(v_i^t)$
Specify parameters from domain knowledge
- 不想细看了

Mining Typhoon Knowledge with Neural Networks – Zhi-Hua Zhou, Shi-Fu Chen, Zhao-Qian Chen - 1999#

FANRE: A Fast Adaptive Neural Regression Estimator – Zhi-Hua Zhou, Shi-Fu Chen, Zhao-Qian Chen - 1999#

Ensemble of GA based Selective Neural Network Ensembles – Jian-Xin Wu, Zhi-Hua Zhou, Zhao-Qian Chen - 2002#

Hybrid Decision Tree – Zhi-Hua Zhou, Zhao-Qian Chen, 2002#

Face recognition with one training image per person – Jian-Xin Wu, Zhi-Hua Zhou, 2002#

Learning a Rare Event Detection Cascade by Direct Feature Selection – Jianxin Wu, James M.Rehg, Matthew D.Mullin, 2003#

A Scalable Approach to Activity Recognition based on Object Use – Jianxin-Wu, Adebola Osuntogun, Tanzeem Choudhury, ICCV 2006#

Mining Typhoon Knowledge with Neural Networks – Zhi-Hua Zhou, Shi-Fu Chen, Zhao-Qian Chen - 1999

FANRE: A Fast Adaptive Neural Regression Estimator – Zhi-Hua Zhou, Shi-Fu Chen, Zhao-Qian Chen - 1999

Ensemble of GA based Selective Neural Network Ensembles – Jian-Xin Wu, Zhi-Hua Zhou, Zhao-Qian Chen - 2002

Hybrid Decision Tree – Zhi-Hua Zhou, Zhao-Qian Chen, 2002

Face recognition with one training image per person – Jian-Xin Wu, Zhi-Hua Zhou, 2002

Learning a Rare Event Detection Cascade by Direct Feature Selection – Jianxin Wu, James M.Rehg, Matthew D.Mullin, 2003

A Scalable Approach to Activity Recognition based on Object Use – Jianxin-Wu, Adebola Osuntogun, Tanzeem Choudhury, ICCV 2006