SME:基于时间连续性的Ensemble方法

Robust visual tracking by exploiting the historical tracker snapshots来自2015年ICCV,运用的方法是目标跟踪领域比较少见的多跟踪器组合方法,作者称为SME(Scale-adaptive Mutil-Expert),即尺度自适应的多专家跟踪框架。这里的尺度自适应其实就是基于DSST的方法,主要来看多专家跟踪部分。

解决的问题


目标跟踪领域中,物体遮挡常常会导致跟踪失败。SME提出了以下方案来解决这个问题,SME假设序列中的物体的位置在时域上具有连续性,也就是说相邻两帧中跟踪目标的位置应当差距不大。于是作者设计了基于时间连续性的ME选择规则。

那么问题来了,作者选择了哪些Expert呢?作者直接选择了之前帧的跟踪器作为Expert,称为一个Snapshot。作者用\Tau_t表示第t个的snapshot。

Y6cxD.md.png

图中右下角即为snapshot。绿框为SME,蓝框为KCF。

SME模型


根据之前的时间连续性的假设,作者设计了以下规则:

给出snapshot\Tau_1\Tau_2在第t帧的输出位置,分别为x_{\Tau_1}(t)x_{\Tau_2}(t),那么这两个snapshot的相似性为:
C_{\Tau_1:\Tau_2}^{t}=exp(-\frac{||x_{\Tau_1}(t)-x_{\Tau_2}(t)||^2}{\sigma^2})
假设有n个snapshot,按下式衡量某个snapshot\Tau的连续性:
C_{\Tau}^t=\frac{1}{n-1}\sum_{(\Tau \in E)\cap(\Tau_i \not= \Tau)}C_{\Tau:\Tau_i}^{t}
该方程表示了某个snapshot与其它snapshot在t帧的相似性的平均值。

然后根据这套连续性定义,对\Tau做优化即可
\Tau^{*}=\arg \max_{\Tau \in E}\sum_{t \in [T-\Delta,T]}C_{\Tau}^t
但在实际的跟踪场景中,snapshot会因为目标的模糊、重遮挡、复杂背景逐渐变得模糊。为了更好的选择,作者加入了基于信息熵的正则化项。新的相似度判别方程如下:
S_{\Tau} = C_{\Tau}-\eta H_{\Tau}(Y|X,Z)
其中\eta为正则因数,而H_{\Tau}(Y|X,Z)就是所谓的信息熵,为如下形式:
H_{\Tau}(Y|X,Z) = -\sum_{Y\in Z}P(Y|X;\theta_{\Tau})\log P(Y|X;\theta_{\Tau})
P(Y|X;\theta_{\Tau})代表每个区块为目标的可能性。在CF滤波器中,P(Y|X;\theta_{\Tau})天然地由标准化后的response_map表示。

新的目标函数如下:
\Tau^{*}=\arg \max_{\Tau \in E}\sum_{t \in [T-\Delta,T]}S_{\Tau}^t

论文结构


用MarginNotes做了这篇论文的flowchart,点击[pdf-embedder url=”http://www.qiucle.cn/wp-content/uploads/2020/04/尺度Li_Robust_Visual_Tracking_ICCV_2015_paper_withMarginNotes-1.pdf” title=”这里查看”]