SimDR
URL:
NAME: Is 2D Heatmap Representation Even Necessary for Human Pose Estimation?
AUTHOR: 清华 旷视
YEAR: 2021
PUBLISHED:
TAG: ((620602d4-e403-40ec-9508-dba5cdc03e26))
CODE: https://github.com/leeyegy/SimDR
IN A WORD: 相较与热图操作,少了一个偏移回归的操作
[[SimDR CODE]]
why
先前的姿态估计方法都是从2D高斯热图出发,这极大的限制了姿态估计发展前景。
Heatmap
- 在低分辨率图片上掉点严重:对于HRNet-W48,当输入分辨率从256x256降到64x64,AP会从75.1掉到48.5
- 为了提升精度,需要多个上采样层来将特征图分辨率由低向高进行恢复:通常来说上采样会使用转置卷积来获得更好的性能,但相应的计算量也更大,骨干网络输出的特征图原本通道数就已经很高了,再上采样带来的开销是非常庞大的
- 需要额外的后处理来减小尺度下降带来的量化误差:如DARK修正高斯分布,用argmax获取平面上的极值点坐标等。传统的Heatmap尺寸往往小于原始图片尺寸,因而最后通过argmax得到的坐标放大会原图,就会出现量化误差。
what
本文提出了一种姿态估计的解耦坐标表征,Simple Disentagled coordinate Representation(SimDR),将关键点坐标(x,y) 用2条独立的、长度等于或高于原图片尺寸的一维向量进行表征。
提出了一种表征方式,可以作用到CNN或Transformer网络上,效果都不错。
how
Encoder由2部分组成,Neural Network:SimpleBaseline 或者HRNet; 关键点嵌入:${K_i}^n_{i=1}, {K_i\in \mathcal{R}^d}$, 将featmaps转换为$n\times d$的形式,n表示关键点的类型(也就是说针对每个类型都进行关键点的嵌入,对应的应该就是final_layer->16个通道对应16个关键点位置)
SimDR Head:通过共享的Linear Projection将每个嵌入特征转换为2个1D的向量$(o_x^i, o_y^i)$, 长度分别为$W\cdot k$和$H\cdot k$。(Linear Projection为全链接层,4096-> x y图像输入的尺度*simdr_split_ratio,❓唯一的问题是这里需要将16个通道的热图每个都展平成4096维度的向量,是否能够成立?)