wuvin
Always take risks!
Toggle navigation
wuvin
主页
实验室的搬砖生活
机器学习
公开的学术内容
公开的其他内容
About Me
归档
标签
友情链接
ZYQN
ihopenot
enigma_aw
hzwer
杨宗翰
DE⫶TR: End-to-End Object Detection with Transformers
2021-02-07 14:50:02
1776
0
0
wuvin
# DE⫶TR: End-to-End Object Detection with Transformers --- ## Info * Conference: ECCV 2020 * Cites: 114 * Github Stars: 6.1k * Github Solved/Issue: 215/274 * Author:  --- # Main Idea * 这也过于火爆了吧! * Transformer 做 Detection,没有 Anchor,decode出来就是 BOX。 * 先用 CNN backbone 提取到 $2048 \times \frac{H_0}{32} \times \frac{W_0}{32}$ 维度。FFN是4层MLP,预测中心以及边长还有分类(有一个empty类)。 *  *  * Object Query 也是训练出来的 *  * 定义了如下Loss来避免输出重复结果(Loss用到了二分图匹配) *  * positional encoding 加的非常狠,Encoder 每一层都加,Decoder 也加的更多。 # Results *  *  *  *  * 同时把分割也给做了 *  *  # Comments * 不得不说作者对于 Transformer 的理解非常透彻。 * 无论之前的论文还是这篇,都看得出来一件事情——底层特征提取还是CNN历害,高层特征就该转向Attention-Based Methods 更能够兼顾全局。 * 这个网络听说要训练很久。 * 这个FFN看起来还挺有改进的空间,看看有没有人做。 * 至于为什么 Position Encoding 是直接加在 Feature 上的,以及为什么能 work 没看到解释。 * 适合 CNN 的 Position Encoding 也值得研究。
上一篇:
机器学习顶会时间表
下一篇:
Score-Based Generative Modeling through Stochastic Differential Equations
0
赞
1776 人读过
新浪微博
微信
腾讯微博
QQ空间
人人网
提交评论
立即登录
, 发表评论.
没有帐号?
立即注册
0
条评论
More...
文档导航
没有帐号? 立即注册