机器之心报道
编辑:陈萍
一种新的集成视觉和检测Transformer的目标检测器ViDT。
Transformer在NLP任务中取得不错的发展,许多研究将其引入到计算机视觉任务中。毫不夸张的说,Transformer正在改变计算机视觉的格局,尤其是在识别任务方面。例如Detectiontransformer是第一个用于目标检测的、端到端的学习系统,而visiontransformer是第一个完全基于transformer的图像分类架构。在本文中,一篇被ICLR2022接收的匿名论文集成了视觉和检测Transformer(VisionandDetectionTransformer,ViDT)来构建有效且高效的目标检测器。
ViDT引入了一个重新配置的注意力模块,将SwinTransformer扩展为一个独立的目标检测器,之后是一个计算高效的Transformer解码器,该解码器利用多尺度特征和辅助技术,在不增加计算负载的情况下提高检测性能。
Adam Cochran:Coinbase已经非常清楚地表明Base的意图是完全去中心化:金色财经报道,Cinneamhain Ventures合伙人Adam Cochran在社交媒体上称,对COIN的良好展望。我不同意他们的代币策略,A) 我认为一旦OP层有分散的排序器/程序,去中心化网络的代币在美国是合法可行的。B) 我认为代币在某种程度上是必要的。Coinbase 已经非常清楚地表明 Base 的意图是完全去中心化。这意味着在某个时候,我们可以期望任何人都能够根据特定的配置方法运行验证器/定序器/证明器。在 roll-up sequencer 中赚取 sequencer 费用(你支付给网络的 gas 费用)所以有一个明确的经济福利可以分割。然后,您还需要一种方法来对不良参与者节点施加惩罚(例如削减),从而使攻击网络的成本太高。[2023/5/6 14:46:10]
在MicrosoftCOCO基准数据集上的评估表明,ViDT在现有的完全基于transformer的目标检测器中获得了最佳的AP和延迟权衡,其对大型模型的高可扩展性,可达49.2AP。
报告:BTC涨至1.4万美元,但有关指标并未完全跟进:加密分析公司Santiment在一份报告中表示,比特币升至1.4万美元有些出乎意料,民众情绪因此转为乐观和兴奋。然而数据显示,比特币有关网络活动和每日活动地址并没有完全跟进。[2020/11/1 11:22:07]
论文地址:https://openreview.net/pdf?id=w4cXZDDib1H
ViDT:视觉与检测Transformer
ViDT架构如下图2(c)所示:
首先,ViDT引入了一种改进的注意力机制,名为ReconfiguredAttentionModule(RAM),该模块有助于ViT变体处理附加的和token以进行目标检测。因此,ViDT可以将最新的带有RAM的SwinTransformer主干修改为目标检测器,并利用其具有线性复杂度的局部注意力机制获得高可扩展性;
火币Global API将“已完全撤销”订单可查询范围由24小时缩短为2小时:据火币官方公告,当前,以下历史订单查询REST API节点中,“已完全撤销”订单的最大可查询范围为24小时:GET /v1/order/history; GET /v1/order/orders。自本通知生效之日起,火币Global API将缩短“已完全撤销”订单(state=canceled)的最大可查询范围至2小时。任何在2小时之前被完全撤销的订单(state=canceled)将不能通过以上REST API节点被查询到。[2020/3/23]
其次,ViDT采用轻量级的无编码器neck架构来减少计算开销,同时仍然在neck模块上启用额外的优化技术。请注意,neck编码器是不必要的,因为RAM直接提取用于目标检测的细粒度表示,即token。结果,ViDT获得了比neck-free对应物更好的性能;
前门罗币首席开发者:许多监管机构不会采取完全反隐私的立场:金色财经消息,前门罗币首席开发者、Tari的联合创始人Riccardo Spagni表示,如今的监管机构明白隐私的必要性,许多监管机构看到了他们自己生活中对隐私的需要,不会采取完全反隐私的立场。(AMBCrypto)[2020/3/15]
最后,该研究引入了用于知识蒸馏的token匹配新概念,它可以在不影响检测效率的情况下从大型模型到小型模型带来额外的性能提升。
RAM模块
该研究引入了RAM模块,它将与和token相关的单个全局注意力分解为三个不同的注意力,即×、×和×注意力。如图3所示,通过共享和token的投影层,全部复用SwinTransformer的所有参数,并执行三种不同的注意力操作:
ENCODER-FREEneck结构
声音 | GMO总裁:虚拟货币业务已完全盈利:据virtualmoney消息,日本金融集团GMO总裁熊谷正寿今日表示,GMO的“虚拟货币业务已经成为一个可以完全盈利的系统。”9月25日,GMO发表了2018年1月至9月业绩报告会。报告显示,GMO旗下的虚拟货币交易业务,2018年7月至9月期间的营业额额为13.6亿日元,比4月至6月同期下降5%,营业利润为7.4亿日元,同比增长48%。开户数从6月底的16.9万个增加到9月底的19.7万个。[2018/10/26]
为了利用多尺度特征图,ViDT结合了多层可变形transformer解码器。在DETR家族中,其neck部分需要一个transformer编码器,用于将从骨干中提取的用于图像分类的特征转换为适合目标检测的特征;编码器通常在计算上很昂贵,因为它涉及×注意力。然而,ViDT只保留了一个Transformer解码器作为其neck,因为带有RAM的SwinTransformer直接提取适合目标检测的细粒度特征作为独立的目标检测器。因此,ViDT的neck结构在计算上是高效的。
解码器从带有RAM的SwinTransformer接收两个输入:从每个阶段生成的token从最后阶段生成的token,如图2(c)的Neck所示。在每个可变形的transformer层中,首先执行×注意力。对于每个token,应用多尺度可变形注意力以生成一个新的token,聚合从多尺度特征图
中采样的一小组关键内容:
用于目标检测的token匹配知识蒸馏
虽然大型模型具有实现高性能的高容量,但在实际使用中它的计算成本可能很高。因此,该研究还提出了一种简单的知识蒸馏方法,可以通过token匹配从大型ViDT模型中迁移知识。
匹配每一层的所有token在训练中非常低效,因此,该研究只匹配对预测贡献最大的token。两组token直接相关:P:用作多尺度特征图的token集合,由body中的每个阶段生成,D:token的集合,它们是从neck的每个解码层生成的。因此,基于token匹配的蒸馏损失公式为:
评估
表2将ViDT与DETR(ViT)和YOLOS的AP、FPS等进行了比较,其中DETR(ViT)有两个变体:DETR和DeformableDETR。
实验结果表明:ViDT实现了AP和FPS之间的最佳权衡。凭借其高可扩展性,其性能优于1亿个参数的Swin-base,在相似的AP的下,FPS比DeformableDETR快2倍。此外,ViDT参数为16M,得到40.4AP,比DETR(swin-nano)和DETR(swin-tiny)高分别高6.3AP、12.6AP。
表3对比了不同空间位置编码与ViDT的结果。结果表明:pre-addition比post-addition带来的性能提升更高,即sinusoidalencoding优于learnable编码;因此,正弦空间编码的2D归纳偏置在目标检测中更有帮助。特别是,与不使用任何编码相比,使用正弦编码的预加法将AP增加了5.0。
表4总结了使用不同选择策略进行交叉注意力时的AP和FPS,其中SwinTransformer总共包含四个阶段。有趣的是,只要在最后阶段激活交叉注意力,所有策略都表现出相似的AP。由于在各个阶段中以自下而上的方式提取特征,因此在低级别阶段很难直接获得有关目标对象的有用信息。因此,研究者想要获得较高的AP和FPS,只使用最后阶段是最好的设计选择,因为token的数量最少。
为了彻底验证辅助解码损失和迭代框细化的有效性,该研究甚至对YOLOS等neck-free检测器进行了扩展。表5显示了两种neck-free检测器YOLOS和ViDT(w.o.Neck)性能。实验结果证明在ViDT中使用Neck解码器来提高目标检测性能是合理的。
下图表明:教师模型的规模越大,学生模型的收益越大。从系数来看,系数值越大,性能越好。模型蒸馏将AP提高了1.0-1.7,而不会影响学生模型的推理速度。
研究者将所有提议的组件结合起来,以实现目标检测的高精度和速度。如表8所示,有四个组件:(1)RAM将SwinTransformer扩展为独立的目标检测器,(2)neck解码器利用多尺度特征和两种辅助技术,(3)从大模型中获益知识蒸馏,(4)解码层drop进一步加快推理速度。结果表明:当使用Swin-nano作为其主干时,它仅使用13M参数就达到了41.7AP和合理的FPS。此外,当使用Swin-tiny时,它仅损失了2.7FPS而表现出46.4AP。
本文来源:时代周报作者:郭子硕元宇宙概念大火,区块链游戏也搭上顺风车。“携手v神,马斯克实现火星梦”.
1900/1/1 0:00:00我们站在当我们站在当前节点依然坚定的看好元宇宙的大产业趋势以及对应不同产业环节的投资机会,我们将最近对元宇宙产业链和相关投资机会的思考进行了核心逻辑的提炼梳理,供参考.
1900/1/1 0:00:00赫利俄斯(Helios),是古希腊神话中的太阳神,依据赫西俄德的《神谱》,是提坦神许珀里翁与忒亚儿子,月女神塞勒涅和黎明女神厄俄斯的兄弟,传说他每日乘着四匹火马所拉的日辇在天空中驰骋,从东至西.
1900/1/1 0:00:00来源:媒体滚动 华夏时报 华夏时报记者王永菲冉学东北京报道 区块链技术上升为国家战略两年多的时间里,我国大部分省份都已经出台了区块链相关发展规划.
1900/1/1 0:00:00答案:微信搜索公众号 企业负债是指由企业承担的能以货币计量的在将来以资产或劳务偿还的债务。()A.是B.否2.居民投资可以分为实物投资和金融投资.
1900/1/1 0:00:00再反垄断!重罚650万!阿里腾讯京东被锤!快手又裁员?戴珊捏和淘宝天猫;字节月活19亿!微信美团接入数字人民币.
1900/1/1 0:00:00