黑龙江东部、新疆阿勒泰山区等地部分地区仍有中到大雪
中新网11月23日电 据中央气象台网站消息,预计,未来两天,黑龙江东部、新疆阿勒泰山区、西藏东部...
极市导读
本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效,称为 Conv2Former。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。>>加入极市CV技术交流群,走在计算机视觉的最前沿
本文目录1 Conv2Former:Transformer 风格的卷积网络视觉基线模型1 Conv2Former:Transformer 风格的卷积网络视觉基线模型(来自南开大学,字节跳动)1.1 Conv2Former 论文解读1.1.1 背景和动机1.1.2 卷积调制模块1.1.3 Conv2Former 整体架构1.1.4 实验结果
(相关资料图)
论文名称:Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
论文地址:https://arxiv.org/pdf/2211.11943.pdf
1.1.1 背景和动机以 VGGNet、Inception 系列和 ResNet 系列为代表的 2010-2020 年代的卷积神经网络 (ConvNets) 在多种视觉任务中取得了巨大的进展,它们的共同特点是顺序堆叠多个基本模块 (Basic Building Block),并采用金字塔结构 (pyramid network architecture),但是却忽略了显式建模全局上下文信息的重要性。SENet 模块系列模型突破了传统的 CNN 设计思路,将注意力机制引入到 CNN 中以捕获远程依赖,获得了更好的性能。
自从 2020 年以来,视觉 Transformer (ViTs) 进一步促进了视觉识别模型的发展,在 ImageNet 图像分类和下游任务上表现出比最先进的 ConvNets 更好的结果。这是因为与只进行局部建模的卷积操作相比,Transformer 中的自注意力机制能够对全局的成对依赖进行建模,提供了一种更有效的空间信息编码方法。然而,在处理高分辨率图像时,自注意力机制导致的计算成本是相当大的。
为了解决这个问题,一些 2022 年经典的工作试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型?
比如 ConvNeXt[1]:将标准 ResNet 架构现代化,并使用与 Transformer 相似的设计和训练策略,ConvNeXt 可以比一些 Transformer 表现得更好。
从原理和代码详解FAIR去年的惊艳之作:全新的纯卷积模型ConvNeXt
再比如 HorNet[2]:通过建模高阶的相互作用,使得纯卷积模型可以做到像 Transformer 一样的二阶甚至更高的相互作用。
精度超越ConvNeXt的新CNN!HorNet:通过递归门控卷积实现高效高阶的空间信息交互
再比如 RepLKNet[3],SLaK[4]:通过 31×31 或者 51×51 的超大 Kernel 的卷积,使得纯卷积模型可以建模更远的距离。
又对ConvNets下手了!详解SLaK:从稀疏性的角度将卷积核扩展到 51×51
到目前为止,如何更有效地利用卷积来构建强大的 ConvNet 体系结构仍然是一个热门的研究课题。
1.1.2 卷积调制模块本文的关键就是本小节介绍的卷积调制模块。如下图1所示, 对于传统的 Self-attention, 给定一个序列长度为
式中,
为了简单起见,这里省略了 scale factor,自注意模块的计算复杂度随着序列长度N的增加呈二次增长,带来了更高的计算代价。
在卷积调制模块中, 不通过2式计算相似度得分矩阵
式中,
优势: 卷积调制模块利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。
ConvNeXt 表明,将 ConvNets 的核大小从3扩大到7可以提高分类性能。然而,进一步增加 Kernel 的大小几乎不会带来性能上的提升,反而会在没有重新参数化的情况下增加计算负担。但作者认为,使 ConvNeXt 从大于 7×7的 Kernel Size 中获益很少的原因是使用空间卷积的方式。对于 Conv2Former,当 Kernel Size 从 5×5 增加到 21×21 时,可以观察到一致的性能提升。这种现象不仅发生在 Conv2Former-T (82.8→83.4) 上,也发生在参数为80M+ 的 Conv2Former-B (84.1→84.5) 上。考虑到模型效率,默认的 Kernel Size 大小可以设置为 11×11。
权重策略的优化: 注意这里作者直接将深度卷积的输出作为权重,对线性投影后的特征进行调制。Hadamard 积之前既没有使用激活层,也没有使用归一化层 (例如 Sigmoid 或 LN 层),如果像 SE 模块那样加一个 Sigmoid 函数,会使性能降低 0.5% 以上。
1.1.3 Conv2Former 整体架构如下图3所示,与ConvNeXt 和 Swin Transformer 相似,作者的 Conv2Former 也采用了金字塔架构。总共有4个 Stage,每个 Stage 的特征分辨率依次递减。根据模型大小尺寸,一共设计了5个变体:Conv2Former-N,Conv2Former-T, Conv2Former-S, Conv2Former-B,Conv2Former-L。
当可学习参数数量固定时,如何安排网络的宽度和深度对模型性能有影响。原始的 ResNet-50 将每个 Stage 的块数设置为 (3,4,6,3)。ConvNeXt-T 按照 Swin-T 的模式将 Block 数之比更改为 (3,3,9,3),并对较大的模型将 Block 数之比更改为 (1,1,9,1)。Conv2Former 的设置如下图4所示。可以观察到,对于一个小模型 (参数小于30M),更深的网络表现更好。
ImageNet-1K 实验分为两种,一种是直接在 ImageNet-1K 上面训练和验证,另一种是先在 ImageNet-22K 上预训练,再在 ImageNet-1K 上微调和验证。
ImageNet-1K 实验设置
数据集:ImageNet-1K 训练 300 Epochs,ImageNet-1K 验证。
优化器: AdamW, lr
ImageNet-22K 实验设置
数据集:ImageNet-22K 预训练 90 Epochs,ImageNet-1K 微调 30 Epochs,ImageNet-1K 验证。
如下图5所示是 ImageNet-1K 实验结果。对于小型模型 (< 30M),与 ConvNeXt-T 和 Swin-T 相比,Conv2Former 分别有 1.1% 和 1.7% 的性能提升。即使 Conv2Former-N 只有 15M 参数和 2.2G FLOPs,其性能也与具有 28M 参数和 4.5G FLOPs 的 SwinT-T 相同。对于其他流行的模型,Conv2Former 也比类似模型尺寸的模型表现更好。Conv2Former-B 甚至比 EfficientNetB7 表现得更好 (84.4% vs . 84.3%),后者的计算量是 Conv2Former 的两倍 (37G vs. 15G)。
如下图6所示是 ImageNet-22K 的实验结果。作者遵循 ConvNeXt 中使用的设置来训练和微调模型。与 ConvNeXt 的不同变体相比,当模型尺寸相似时,Conv2Former 都表现得更好。此外,我们可以看到,当在更大的分辨率384×384 上进行微调时,Conv2Former-L 获得了比混合模型 (如 CoAtNet 和 MOAT) 更好的结果,Conv2Former-L 达到了 87.7% 的最佳结果。
如下图8所示是关于卷积核大小的消融实验结果。在 大小增加到 21 × 21 之前,性能增益似乎已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel 不会带来明显的性能提升。
消融实验1:卷积核大小
如下图8所示是关于卷积核大小的消融实验结果。在 Kernel Size 增加到 21 × 21 之前,性能增益已经饱和。这个结果与 ConvNeXt 得出的结论截然不同,ConvNeXt 得出的结论是,使用大于 7×7 的 Kernel Size 不会带来明显的性能提升。这表明 Conv2Former 的做法能比传统方式更有效地利用大 Kernel 的优势。
消融实验2:不同融合策略的影响
如下图8, 9所示是关于不同融合策略影响的消融实验结果。除了上述两种融合策略外, 作者还尝试使用其他方法来融合特征映射, 包括在
直筒架构实验结果
遵循 ConvNeXt 的做法,作者也训练了 Conv2Former 的直筒架构 (Isotropic Models) 版本,结果如下图9所示。作者将 Conv2Former-IS 和 Conv2Former-IB 的块数设置为18,并调整通道数以匹配模型大小。字母 "I" 表示直筒架构,可以看到,对于 22M 参数左右的小型模型,Conv2Former-IS 比 DeiT-S 的表现要好得多。当将模型尺寸放大到 80M+ 时,Conv2Former-IB 达到了 82.7% 的 Top-1 Accuracy,这也比 ConvNeXt-IB 高 0.7%,比 DeiT-B 高0.9%。
目标检测实验结果
如下图10所示是不同骨干网络,以 Mask R-CNN 为检测头和 Cascade Mask R-CNN 为实例分割头在 COCO 数据集的实验结果。训练策略遵循 ConvNeXt。对于小模型,使用 Mask R-CNN 框架时,Conv2Former-T 比 SwinT-T 和 ConvNeXt-T 获得了约 2% AP 的改进。
语义分割实验结果
如下图11所示是不同骨干网络,以 UperNet 为分割头在 ADE20k 上的实验结果。对于不同尺度的模型,我们的Conv2Former可以优于Swin Transformer和ConvNeXt。
总结本文试图回答:如何借助卷积操作,打造具有 Transformer 风格的卷积网络视觉基线模型。本文提出一种卷积调制模块,利用卷积来建立关系,这比注意力机制在处理高分辨率图像时更高效。最终的模型称为 Conv2Former,它通过只使用卷积和 Hadamard 积,简化了注意力机制。卷积调制操作是一种利用大核卷积的更有效的方法。作者在 ImageNet 分类、目标检测和语义分割方面的实验也表明,Conv2Former 比以前基于 CNN 的模型和大多数基于 Transformer 的模型表现得更好。
参考
^A ConvNet for the 2020s^HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions^Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs^More ConvNets in the 2020s: Scaling up Kernels Beyond 51 × 51 using Sparsity公众号后台回复“CNN100”,获取100 篇 CNN 必读的经典论文资源下载
极市干货
技术干货:数据可视化必须注意的30个小技巧总结|如何高效实现矩阵乘?万文长字带你从CUDA初学者的角度入门实操教程:Nvidia Jetson TX2使用TensorRT部署yolov5s模型|基于YOLOV5的数据集标注&训练,Windows/Linux/Jetson Nano多平台部署全流程#极市平台签约作者#
科技猛兽
知乎:科技猛兽
清华大学自动化系19级硕士
研究领域:AI边缘计算 (Efficient AI with Tiny Resource):专注模型压缩,搜索,量化,加速,加法网络,以及它们与其他任务的结合,更好地服务于端侧设备。
作品精选
搞懂 Vision Transformer 原理和代码,看这篇技术综述就够了用Pytorch轻松实现28个视觉Transformer,开源库 timm 了解一下!(附代码解读)轻量高效!清华智能计算实验室开源基于PyTorch的视频 (图片) 去模糊框架SimDeblur投稿方式:添加小编微信Fengcall(微信号:fengcall19),备注:姓名-投稿△长按添加极市平台小编觉得有用麻烦给个在看啦~上一篇 : 全球快播:谭松韵,即将成为第二个“赵丽颖”
下一篇 : 新闻1+1丨疫情高峰来临,四川如何应对? 滚动
黄金具有避险属性,尤其是规避地缘政治的风险。12月8日,350名科索沃警察进入科索沃北部的塞族人聚居区...
12-30 18:21:32
12月29日,沪指报收3073 7,较前一交易日下跌0 44%。化学纤维行业整体表现一般,较前一交易日下跌0 0...
12-30 15:10:29
据商务部重要生产资料市场监测系统显示,12月17日至12月23日,陕西省煤炭均价17100元吨,环比下跌02...
12-30 09:30:21
很多时候需要周期性的执行某些操作,就需要用到定时器。定时器有三种思路。Sleep使用休眠,让当前Gorout...
12-30 02:10:03
本文编辑剧透社:小彤现年35岁的港姐陈庭欣与坐拥10亿身家的彩丰行老板杨振源(Benny)拍拖至今已经有四...
12-29 19:38:47
据香港财政司司长近日在活动上的发言,他表示本年度香港的金融市场交易仍然亮眼,在上市公司IPO数目及股...
12-29 17:46:36
12月29日三特索道(002159)跌6 04%,收盘报16 65元,换手率22 11%,成交量30 52万手,成交额5 13...
12-29 15:39:56
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天...
12-29 13:25:54
雄韬股份(002733)12月29日在投资者关系平台上答复了投资者关心的问题。投资者:公司钠电主要运用的是什...
12-29 11:30:57
中新网丽水12月28日电(黄慧陈怡宁)放眼浙西南地区,群山苍茫起伏,河网星罗棋布。未来,这里的美景将因...
12-29 09:34:43
1、看氧化度:选购时可在型材表面轻划一下,看其表面的氧化膜是否可以擦掉。2、看色度:同一根铝合金型材色...
12-28 16:46:49
屏东地检署近日侦结此案,检察官认定,胡姓连长未依规定使军事训练役人员执行需具有证照或签证的勤务,...
12-28 14:03:46
疫苗情报:2022年12月28日(周三)起,18-59岁人群在桂城能接种“第四针”。2022年12月28日(周三),桂城开...
12-28 10:30:34
“核心产品系统化,工程服务国际化”,是中天科技在“专精特新一企一品深耕模式”下针对海洋板块提出的...
12-28 03:50:19
在长沙新冠阳性了可以去酒店自我隔离吗?答:可以。长沙市新型冠状病毒肺炎防控指挥部决定在前段时间实...
12-27 18:25:40
文|闻?总编|唐迪真的是有点惊讶,现在三开门冰箱已经可以千元就拿下了!?容声冰箱老品牌,国货之光,现...
12-27 15:01:33
(记者刘忠俊)12月26日,历经10余年的分段建设、分段开通,全长915公里的新成昆铁路全线通车运行。工程建...
12-27 09:37:50
中原环保股份有限公司独立董事 关于评估机构独立性、评估假设前提合理性、评估方法与评估目的的相关性...
12-26 22:06:29
证券代码:688578证券简称:艾力斯公告编号:2022-037上海艾力斯医药科技股份有限公司关于获得政府补助的公告
12-26 15:57:01
天桥起重(002523)12月26日在投资者关系平台上答复了投资者关心的问题。投资者:你好董秘,最近证监会每...
12-26 10:30:22
一个国际科学家小组在罗马尼亚发现了一个以前未知的恐龙物种,并以其异常扁平的头部命名--以及它被发现...
12-25 22:53:36
可能会。如果用户使用网贷消费之后出现了逾期,并且经过网贷机构和第三方的催收人员催缴欠款无果之后,...
12-25 07:47:17
一年了,民营房企又开始拍地了!业内:部分城市实际地价或进一步下调
12-24 09:47:57
格隆汇12月23日丨英搏尔(300681)(300681 SZ)公布,公司控股股东姜桂宾计划通过证券交易所集中竞价、大...
12-23 18:49:42
【市场监管总局公布2022“铁拳”行动第八批典型案例】包括,浙江省建德市市场监管局查处建德市新安江街...
12-23 14:43:44
截至2022年12月22日收盘,芒果超媒(300413)报收于29 95元,上涨9 11%,换手率4 0%,成交量40 88万手...
12-23 08:42:18
“防患未燃筑牢冬季消防安全线”,襄城消防开展冬季消防安全宣传活动---通讯员张尚印。为扎实做好秋冬季...
12-22 19:28:57
同花顺(300033)金融研究中心12月22日讯,有投资者向富淼科技提问,请问乳液型聚丙烯酰胺产线进展如何...
12-22 14:17:21
截至2022年12月21日收盘,奥普特(688686)报收于128 09元,下跌2 9%,换手率1 46%,成交量4818 3手,成交额6235 58万元。12
12-22 07:42:48
1、按件收费收取(1)无财产争议:6000元-20000元之间;(2)法律文书:600元-2000元之间;(3)律师见...
12-21 17:51:16
同花顺(300033)金融研究中心12月21日讯,有投资者向传艺科技(002866)提问,你好,10月28日说中试投...
12-21 11:44:48
刑法第二百三十二条故意杀人的,处死刑、无期徒刑或者十年以上有期徒刑;情节较轻的,处三年以上十年以...
12-21 05:40:56
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天...
12-20 16:48:48
12月19日,是齐鲁银行公开发行80亿可转债的上市交易之日。一般来说,新股 新债通常具有较大的盈利可能...
12-20 10:56:27
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天...
12-19 23:58:46
12月19日中交地产发生大宗交易,交易数据如下:大宗交易成交价格19 82元,相对当日收盘价折价11 95%,...
12-19 16:25:43
同花顺数据中心显示,常铝股份12月16日获融资买入209 66万元,占当日买入金额的16 16%,当前融资余额2...
12-19 10:45:27
5月27日上午,在鹿邑县十六届人大一次会议上,鹿邑县人民法院工作报告获得与会代表全票通过。张述涛同志...
12-19 01:16:12
“海洋地质二号”原为水下支持维护船,经过改造升级后,已成为一艘具备伴随大洋钻探船进行全球航行作业...
12-18 13:21:00
特斯拉市值“腰斩”创两年新低,马斯克抛售逾35亿美元股票 湃新闻记者吴遇利 特斯拉市值触及两...
12-17 15:43:03
12月16日,广发中证军工ETF最新单位净值为1 1165元,累计净值为1 1165元,较前一交易日下跌1 39%。历...
12-17 01:14:15
天坛生物发布2022年半年度报告,实现营业收入18 91亿元,同比增长4 37%;归属于上市公司股东的净利润3...
12-16 16:36:08
1、产生罚息这是金钱上的损失。如果信用贷款出现逾期,贷款机构会先电话催收贷款,提醒借款人还款,同时...
12-16 10:06:57
内地经拱北海关对澳门进出口总值突破3300亿元2022年12月15日21:43中国政府网
12-15 22:32:52
根据调查,拥有美国注册管理会计师(CMA)认证的财务专业人员的平均薪酬中位数比非认证财务专业人员高出...
12-15 15:39:25
东方铁塔(002545)12月15日在投资者关系平台上答复了投资者关心的问题。投资者:请问投资者的提问你们董...
12-15 10:13:27
就在刚刚,小米@雷军在其个人微博上发布了小米php《知识产权与创新白皮书》,白皮书中首次展示了小米全...
12-14 21:05:36
大河网讯1月18日上午,汝阳县应急管理局在该局三楼应急指挥中心组织召开森林防灭火督导检查工作组会议。...
12-14 15:10:55
中国武夷(000797)12月14日在投资者关系平台上答复了投资者关心的问题。
12-14 08:43:12
2022年12月14日公告发布
12-13 18:00:24
黄金具有避险属性,尤其是规避地缘政治的风险。12月8日,350名科索沃警察进入科索沃北部的塞族人聚居区...
2022-12-30
12月29日,沪指报收3073 7,较前一交易日下跌0 44%。化学纤维行业整体表现一般,较前一交易日下跌0 0...
2022-12-30
据商务部重要生产资料市场监测系统显示,12月17日至12月23日,陕西省煤炭均价17100元吨,环比下跌02...
2022-12-30
很多时候需要周期性的执行某些操作,就需要用到定时器。定时器有三种思路。Sleep使用休眠,让当前Gorout...
2022-12-30
本文编辑剧透社:小彤现年35岁的港姐陈庭欣与坐拥10亿身家的彩丰行老板杨振源(Benny)拍拖至今已经有四...
2022-12-29
2022年第一季度全球玻璃纤维需求比2021第四季度增长了5 4%,与2021第一季度同期相比增长了16%。由于风...
2022年8月15日,A股上市公司思美传媒(代码:002712 SZ)发布2022年半年度业绩报告。2022年1月1日-2022年...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
新华社华盛顿11月20日电 通讯:“留在中国的决定让我拥有一段值得讲述的人生”——留华美国学生韩...
中新网11月23日电 据中央气象台网站消息,目前,本轮寒潮对中国的影响已经基本结束,预计未来三天...
中新网11月23日电 据中央气象台网站消息,预计,未来两天,黑龙江东部、新疆阿勒泰山区、西藏东部...
Copyright © 2015-2022 青年纤维网版权所有 备案号:皖ICP备2022009963号-20 联系邮箱:39 60 291 42@qq.com