enet网络学院(enet硅谷动力学院)
enet网络学院(enet硅谷动力学院)雷锋网2019-02-26 10:14:15本文为 AI 研习社编译的技术博客,原标题 :
ENet — A Deep Neural Architecture for Real-Time Semantic Segmentation
作者 |Arunava
翻译 | callofduty890
校对 | 酱番梨 审核 | Pita 整理 | 立鱼王
原文链接:
https://towardsdatascience.com/enet-a-deep-neural-architecture-for-real-time-semantic-segmentation-2baa59cf97e9
Fig 1. A conversation between a semantic segmented guy and a toon
这是该论文的论文摘要:
ENet:用于实时语义分割的深度神经网络体系结构
作者:Adam Paszke
论文:
https://arxiv.org/abs/1606.02147
概论
ENet(高效神经网络)提供了实时按像素进行语义分割的能力。 ENet的速度提高了18倍,FLOP要求减少了75倍,参数减少了79倍,并且为现有模型提供了类似或更好的精度。 在CamVid,CityScapes和SUN数据集上测试。
方法:
图3. ENet架构
以上是完整的网络架构。
它分为几个阶段,由表格中的水平线和每个块名称后的第一个数字突出显示。报告输出尺寸为输入图像分辨率512 * 512
图4. ENet的每个模块都有详细说明
视觉表现:
- 初始模块是(a)中所示的模块- 并且瓶颈模块显示在(b)
每个瓶颈模块包括:
- 1x1投影,降低了维度
- 主卷积层(conv)( - 常规,扩张或完整)(3x3)
- 1x1扩展
- 并且它们在所有卷积层之间放置批量标准化和PReLU
如果瓶颈模块是下采样,则将最大池化层添加到主分支。 此外,第一个1x1投影被替换为2x2卷积,stride = 2。
它们将激活无填充以匹配要素图的数量。
conv有时是不对称卷积,即5 * 1和1 * 5卷积的序列。
对于正则化器,他们使用Spatial Dropout:
- 在瓶颈2.0之前p = 0.01
- 完成之后p = 0.1
所以,
阶段1,2,3-编码器 - 由5个瓶颈模块组成(除了阶段3没有下采样)。
阶段4,5-解码器 - 阶段4包含3个瓶颈,阶段5包含2个瓶颈模块
接下来是一个fullconv,它以尺寸输出最终输出 - C * 512 * 512,其中C是滤波器的数量。
还有一些事实:
- 他们没有在任何预测中使用偏见项
- 在每个卷积层和激活之间,它们使用批量标准化
- 在解码器中,MaxPooling被MaxUnpooling取代
- 在解码器中,Padding被替换为Spatial Convolution而没有偏差
- 在最后一个(5.0)上采样模块中不使用池化索引
- 网络的最后一个模块是一个裸完全卷积,它占据了处理时间的大部分解码器。
- 每个侧支有一个空间丢失,第1阶段p = 0.01,之后阶段p = 0.1。
结果
对ENet的表现进行了基准测试
- CamVid(道路场景)
- CityScapes(道路场景)
- SUN RGB-D(室内场景)
使用SegNet [2]作为基线,因为它是最快的分割模型之一。 使用cuDNN后端使用Torch7库。
使用NVIDIA Titan X GPU以及NVIDIA TX1嵌入式系统模块记录推理速度。 输入图像大小为640x360,速度超过10fps。
图5.使用SegNet作为基线的两个不同GPU的推理时间比较
图6. SegNet和ENet的硬件要求
基准使用 Adam.ENet非常快速地融合,在每个数据集上,使用4个Titan X GPU,训练只需要3-6个小时。
分两个阶段进行:
- 首先,他们训练编码器对输入图像的下采样区域进行分类。
- 然后附加解码器并训练网络以执行上采样和像素分类。
学习率 - 5e-4
L2重量衰减为2e-4
批量大小为10
自定义类权重方案定义为
图7所示。自定义类权重方案的公式
其中c = 1.02并且类权重被限制在[1,50]的区间内
图8. CityScapes数据集的性能
图9. CamVid数据集的性能
参考:
A. Paszke, A. Chaurasia, S. Kim, and E. Culurciello. Enet: A deep neural network architecture for real-time semantic segmentation. arXiv preprint arXiv:1606.02147, 2016.
V. Badrinarayanan, A. Kendall, and R. Cipolla, "Segnet: A deep convolutional encoder-decoder architecture for image segmentation," arXiv preprint arXiv:1511.00561, 2015.
我最近还转载了这篇论文,可以在这里找到:
https://github.com/iArunava/ENet-Real-Time-Semantic-Segmentation
想要继续查看该篇文章相关链接和参考文献?
点击【ENet——一种针对实时语义分割的深度神经架构】或长按下方地址访问:
https://ai.yanxishe.com/page/TextTranslation/1468
AI研习社今日推荐:雷锋网雷锋网雷锋网
卡耐基梅隆大学 2019 春季《神经网络自然语言处理》是CMU语言技术学院和计算机学院联合开课,主要内容是教学生如何用神经网络做自然语言处理。神经网络对于语言建模任务而言,可以称得上是提供了一种强大的新工具,与此同时,神经网络能够改进诸多任务中的最新技术,将过去不容易解决的问题变得轻松简单。
加入小组免费观看视频:
https://ai.yanxishe.com/page/groupDetail/33
收藏举报3条评论
韩国人口土地面积多大(台湾人口和国土面积是多少)韩国人口土地面积多大(台湾人口和国土面积是多少)原创镜鉴青年202106062041韩愈送董邵南游河北序随着韩愈的一篇内容简短的序,燕赵之地被铭刻上慷慨悲歌之士的集结地。那么韩愈因
西班牙对葡萄牙(葡萄牙vs西班牙全场回放)西班牙对葡萄牙(葡萄牙vs西班牙全场回放)原创足球部落20180616035239北京时间6月16日凌晨2点,第21届俄罗斯世界杯B组的焦点战在索契奥林匹克体育场打响,西班牙队和葡
男高音歌唱家(中国著名男高音歌唱家)男高音歌唱家(中国著名男高音歌唱家)原创国家大剧院20210401120400视频加载中歌剧这一艺术形式受到越来越多的音乐爱好者的喜爱和关注。本期经典艺术讲堂线上课堂,我们有幸邀请
经典世界杯(经典回顾82年世界杯)经典世界杯(经典回顾82年世界杯)原创天天素还真20210523072502世界杯扩军至32支球队以来,总共有64场比赛。不过其中有两场比赛是最特殊的,揭幕战和决赛。揭幕战是整个大
世界杯外围赛(欧洲杯赛程比分)世界杯外围赛(欧洲杯赛程比分)5月4日,中超第三轮大连人队02不敌北京国安,成为至今为止16支中超球队中唯一0分队伍,毫无疑问的两组垫底。虽然今年大连人遇到了主力流失外援无法归队等
好看的科幻电影推荐(金刚大战哥斯拉2021高清)好看的科幻电影推荐(金刚大战哥斯拉2021高清)科幻电影,一直是电影领域里一个很重要的分支。2019年,中国拍出了第一部真正意义上的科幻电影流浪地球。电影于2019年春节档上映,以
世界上最古老的文字(世界上最古老的文字,你能认出几个?)世界上最古老的文字(世界上最古老的文字,你能认出几个?)一提起世界上最古老的文字,很多人都会想到甲骨文,知识更为渊博者或许会说出苏美尔人的楔形文字古埃及的圣书字和玛雅文字。但我要告
动物大全(2018年动物世界最受关注的20种动物)动物大全(2018年动物世界最受关注的20种动物)西伯利亚虎又称东北虎阿穆尔虎,是体型最大的虎亚种,分布于俄罗斯东部朝鲜和中国东北等地。是中国国家一级保护动物。野生西伯利亚虎的数据
澳网女单冠军奖金(澳网的奖金是多少)澳网女单冠军奖金(澳网的奖金是多少)红星新闻202102201941012021年澳大利亚网球公开赛女单决赛今(20)晚在罗德拉沃尔球场结束,赛会3号种子日本选手大坂直美仅用时1小
奥运会冠军奖金(奥运冠军一年挣多少钱)奥运会冠军奖金(奥运冠军一年挣多少钱)原创东球弟20210524130303飞人刘翔,除了迈克尔乔丹之外,另一个能够担得起飞人名号的运动员,刘翔的出现有多惊艳呢?他打破了黑人选手对
奥运歌曲(世界杯主题曲十大歌曲)奥运歌曲(世界杯主题曲十大歌曲)每当听到这首歌OneMomentInTime的旋律响起,都会心潮澎湃,会禁不住想起生命中最不知所措的那些岁月。那时候,不知道未来会怎样,只知道必须坚