基于注意力机制的多尺度融合航拍影像语义分割

doi:10.11996/JG.j.2095-302X.2018061069

图学学报

基于注意力机制的多尺度融合航拍影像语义分割

华北电力大学控制与计算机工程学院，河北保定 071003

出版日期:2018-12-31 发布日期:2019-02-20
基金资助:
国家自然科学基金项目(51407076)；中央高校基本科研业务费专项资金(2018MS075)

Semantic Segmentation of Multi-Scale Fusion Aerial Image Based on Attention Mechanism

School of Computer and Control Engineering, North China Electric Power University, Baoding Hebei 071003, China

Online:2018-12-31 Published:2019-02-20

摘要/Abstract

摘要： 航拍影像同一场景不同对象尺度差异较大，采用单一尺度的分割往往无法达到最佳的分类效果。为解决这一问题，提出一种基于注意力机制的多尺度融合模型。首先，利用不同采样率的扩张卷积提取航拍影像的多个尺度特征；然后，在多尺度融合阶段引入注意力机制，使模型能够自动聚焦于合适的尺度，并为所有尺度及每个位置像素分别赋予权重；最后，将加权融合后的特征图上采样到原图大小，对航拍影像的每个像素进行语义标注。实验结果表明，与传统的 FCN、DeepLab 语义分割模型及其他航拍影像分割模型相比，基于注意力机制的多尺度融合模型不仅具有更高的分割精度，而且可以通过对各尺度特征对应权重图的可视化，分析不同尺度及位置像素的重要性。

关键词: 语义分割, 多尺度融合, 注意力机制, 卷积神经网络

Abstract: In aerial images, there is significant difference between the scales of different objects in the same scene, single-scale segmentation often hardly achieves the best classification effect. In order to solve the problem, we proposes a multi-scale fusion model based on attention mechanism. Firstly, extract multi-scale features of the aerial image using dilated convolutions with different sampling rates; then utilize the attention mechanism in the multi-scale fusion stage, so that the model can automatically focus on the appropriate scale, and learn to put different weights on all scale and each pixel location; finally, the weighted sum of feature map is sampled to the original image size, and each pixel of aerial image is semantically labeled. The experiment demonstrates that compared with the traditional FCN and DeepLab method, and other aerial image segmentation model, the multi-scale fusion model based on attention mechanism not only has higher segmentation accuracy, but also can analyze the importance of different scales and pixel location by visualizing the weight map corresponding to each scale feature.

Key words: semantic segmentation, multi-scale fusion, attention mechanism, convolutional neural network

郑顾平，王敏，李刚 . 基于注意力机制的多尺度融合航拍影像语义分割[J]. 图学学报, DOI: 10.11996/JG.j.2095-302X.2018061069.

ZHENG Guping, WANG Min, LI Gang . Semantic Segmentation of Multi-Scale Fusion Aerial Image Based on Attention Mechanism[J]. Journal of Graphics, DOI: 10.11996/JG.j.2095-302X.2018061069.

[1]	张盾, 黄志开, 王欢, 吴义鹏, 王颖, 邹家豪. 基于多尺度特征实现超参进化的野生菌分类研究与应用[J]. 图学学报, 2022, 43(4): 580-589.
[2]	贺琪, 李汶龙, 宋巍, 杜艳玲, 黄冬梅, 耿立佳 . 结合残差时空注意力机制的海面温度预测算法[J]. 图学学报, 2022, 43(4): 677-684.
[3]	方洪波, 万广, 陈忠辉, 黄以卫, 张文勇, 谢本亮. 基于改进 YOLOv5s 的离线手写数学符号识别[J]. 图学学报, 2022, 43(3): 387-395.
[4]	白静, 孟庆亮, 徐昊, 范有福, 杨瞻源. ST-Rec3D：基于结构和目标感知的三维重建[J]. 图学学报, 2022, 43(3): 469-477.
[5]	李扬科, 宋全博, 周元峰. 用于手势识别的时空融合网络以及虚拟签名系统[J]. 图学学报, 2022, 43(3): 504-512.
[6]	廖志伟, 金兢, 张超凡, 杨学志. 基于分层压缩激励的 ASPP 网络单目深度估计[J]. 图学学报, 2022, 43(2): 214-222.
[7]	张明, 张芳慧, 宗佳平, 宋治, 岑翼刚, 张琳娜. 基于轻量级网络的人脸检测及嵌入式实现[J]. 图学学报, 2022, 43(2): 239-246.
[8]	苏常保, 龚世才. 基于深度学习的人物肖像全自动抠图算法[J]. 图学学报, 2022, 43(2): 247-253.
[9]	李翠云, 白静, 郑凉. 融合边缘增强注意力机制和 U-Net 网络的医学图像分割[J]. 图学学报, 2022, 43(2): 273-278.
[10]	何国忠, 梁宇. 基于卷积神经网络的 PCB 缺陷检测[J]. 图学学报, 2022, 43(1): 21-27.
[11]	史彩娟, 陈厚儒, 葛录录, 王子雯. 注意力残差多尺度特征增强的显著性实例分割[J]. 图学学报, 2021, 42(6): 883-890.
[12]	汪玉金, 谢诚, 余蓓蓓, 向鸿鑫, 柳青. 属性语义与图谱语义融合增强的零次学习图像识别[J]. 图学学报, 2021, 42(6): 899-907.
[13]	张成 , 侯宇超 , 焦宇倩 , 白艳萍 , 李建军 . 基于三通道分离特征融合与支持向量机的混凝土图像分类研究[J]. 图学学报, 2021, 42(6): 917-923.
[14]	马欢, 冀晶晶, 刘佳豪, 刘雨婷. 面向机器人自主分割的肉品识别分类系统实现[J]. 图学学报, 2021, 42(6): 924-930.
[15]	封筠 , 赵颖 , 毕健康 , 赖柏江 , 胡晶晶 . 多级卷积神经网络的沥青路面裂缝图像层次化筛选[J]. 图学学报, 2021, 42(5): 719-728.

基于注意力机制的多尺度融合航拍影像语义分割

Semantic Segmentation of Multi-Scale Fusion Aerial Image Based on Attention Mechanism

PDF (PC)

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价