张永军老师团队在CVPR2023国际会议上发表科研论文,在全球最权威的Middlebury Evaluation排名第一
发布时间: 2023-07-11 | 查看数:2665
近日,张永军老师团队在IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2023 (计算机学会推荐CCF A 类、人工智能领域国际顶级会议)上发表题为“High-frequency Stereo Matching Network”的研究论文。这是贵州大学首次以第一单位在CVPR上发表论文,第一作者为我院2020级研究生赵浩良同学,通讯作者为张永军老师,合作单位有北大深圳研究生院等。该文在 CVPR 2023中获得554的评审高分并被选为 Highlight(亮点论文,入选率为2.5%)
CVPR是全球人工智能和计算机视觉领域顶级国际会议,有着计算机视觉领域“奥斯卡”的美誉。在谷歌学术Google Scholar指标2021年和2022年列出的全球最有影响力的科学期刊/会议中,CVPR均位列第四,仅次于《自然》《新英格兰医学杂志》《科学》。
据了解,双目视觉立体匹配算法是智能机器人、自动驾驶、无人机导航、以及智慧机器人导航等产业AI应用的关键算法,对于计算机视觉领域和三维立体感知等AI技术,具有十分重要的意义。本文根据长距离的像素依赖性与高频信息特征设计了一个基于解耦LSTM和归一化细化的双目立体匹配算法,简称DLNR。DLNR在全球双目视觉算法最权威、最专业的Middlebury Evaluatio排行榜上,从2022年11月至今一直排名第一,平均错误率比次好的算法(EAI-Stereo)提升了13.04%。
在双目立体匹配领域,RAFT-Stereo和CREStereo等迭代方法已经取得了显著进展。然而,这些方法在迭代过程中都会丢失大量的高频信息如纹理、颜色变化、边缘等,这会产生相对模糊和缺乏细节的视差图。该论文提出了解耦LSTM模块来缓解数据耦合的问题,并在迭代过程中尽可能保留特征图中的高频率信息,消融实验证明采用这种方法很大程度上缓解了数据耦合导致高频率信息丢失的问题。为了进一步捕捉高频细节,该论文提出了一个归一化细化模块,将视差归一化为视差占图像宽度的比例,这解决了跨域情况下的模块失效的问题。此外,对算法进行上述改进后,多年来没有改变的类ResNet的特征提取器成为了瓶颈。为此,该论文提出了一种多尺度和多阶段的特征提取器,它引入了通道式自注意力机制,大大解决了这一瓶颈问题。
DLNR网络结构图
算法实时排名如下图所示(截止2023年7月7日)
论文链接:
一审:唐玮欣
二审:何 飞
三审:龙慧云