近日,一年一度的计算机视觉学术盛宴CVPR(IEEE Conference on Computer Vision and Pattern Recognition)刚刚落下帷幕在本届CVPR大会中,为了促进机器学习与计算机视觉技术在图像和视频压缩领域的发展,由Google、Apple、Netflix等公司联合举办的第五届CVPR-CLIC2022(The 5th Workshop and Challenge on Learned Image Compression)竞赛吸引了全球大量的队伍参与,其中也包括阿里巴巴、字节跳动、商汤等在业内处于领先地位的科技公司及清华、北大、中科大等顶尖高校,今天小编就来聊一聊关于计算机视觉相关竞赛?接下来我们就一起去研究一下吧!
计算机视觉相关竞赛
近日,一年一度的计算机视觉学术盛宴CVPR(IEEE Conference on Computer Vision and Pattern Recognition)刚刚落下帷幕。在本届CVPR大会中,为了促进机器学习与计算机视觉技术在图像和视频压缩领域的发展,由Google、Apple、Netflix等公司联合举办的第五届CVPR-CLIC2022(The 5th Workshop and Challenge on Learned Image Compression)竞赛吸引了全球大量的队伍参与,其中也包括阿里巴巴、字节跳动、商汤等在业内处于领先地位的科技公司及清华、北大、中科大等顶尖高校。
在历经两个多月的激烈角逐后,西安电子科技大学通信工程学院何刚老师带领团队Kingslayer(团队成员:王勇、徐莉、张文莉)和北京快手科技有限公司合作在图像质量感知赛道(Perceptual Quality Track)中获得全球第三(季军),高校排名第二的优异成绩。何刚老师是通信工程学院图像传输与处理研究所(图像所)骨干成员,图像所隶属于ISN国家重点实验室,负责人为李云松教授。
当今图像与视频成为人们获取信息的最主要方式,然而图像视频从采集、压缩、存储到传输,都可能发生失真,从而导致接收到的视觉信息丢失,因此评价图像视频的质量好坏对图像恢复、图像检索、图像质量监控系统等各个方面有着重要的作用及广泛的应用。同时,构建更加准确高效的客观质量评价模型代替较为费时费力的主观质量评价已成为研究与发展的趋势。在今年举办的CVPR-CLIC2022图像压缩竞赛中,图像质量感知赛道旨在让参赛选手设计更加准确高效的有参考质量评价模型(FR-IQA)来对压缩受损的图像进行客观质量评价。但由于图像压缩受损的多种算法未知,且大多数不同失真图与参考图十分相似导致差异化不明显,甚至包含很多人眼主观难以给出评价的失真图像。因此对搭建有参考质量评价模型提出较高的挑战难度。
针对这一具有挑战的任务,何刚老师带领团队Kingslayer设计了一个聚焦特征差异化网络的质量评价模型(Focused Feature Differentiation Network for Image Quality Assessment,FFDN),模型针对失真图与参考图相似导致差异化不明显的情况使用通道注意力聚焦失真图与参考图的差异化特征图。同时,使用多尺度特征融合,在不同感受野下进行特征融合,使聚焦后的差异化特征得到最大化利用。此外,针对单一评价指标在质量评价中存在的部分局限性,使用多评价指标融合的方式来提升评价效果。最终在比赛测试集上准确率为79.6%,获得了第三名的优异成绩,且前三名差距较小,准确率均高于79%,大幅超出第四名。在其他评价指标ELO SRCC和ELO PLCC上得分分别为0.95和0.96,均位于第三名。ELO SRCC和ELO PLCC指标用于反映模型打分与人类主观打分的相近程度,从指标结果来看,FFDN质量评价模型很大程度上接近人眼主观评价水平。(通讯员:西安电子科技大学 何刚)
,