當前位置:首頁 > 新聞中心 > 科研動態

科研動態

图像與視頻分析组获得2019 VideoNet視頻内容识别挑战赛冠军

  • 发表日期:2019-09-05 【 【打印】【關閉】
  •   2019828日,华阳彩票圖像與視頻分析團隊在中國多媒體大會(ChinaMM)的VideoNet視頻内容识别挑战赛中获得冠军。获奖团队Zhu隊由朱貴波副研究員和王金橋研究員帶隊,成員來自中科院华阳彩票、北京工業大學和CEIECZhu隊同時受邀在中國多媒體大會ChinaMM2019的專題論壇上做特邀報告。 

      近年来,随着深度学习技术的发展,涌现出大量针对物体、场景、人脸、动作等维度的识别技术,在各自的目标维度上取得了明显的进步。但是目前各視頻识别算法基本都是针对单一维度来设计的,无法利用各维度之间存在的丰富的语义关联建立模型,提高识别准确度。当前也缺乏一个包含多维度标注的大规模視頻数据集来为多维度視頻识别算法研究提供训练测试数据支持。 

      VideoNet視頻内容识别挑战赛」包含行为事件识别、物体检测、开集场景识别三个子任务,比赛最终成绩由三个子任务共同加权获得。Zhu队在視頻事件识别子任务上,采用了基于时序偏移模块的卷积神经网络架构,针对視頻数据量大、視頻长度长短不一(1s-1个半小时)、样本标签分布不均匀等问题,采用包括自适应关键帧提取、时空长时池化、知识迁移、多损失函数联合优化等策略来学习鲁棒視頻特征表达并进行多尺度推断,实现更好的事件分类。在物体检测识别子任务上,采用了基于耦合深度神经网络的目标检测框架,针对目标尺度变化大、形状变化不规则、小目标等关键问题,采用了包括可形变卷积、层级精细定位、数据增强、多尺度训练和测试、多维度贝叶斯概率关系图推断等优化策略实现更精准的物体定位。在开集场景分类子任务上,采用基于耦合注意机制和残差连接的卷积神经网络架构,针对未知类所导致的验证集和测试集准确率相差巨大这一核心问题,探索視頻、场景、物体之间存在的内在关联,基于視頻关键帧构建场景识别类外类作为背景样本对网络模型参数进行学习优化,在推断过程中采用多尺度测试、多维度贝叶斯概率图推断等策略提升预测精度。在时间和设备有限的情况下,最终综合结果相比于第二名高了1.3個百分點。 

      據悉,本次「VideoNet視頻内容识别挑战赛」是由复旦大学、计算机学会CCF ChinaMM和極鏈科技聯合主辦,參賽隊伍超過360支,其中不乏來自中科院、北京大學、中國科學技術大學等頂尖高校以及來自阿裏巴巴、華爲、騰訊、京東、大華等衆多知名企業隊伍。亞軍和季軍分別由北京大學團隊和阿裏巴巴團隊獲得。