「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

1,486 0

2017 年，国务院发布《新一代

人工智能

发展

规划

》，描绘了中国

人工智能

未来发展的宏伟蓝图，确立了「三步走」目标：到 2020 年

人工智能

总体技术和应用与世界先进水平同步；到 2025 年

人工智能

基础理论实现重大突破、技术与应用部分达到世界领先水平；到 2030 年

人工智能

理论、技术与应用总体达到世界领先水平，成为世界主要

人工智能

创新中心。

在「三步走」目标的指导下，中国在全球

人工智能

领域取得的成就有目共睹。无论是在论文、学者还是专利数量等维度上，中国

人工智能

发展水平均已跻身世界第一梯队。但下一步，在向着「世界领先水平」目标前进的过程中，我们仍然面临着若干关键挑战，其中就包括前沿技术的创新能力和领军人才的培养问题。

在这样的背景下，

由

清华大学

、中国

人工智能

学会联合举办的 2022 GigaVision 挑战赛

受到了广泛关注。GigaVision 挑战赛聚焦十亿像素级视觉智能研究，旨在牵引新一代

人工智能

技术发展的若干关键问题，促进更准确、更高效、更鲁棒的新理论与新技术的发展，引领

人工智能

、视觉智能领域的变革。

大赛已于近日正式落下帷幕，在精彩纷呈的比赛过程中，我们也见证了一系列前沿技术成果的诞生。

上千支队伍参赛，聚焦十亿像素级挑战

大赛基于GigaVision数据平台开源的两个十亿像素图像视频数据平台「PANDA」和「GigaMVS」，开展了

GigaDetection、GigaMOT、GigaTrajectory、GigaReconstruction、GigaRendering、GigaCrowd六大赛道

，旨在推动视觉智能原创算法创新。

自开幕以来，大赛共吸引了全球超过 1000 支队伍参加。这些队伍分别来自牛津大学、慕尼黑工大、香

港科大

、

清华大学

、中国科学院大学、

复旦大学

、

北京大学

等海内外顶级高校，以及

字节跳动

、

华为

技术有限公司、阿里、百度、浪潮集团有限公司、TPlink、三星美国研究院、新加坡科技研究局等国际一流

人工智能

企业。

本次大赛分享交流活动中，多个 TOP 团队的作品让组委会技术专家留下了深刻印象：

例如，

目标检测

赛道提供了十亿像素图像的行人数据集，核心任务是评估模型在十亿像素图像中多

目标检测

任务的准确性。参赛团队全面分析了宽视场、高分辨视觉数据中大场景、多对象、复杂关系等新特点所带来的新问题，围绕着场景全局稀疏、局部稠密，对象尺度多变、姿态复杂，数据通量大等挑战，提出了一系列

目标检测

新算法与新模型，相较现有前沿算法，实现了精度与效率的显著提升。

而 3D 赛道的参赛作品融合了基于

人工智能

的神经辐射场表征、可微渲染优化方法和基于多视图几何的立体匹配等经典方法，在算法设计和工程化实现上都颇具亮点，对大场景高精度

三维重建

与渲染任务具有较大的启发性，展示出了巨大的落地应用潜力。

历经五个月的激烈角逐，最终，来自

北京大学

、上海交通大学、

东南大学

、南方医科大学、

华为

等高校和单位的参赛队伍获得了大赛各赛道的冠军，收获了丰厚的奖励。

视觉智能，还能这样「卷」？

决定一场赛事高度的关键因素，在于赛题任务和赛题数据。而这场挑战赛背后的 GigaVision 数据平台，正是一系列视觉智能前沿问题的「发源地」。

GigaVision 数据平台目前包括 PANDA 和 GigaMVS 两个子项目，其中 PANDA 是世界上首个十亿像素级、以人类为中心的视频数据集，GigaMVS 是世界上首个十亿像素级超大规模场景

三维重建

基准

。

相比于当前各种百万像素级的视觉任务，GigaVision 挑战赛填补了十亿像素图像 / 视频层面的空白，为视觉智能领域内的研究者和从业者带来了新鲜感十足的挑战。

在 GigaVision 挑战赛中，每一张图片、视频的每一帧都是十亿像素级别

。比如 GigaMOT 赛道，参赛者需要评估 MOT 模型在十亿像素视频中对多个目标跟踪任务的准确性，既要解决单目标跟踪任务的互相遮挡、运动模糊、拥挤场景、尺度变化等难点，又要处理目标轨迹的起始与终止、相似目标间的相互干扰等问题。特别是该赛道所使用的 PANDA-Video 大场景数据集，其可视范围大、拥挤行人的复杂场景等特点也为传统数据集上的 MOT 算法带来了新的挑战。

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

基于十亿像素视频的

多目标跟踪

示例。

又比如在 GigaRendering 赛道中，参赛者需要在给定的不同场景经过校准的十亿像素图像中，面对稀疏视角下的高分辨率、宽视场、细节丰富的难点，渲染生成新的 RGB 视图并尽可能提升其准确性。十亿像素级别的图像渲染任务，对神经辐射场的表达、规模和效率提出了更高的挑战。

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

十亿像素图像渲染新视图示例。

此外，偏好原始创新的测评方式亦是 GigaVision 挑战赛的一大亮点

。传统的

人工智能

挑战赛任务普适性强、办赛周期短，大部分参赛队伍倾向利用成熟的理论框架和工程套路，实现系统集成和

参数

调优，反复刷榜。完全以分数导向的测评方式，阻碍了技术的原始创新。相比之下，GigaVision 挑战赛形成了固定的举办周期，注重前沿性、原创性，更能鼓励参赛队伍进行原始创新。

可以看到，

GigaVision 挑战赛

看似仍在比拼视觉智能领域的几大经典研究问题，但面向「十亿像素」级图像视频数据，赛题的前沿性、挑战性、创新性和开拓性大幅提升，与经典问题截然不同。以往将整个图像或视频放进网络中直接处理的传统方法不再奏效，仅仅使用单个模型或几个模型也很难完成这种级别的任务。因此，参赛团队会更加专注于「卷」模型架构的设计，致力于探索模型能力的上限，开展更多理论层面的创新尝试。

经过多轮比拼、线上评测、结果复现和视频答辩，本届大赛获得了多

目标检测

、

多目标跟踪

、多目标

轨迹预测

、3D 重建、3D 渲染、密集人群

三维重建

等方面的多个创新性解决方案，这些作品均具有很高的准确性和领先性，为十亿像素

计算机视觉

的发展带来了启发。

几年来，GigaVision 数据平台以赛为媒，已经与 CVPR、ICCV、ECCV、ACM MM 等国际顶会联合举办了多届 Workshops 和 Challenges。系列赛事的举办水平不断提升，参赛规模不断增长，关注度和影响力越来越高。

对于 GigaVision 数据平台来说，这一系列赛事构建了前沿开放的学术交流社区，面向国内乃至全球发现和储备了一批优秀的视觉智能算法研究人才，并从中挖掘出了极具价值的科研合作切入点。

对于视觉智能领域和整个社会来说，其更重要的价值在于「以赛引才、以赛育人」，不仅能够促进我国智能成像技术和

人工智能

产业的快速发展，同时将推动

人工智能

在科研领域解决真实世界问题等方面提供基础性支撑。

以「十亿像素」数据集为支撑，GigaVision 挑战赛或将开启视觉智能领域的下一次重大突破。

立足「原创」，追求极限

在十亿像素级别的视觉智能前沿探索中，GigaVision 无疑提供了一个很好的平台载体。

当然，技术高峰的攀登是没有止境的。GigaVision 挑战赛主办方将不忘初心，瞄准科技前言、面向产业需求，前瞻性布局设置更多高水准、高价值的赛题，持续提升十亿像素级数据平台的数据规模和场景维度，为视觉智能领域科研人员提供一个全新的学习、展示、交流和竞技平台，助力视觉智能前沿科技发展和产业变革。

2023年新赛季活动即将拉开序幕，其中部分赛道与第三届国际

人工智能

会议（CICAI 2023）联合举办，以丰厚奖金征集创新算法方案，欢迎访问官网查看最新信息。挑战升级、奖励升级，欢迎各位 AI 科技爱好者关注大赛官网参与挑战！

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

GigaVison官网

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

CICAI官网

访问 https://cicai.caai.cn/

同时，为了促进相关领域科研和学术交流，PANDA 和 GigaMVS 数据集持续开放，欢迎 CV 爱好者通过下方链接下载数据。

「十亿像素」引领视觉智能技术变革，2022 GigaVision挑战赛圆满落幕

数据集下载