新闻 | 开云足球俱乐部大模型研究协同创新中心 - 开云足球俱乐部 https://cs.nju.edu.cn/lm/post/ 新闻 Hugo Blox Builder (https://hugoblox.com)zhSat, 11 Oct 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/media/icon_hu_6873430e16214d30.png 新闻 https://cs.nju.edu.cn/lm/post/ NeurIPS 2025录用论文简介 https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/ Sat, 11 Oct 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/ <p>NeurIPS,全称Annual Conference on Neural Information Processing Systems,是机器学习领域的顶级会议,与ICML、ICLR并称为机器学习领域难度最大、水平最高、影响力最强的会议!NeurIPS是CCF 推荐A类会议、Core Conference Ranking推荐A类会议,H5 index高达278!NeurIPS是由连接学派神经网络的学者于1987年在加拿大创办,后来随着影响力逐步扩大,论文的主题主要以机器学习,人工智能和统计学为主。</p> <p>开云足球俱乐部计算机学院大模型中心有9篇论文被NeurIPS 2025录用</p> <hr> <h3 id="01">01</h3> <p><strong>题目</strong>: <a href="https://arxiv.org/pdf/2505.15424" target="_blank">Gated Integration of Low-Rank Adaptation for Continual Learning of Large Language Models</a></p> <p><strong>作者</strong>: Yan-Shuo Liang(梁宴硕),Jia-Rui Chen(陈嘉瑞),Wu-Jun Li(李武军)</p> <p><strong>单位</strong>: 开云足球俱乐部</p> <p><strong>摘要</strong>:</p> <p>得益于大规模预训练所获得的丰富知识以及后续的精调策略,现有的大语言模型(LLMs)已经在广泛的任务上展现出卓越的性能。然而,当大语言模型按顺序学习多个下游任务时,往往会遗忘已学知识,导致旧任务性能显著下降,这一现象被称为灾难性遗忘。灾难性遗忘阻碍了大语言模型持续积累新知识,因此,设计能克服灾难性遗忘的持续学习方法至关重要。另一方面,低秩适应(LoRA)作为参数高效精调中最具代表性的方法之一,在大语言模型的持续学习中受到了广泛关注。 LoRA 通过将预训练权重重新参数化为低秩形式,仅需更新少量参数即可完成任务适配,相比全量参数更新,LoRA大幅提升了精调效率。然而,现有的基于LoRA的持续学习方法仍存在不足。它们通常在学习新任务时扩展新的LoRA分支并冻结旧分支,从而避免直接修改旧参数带来的遗忘。在推理过程中,这些方法通常采用简单加法来整合新旧分支。这种方式强制新旧分支在旧任务上贡献相等,反而可能导致新分支对旧任务产生较大干扰,加剧遗忘并降低整体性能。为此,本文提出了一种新的大语言模型持续学习方法GainLoRA(gated integration of low-rank adaptation)。GainLoRA 在每个新任务上扩展新的LoRA分支,并通过引入门控模块动态整合新旧分支。通过对新的门控模块施加初始化约束和更新约束,GainLoRA 显著降低了新LoRA分支对旧任务的干扰,有效缓解遗忘并提升大语言模型在持续学习中的整体性能。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图1" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper1_hu_900138511c778587.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper1_hu_9bdee66c1a32537.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper1_hu_966cfcefda83c4a0.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper1_hu_900138511c778587.jpg" width="760" height="215" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图1 </p> <hr> <h3 id="02">02</h3> <p><strong>题目</strong>: StreamForest: Efficient Online Video Understanding with Persistent Event Memory</p> <p><strong>作者</strong>: Xiangyu Zeng (曾祥宇), Kefan Qiu (裘克凡), Qingyu Zhang (张庆宇), Xinhao Li (李新浩), Jing Wang (王婧), Jiaxin Li (李嘉辛), Ziang Yan (晏子昂), Kun Tian (田鲲), Meng Tian (田猛), Xinhai Zhao (赵鑫海), Yi Wang (王毅), Limin Wang (王利民)</p> <p><strong>单位</strong>: 开云足球俱乐部,上海人工智能实验室,浙江大学,华为诺亚实验室,Yinwang智能科技</p> <p><strong>摘要</strong>:</p> <p>多模态大型语言模型近年来在视频理解领域取得了显著进展。然而,由于历史视觉特征的存储限制和实时时空推理能力的不足,它们在实时流媒体场景中的有效性仍然有限。为了应对这些挑战,我们提出了 StreamForest,这是一种专为流媒体视频理解而设计的全新架构。StreamForest 的核心是持久事件记忆森林 (Persistent Event Memory Forest),这是一种记忆机制,可以自适应地将视频帧组织成多个事件级树状结构。该过程由基于时间距离、内容相似性和合并频率的惩罚函数引导,能够在有限的计算资源下实现高效的长期记忆保留。为了增强实时感知,我们引入了细粒度时空窗口 (Fine-grained Spatiotemporal Window),它可以捕捉详细的短期视觉线索,从而改善当前场景的感知。此外,我们还提出了 OnlineIT,这是一个专为流媒体视频任务定制的指令调优数据集。OnlineIT 显著提升了 MLLM 在实时感知和未来预测方面的性能。为了评估其在实际应用中的泛化能力,我们引入了 ODV-Bench,这是一个专注于自动驾驶场景中实时流视频理解的全新基准测试。实验结果表明,StreamForest 达到了最佳性能,在 StreamingBench 上的准确率达到 77.3%,在 OVBench 上的准确率达到 60.5%,在 OVO-Bench 上的准确率达到 55.6%。尤其值得一提的是,即使在极端的视觉token压缩(限制为 1024 个token)下,该模型在八个基准测试中仍保持了 96.8% 的平均准确率(相对于默认8k设置)。 这些结果强调了 StreamForest 在流视频理解方面的稳健性、效率和通用性。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图2" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper2_hu_c0e89ab8aeb1c95b.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper2_hu_e59c708dfc7055d6.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper2_hu_5cd37fb594001b42.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper2_hu_c0e89ab8aeb1c95b.jpg" width="760" height="238" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图2 </p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图3" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper3_hu_3198090095582911.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper3_hu_232670da05d46e19.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper3_hu_97aa7f1389c33db1.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper3_hu_3198090095582911.jpg" width="760" height="322" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图3 </p> <hr> <h3 id="03">03</h3> <p><strong>题目</strong>: LongVPO: From Anchored Cues to Self-Reasoning for Long-Form Video Preference Optimization</p> <p><strong>作者</strong>: Zhenpeng Huang, Jiaqi Li, Zihan Jia, Xinhao Li, Desen Meng, Lingxue Song, Xi Chen, Liang Li, Limin Wang</p> <p><strong>单位</strong>: 开云足球俱乐部,中国移动研究院</p> <p><strong>摘要</strong>:</p> <p>当前视觉语言模型(VLMs)在长视频理解中表现受限:一方面依赖昂贵且稀缺的长视频标注,另一方面短上下文模型在扩展到长序列时容易忽视中间内容,并在长短任务间产生性能失衡。为此,我们提出 LongVPO —— 一种无需长视频标注的两阶段直接偏好优化框架。LongVPO 首先利用&quot;锚定线索&quot;从短视频片段中自动合成偏好数据,再在真实长视频上通过&quot;自我推理&quot;实现跨片段对齐,从而习得复杂的长程推理能力。仅依赖 16K 合成数据,LongVPO 即在 LVBench、LongVideoBench、MLVU、VideoMME 等基准上取得了优越的性能,并保持了对短视频任务的强大表现,为实现高效、可扩展的长视频理解提供了新范式。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图4" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper4_hu_17f385abb0b3ffff.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper4_hu_f0626d540aeef0e4.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper4_hu_4ccef06f47458e71.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper4_hu_17f385abb0b3ffff.jpg" width="760" height="613" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图4 </p> <hr> <h3 id="04">04</h3> <p><strong>题目</strong>: Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models</p> <p><strong>作者</strong>: Guo Chen, Zhiqi Li, Shihao Wang, Jindong Jiang, Yicheng Liu, Lidong Lu, De-An Huang, Wonmin Byeon, Matthieu Le, Tuomas Rintamaki, Tyler Poon, Max Ehrlich, Tong Lu, Limin Wang, Bryan Catanzaro, Jan Kautz, Andrew Tao, Zhiding Yu, Guilin Liu</p> <p><strong>单位</strong>: 开云足球俱乐部,NVIDIA,香港理工大学,Rutgers University</p> <p><strong>摘要</strong>:</p> <p>Eagle 2.5 是一系列为长上下文多模态理解设计的前沿视觉-语言模型(VLM)。现有 VLM 多集中于短上下文任务,对长视频理解和高分辨率图像处理支持不足。Eagle 2.5 提出了一套通用训练框架,核心包含两项关键技术:Automatic Degradation Sampling (ADS) 和 Image Area Preservation (IAP),分别用于动态分配视觉与文本输入预算和在切分时尽量保持图像完整性。此外,作者引入了 渐进式混合后训练策略,逐步扩展上下文长度,提升模型处理多样输入的稳定性。为支持训练,他们构建了新的 Eagle-Video-110K 数据集,提供故事级和片段级的双层标注,增强长视频理解能力。实验表明,Eagle 2.5 在多个长视频和图像理解基准上取得显著提升。例如,8B 参数规模的 Eagle 2.5 在 Video-MME 上以 512 帧输入达到 72.4%,性能接近 GPT-4o、Qwen2.5-VL-72B 等更大规模模型。模型在高分辨率图像理解任务中同样表现优异。综上,Eagle 2.5 通过创新的采样策略、渐进训练方法和大规模多层次数据集,实现了高效且强大的长上下文多模态理解能力,为未来高性能 VLM 的发展提供了有力方向。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图5" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper5_hu_83b2ccb30ba5476a.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper5_hu_fed6b282eb04dbef.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper5_hu_6389b93d49961a5c.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper5_hu_83b2ccb30ba5476a.jpg" width="665" height="492" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图5 </p> <hr> <h3 id="05">05</h3> <p><strong>题目</strong>: VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception</p> <p><strong>作者</strong>: 晏子昂,李新浩,何逸楠,岳政融,曾祥宇,王亚立,乔宇,王利民,王毅</p> <p><strong>单位</strong>: 浙江大学,上海人工智能实验室,开云足球俱乐部,中国科学院深圳先进技术研究院</p> <p><strong>摘要</strong>:</p> <p>在多模态大语言模型中注入推理能力,是实现类人级感知与理解的关键。现有方法多依赖大语言模型的推理能力来分析已解析的视觉信息,却常受限于静态感知阶段。 本文提出&quot;视觉测试时缩放&quot;(Visual Test-Time Scaling),通过在推理过程中进行迭代感知来增强 多模态大语言模型的推理能力,通过在更新的文本预测的引导下,逐步细化对高置信度时空区域的关注,从而模仿人类的分层注意力机制。训练过程当中以强化学习配合时空监督信号,端到端优化推理路径。这些设计允许多模态大语言模型通过增加其感知计算能力来提升其性能。大量实验验证了多次感知方法在各种任务和基准测试中的有效性和泛化能力。我们新推出的 Videochat-R1.5 模型在涵盖视频对话、视频推理和时空感知的 15 多个基准测试中取得了显著的改进,与 Qwen2.5VL-3B 和 -7B 等稳健基线相比,平均提高了 5% 以上。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图6" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper6_hu_61c1219b22d57ac.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper6_hu_89ca2205e711afdf.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper6_hu_22b7da8cdb804e65.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper6_hu_61c1219b22d57ac.jpg" width="760" height="421" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图6 </p> <hr> <h3 id="06">06</h3> <p><strong>题目</strong>: MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation</p> <p><strong>作者</strong>: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang</p> <p><strong>单位</strong>: 开云足球俱乐部</p> <p><strong>摘要</strong>:</p> <p>得益于扩散模型的发展,图像到视频生成技术已取得长足进步。然而,生成运动逼真的视频依然是一项艰巨的挑战。该挑战的核心在于精确建模运动的复杂性,这需要捕捉物理规律、物体交互和特定领域的运动模式,而这些先验知识难以在多样的场景间有效泛化。为此,我们提出了MotionRAG,一种检索增强生成框架。 该框架通过上下文感知运动自适应(Context-Aware Motion Adaptation, CAMA)机制,从相关参考视频中提取并迁移运动先验,以提升生成视频的运动真实感。其核心技术创新在于:(1) 检索式运动表征提取:它利用视频编码器与重采样器从检索到的参考视频中提取语义级运动特征;(2) 基于&quot;上下文学习&quot;的运动自适应方法:通过因果Transformer架构从检索到的多个参考视频中高效学习并将运动模式迁移至目标场景;(3) 注意力运动注入适配器:将运动特征注入预训练的视频扩散模型,从而在增强运动真实性。大量实验证明,我们的方法在多个场景和各类基座模型上均取得了显著提升,且在推理阶段仅引入了可忽略不计的计算开销。此外,其模块化的设计支持对新领域的零样本泛化——仅需更新检索数据库,无需重新训练任何模型组件。本研究通过实现运动先验的高效检索与迁移,增强了视频生成系统的核心能力,为合成具有逼真动态效果的视频提供了新的范式。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图7" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper7_hu_4a364ebe2e54e02f.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper7_hu_9f204335c7c4c910.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper7_hu_ded8ead9486f0b5.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper7_hu_4a364ebe2e54e02f.jpg" width="760" height="250" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图7 </p> <hr> <h3 id="07">07</h3> <p><strong>题目</strong>: Loquetier: A Virtualized Multi-LoRA Framework for Unified LLM Fine-tuning and Serving</p> <p><strong>作者</strong>: Yuchen Zhang(张宇晨), Hanyue Du(杜瀚跃), Chun Cao(曹春), Jingwei Xu(徐经纬)</p> <p><strong>单位</strong>: 开云足球俱乐部</p> <p><strong>摘要</strong>:</p> <p>低秩适应(LoRA)已成为一种为大语言模型(LLMs)适配至下游任务而被广泛采用的参数高效微调(PEFT)技术。尽管此前的诸多研究探索了统一大语言模型训练与服务的策略,但针对基于LoRA的模型的统一微调与推理方面的领域仍然有待探索。本文提出了Loquetier——一个虚拟化的多LoRA框架,可在单一运行时环境中无缝集成LoRA微调与推理服务。Loquetier主要包含两个部分:(1) 虚拟化模块,用于隔离基于PEFT的模型修改,并支持在共享的单个基础模型上部署多种适配器;(2) 一个优化后的、带有融合了前向传播中微调与推理路径的内核设计的计算流,实现了高效批次处理并最小化内核调用开销。在三类任务场景的广泛实验中,Loquetier在性能与灵活性方面均显著超越现有基线:在仅推理任务中吞吐量达顶尖协同服务系统的3.0倍,在统一微调与推理任务中实现比PEFT高46.4倍的服务水平目标达成率。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图8" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper8_hu_e635fbc5a4f82fdb.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper8_hu_58857d8840a945d7.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper8_hu_adbe11bc41341741.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper8_hu_e635fbc5a4f82fdb.jpg" width="760" height="703" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图8 </p> <hr> <h3 id="08">08</h3> <p><strong>题目</strong>: 3D Interaction Geometric Pre-training for Molecular Relational Learning</p> <p><strong>作者</strong>: Namkyeong Lee, Yunhak Oh,Heewoong Noh,Gyoung S. Na,Minkai Xu,Hanchen Wang,Tianfan Fu,Chanyoung Park</p> <p><strong>单位</strong>: KAIST,KRICT,Stanford University,Genentech,开云足球俱乐部</p> <p><strong>摘要</strong>:</p> <p>在药物发现与材料科学中,准确预测分子间相互作用至关重要。然而,现有分子关系学习方法大多局限于使用分子的二维拓扑结构,而忽略了决定相互作用本质的三维空间几何信息,这主要是因为获取精确的三维相互作用构象成本极其高昂。为了突破这一瓶颈,本文提出了3DMRL,一个创新的三维几何预训练框架。该框架的核心在于,它不再依赖昂贵的计算来获取真实交互构象,而是通过构建一个&quot;虚拟交互环境&quot;来模拟分子在三维空间中的接触方式,即通过随机采样与平移旋转,将多个小分子布置在一个大分子周围。在此基础上,我们设计了双重预训练任务,引导二维模型学习此虚拟环境中的三维几何信息:其一是通过对比学习,让模型理解相互作用的全局几何结构;其二是通过一个等变网络,让模型预测分子间精细的局部相对几何关系,从而捕捉原子级别的相互作用细节。大量实验表明,3DMRL能显著提升多种主流模型在分子相互作用预测与药物-药物相互作用预测等任务上的性能,在40个任务中最高实现了24.93%的性能提升,并在分布外场景下展现出卓越的泛化能力。这项工作首次为分子关系学习领域系统性地引入了三维几何预训练,为开发更精准、更通用的AI辅助科学发现工具奠定了坚实基础。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图9" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper9_hu_83ecfc2b4544dc66.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper9_hu_36930691ca15c2c8.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper9_hu_f9bd9b27e73fdd4e.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper9_hu_83ecfc2b4544dc66.jpg" width="760" height="386" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图9 </p> <hr> <h3 id="09">09</h3> <p><strong>题目</strong>: EgoExoBench: A Benchmark for First- and Third-person View Video Understanding in MLLMs</p> <p><strong>作者</strong>: Yuping He, Yifei Huang, Guo Chen, Baoqi Pei, Jilan Xu, Tong Lu, Jiangmiao Pang</p> <p><strong>单位</strong>: 开云足球俱乐部,上海人工智能实验室,东京大学,浙江大学,复旦大学</p> <p><strong>摘要</strong>:</p> <p>人类智能能够在第一人称(egocentric)与第三人称(exocentric)视角之间自然地转移与整合知识,这对学习与交流至关重要。然而,当前多模态大语言模型(MLLMs)虽然在单一视角的视频理解上取得了显著进展,但尚缺乏在跨视角推理上的系统性评估。为此,本文提出了 EgoExoBench ——首个用于评估 MLLMs 在第一人称与第三人称视频理解和推理能力的基准。</p> <p>EgoExoBench 基于公开数据集构建,包含 7300+ 多选题(MCQ),覆盖 11 个子任务,分为三大挑战:语义对齐(semantic alignment)、视角转换(viewpoint association)、时间推理(temporal reasoning)。任务设计涵盖从任务、动作、物体到人物层面的匹配,以及跨视角的空间对应和事件顺序推理。</p> <p>研究团队对 13 个主流开源与闭源 MLLMs(如 GPT-4o、Claude 3.7 Sonnet、Qwen2.5-VL、InternVL3 等)进行了系统评估。结果显示,这些模型在单视角任务中表现良好,但在跨视角任务上表现显著下降。例如,最优的开源模型 Qwen2.5-VL-72B 在整体准确率上仅达到 47%,而人类在同样任务中的准确率超过 90%。进一步实验表明,链式思维(CoT)提示并未提升性能,甚至在部分任务上降低了准确率,显示出跨视角推理对现有模型仍是重大挑战。</p> <p>综上,EgoExoBench 提供了一个系统性、可扩展的评测框架,有助于推动具备类人跨视角智能的具身智能体与人机协作系统的发展。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="图10" srcset=" /lm/post/2025-10-11-neurips-2025-accepted-papers/paper10_hu_6c9d652f47e56173.jpg 400w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper10_hu_700d27bcd973b183.jpg 760w, /lm/post/2025-10-11-neurips-2025-accepted-papers/paper10_hu_130e4e1931c99ce7.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-10-11-neurips-2025-accepted-papers/paper10_hu_6c9d652f47e56173.jpg" width="486" height="760" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图10 </p> 大模型中心王利民教授获2025蚂蚁Intech科技奖 https://cs.nju.edu.cn/lm/post/2025-09-19-wanglimin-ant-intech-award/ Fri, 19 Sep 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-09-19-wanglimin-ant-intech-award/ <p>近日,在2025 Inclusion外滩大会上,&ldquo;2025蚂蚁Intech奖&quot;正式揭晓。10位青年科学家获&quot;蚂蚁Intech科技奖&rdquo;。同时,10位来自全球顶尖学府的中国籍在读博士生获&quot;蚂蚁Intech奖学金&quot;。其中,我中心王利民教授获得了2025蚂蚁Intech科技奖。</p> <p>2025蚂蚁Intech奖是由蚂蚁科技集团股份有限公司设立的奖项,面向计算机科学领域的优秀青年学者与在读博士生提供公益性科研资金支持,设立&quot;蚂蚁Intech科技奖&quot;和&quot;蚂蚁Intech奖学金&quot;两大核心奖项。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="2025蚂蚁Intech科技奖颁奖" srcset=" /lm/post/2025-09-19-wanglimin-ant-intech-award/award_ceremony_hu_eb6fe368fc88b0e4.jpg 400w, /lm/post/2025-09-19-wanglimin-ant-intech-award/award_ceremony_hu_71d40b414ff63c00.jpg 760w, /lm/post/2025-09-19-wanglimin-ant-intech-award/award_ceremony_hu_3c0a880a5b52ec84.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-wanglimin-ant-intech-award/award_ceremony_hu_eb6fe368fc88b0e4.jpg" width="760" height="507" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图:2025蚂蚁Intech科技奖颁奖 </p> <p>中国工程院院士、浙江大学教授陈纯,美国国家工程院外籍院士张宏江,中国工程院院士、清华大学教授郑纬民等学界权威亲临颁奖。美国科学院、工程院、艺术与科学院三院院士Michael I.Jordan,图灵奖获得者、美国国家工程院院士、美国田纳西大学电气工程和计算机科学系教授Jack Dongarra通过视频寄语青年学者:&ldquo;科研之路未必平坦,但你们今日探索的问题将定义未来技术与机遇。请大胆求真,你们的研究终将影响世界。&rdquo;</p> <p>据了解,本届获奖者在通用人工智能(AGI)、具身智能、数字医学、数据安全等前沿方向展现出卓越创新能力,成果被业界广泛采用。王利民教授因在通用人工智能方面的重要贡献而获奖,获奖理由:开发了首个领先通用视频理解大模型InternVideo(下载量超500万),并提出了&quot;渐进式训练&quot;方法,让AI像人类分层理解动态世界,赋能自动驾驶等场景。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="王利民教授参加圆桌论坛" srcset=" /lm/post/2025-09-19-wanglimin-ant-intech-award/forum_discussion_hu_8316d3b949f34aea.jpg 400w, /lm/post/2025-09-19-wanglimin-ant-intech-award/forum_discussion_hu_45013ee217b17f01.jpg 760w, /lm/post/2025-09-19-wanglimin-ant-intech-award/forum_discussion_hu_5c32ee2693b06f1b.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-wanglimin-ant-intech-award/forum_discussion_hu_8316d3b949f34aea.jpg" width="760" height="507" loading="lazy" data-zoomable /></div> </div></figure> </p> <p style="text-align: center; font-size: 0.9em; color: #666; margin-top: 5px;"> 图:王利民教授参加2025蚂蚁Intech科技奖颁奖典礼圆桌论坛 </p> ICCV 2025 录用论文简介 https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/ Tue, 12 Aug 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/ <blockquote> <p>ICCV(International Conference on Computer Vision)是计算机视觉领域最具影响力的国际顶级学术会议之一,由IEEE计算机学会主办,每两年举办一次,与CVPR、ECCV并称三大视觉会议。会议涵盖图像处理、目标检测、三维重建、视频理解、视觉与语言等前沿研究方向,是全球科研人员展示最新成果、交流思想的重要平台。ICCV的论文录用标准极高,代表了计算机视觉领域的最新技术趋势与研究热点。</p> <p>开云足球俱乐部计算机学院大模型中心有7篇论文被ICCV 2025录用。</p></blockquote> <h1 id="01">01</h1> <p><strong>题目:</strong> MobileViCLIP: An Efficient Video-Text Model for Mobile Devices</p> <p><strong>作者:</strong> Min Yang, Zihan Jia, Zhilin Dai, Sheng Guo, Limin Wang</p> <p><strong>单位:</strong> 开云足球俱乐部,蚂蚁集团</p> <p><strong>论文简介:</strong></p> <p>尽管大型模型在越来越多的视觉任务中取得了良好的效果,但高效的轻量级神经网络由于其更快的推理速度和更易于在移动设备上部署而受到越来越多的关注。然而,现有的视频模型仍然侧重于更大的ViT架构,很少有研究尝试构建高效的架构。鉴于许多高效的对比语言图像预训练 (CLIP) 模型已经展现出强大的零样本分类和检索能力,我们尝试填补视频文本理解模型的空白,并提出了一个快速高效的视频文本模型MobileViCLIP,它具有强大的零样本推理能力,可部署在移动设备上。具体而言,我们的MobileViCLIP在多个文本-视频检索数据集和零样本视频分类数据集上的性能堪比主流的ViT模型,同时将部署在移动设备上时的推理速度提升数十倍。综上所述,MobileViCLIP着眼于视频文本模型在效率方面的改进非常重要,这对该领域而言是宝贵的贡献。</p> <h1 id="02">02</h1> <p><strong>题目:</strong> p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay</p> <p><strong>作者:</strong> Jun Zhang (张峻), Desen Meng (孟德森), Zhengming Zhang (张拯明), Zhenpeng Huang (黄振鹏), Tao Wu (吴涛), Limin Wang (王利民)</p> <p><strong>单位:</strong> 开云足球俱乐部,中国移动研究院</p> <p><strong>论文简介:</strong></p> <p>尽管多模态大模型(MLLMs)在各种下游任务上表现出色,但其巨大的训练和推理成本阻碍了其进一步发展。造成过大的计算开销的主要原因是:LLM需要处理海量的视觉token。本文提出了p-MoD,一种高效的MLLM架构,在保证模型性能不变的同时,大幅降低其训练和推理时的计算开销。为了减少每一个LLM Transformer层处理的视觉token数量,p-MoD引入了混合深度(Mixture-of-Depths, MoD)机制来构建高效的MLLMs,该机制在每个Transformer层中选择处理关键的视觉tokens进行处理,跳过冗余的tokens。然而,将MoD机制集成到MLLMs中并非易事。为了解决训练和推理稳定性的问题,并应对训练数据有限的挑战,p-MoD对MoD模块进行了结构改进与创新,设计了Tanh门控的权重归一化(TanhNorm)和对称的tokens重加权 (STRing) 解决了上述挑战。更进一步地,本文通过探究实验观察到视觉tokens在更深层中表现出更高的冗余度,因此设计了一种渐进式比率衰减(Progressive Ratio Decay, PRD)策略,逐层逐渐降低MoD机制保留tokens的比例。这一关键设计充分释放了MoD的潜力,显著提升了模型的效率和性能。在15个基准测试中,对LLaVA-1.5和LLaVA-NeXT两个基线模型进行的实验表明,p-MoD 以55.6%的推理TFLOPs,53.7%的KV Cache存储和77.7%的GPU训练时长,得到了匹配甚至超越基线模型的性能。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-02" srcset=" /lm/post/2025-09-19-iccv2025-accepted-papers/2_hu_1b31a54505924d75.jpg 400w, /lm/post/2025-09-19-iccv2025-accepted-papers/2_hu_95917eef9098f48e.jpg 760w, /lm/post/2025-09-19-iccv2025-accepted-papers/2_hu_e904ff494b454846.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/2_hu_1b31a54505924d75.jpg" width="760" height="317" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="03">03</h1> <p><strong>题目:</strong> Scalable Image Tokenization with Index Backpropagation Quantization</p> <p><strong>作者:</strong> Fengyuan Shi (石丰源), Zhuoyan Luo (罗卓彦), Yixiao Ge (葛艺潇), Yujiu Yang (杨余久), Ying Shan (单瀛), Limin Wang (王利民)</p> <p><strong>单位:</strong> 开云足球俱乐部,清华大学,腾讯</p> <p><strong>论文简介:</strong></p> <p>现有的向量量化(VQ)方法在扩展性方面存在困难,主要原因在于训练过程中仅部分更新的代码本易发生不稳定,随着非激活代码与视觉特征之间分布差距的不断扩大,代码本的利用率下降,最终导致崩溃。为了解决这一问题,我们提出了一种新的VQ方法——Index Backpropagation Quantization(IBQ),能够联合优化所有代码本嵌入向量和视觉编码器。通过在编码特征与代码本之间的one-hot类别分布上应用直通估计器(straight-through estimator),IBQ使所有代码都具备可微性,并保持与视觉编码器一致的潜在空间。IBQ实现了视觉tokenizer的可扩展训练,并首次在高维(256)条件下实现了大规模(2¹⁸)且高利用率的代码本。在标准的ImageNet基准上,我们验证了IBQ的扩展能力和优越性能,在图像重建和自回归视觉生成任务上均取得了有竞争力的结果。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-03" srcset=" /lm/post/2025-09-19-iccv2025-accepted-papers/3_hu_5f13c42772308603.jpg 400w, /lm/post/2025-09-19-iccv2025-accepted-papers/3_hu_cb110f10d460d9c3.jpg 760w, /lm/post/2025-09-19-iccv2025-accepted-papers/3_hu_99bbd998f5d2bf77.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/3_hu_5f13c42772308603.jpg" width="760" height="562" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="04">04</h1> <p><strong>题目:</strong> Make Your Training Flexible: Towards Deployment-Efficient Video Models</p> <p><strong>作者:</strong> 王晨汀,黎昆昌,姜天翔,曾祥宇,王毅,王利民</p> <p><strong>单位:</strong> 上海人工智能实验室,上海交通大学,中国科学与技术大学, 开云足球俱乐部</p> <p><strong>论文简介:</strong></p> <p>当前主流的视频训练方法通常基于固定时空分辨率的时空采样网格(Sampling Grid)提取固定长度的视觉令牌作为输入,导致模型训练与推理过程严重受限于预设的采样策略。这种刚性设计使得模型难以适应下游任务中不同的计算预算需求——尤其在高计算资源场景下训练出的高性能 Video 模型,在端侧设备等资源受限环境中往往无法直接高效部署。为解决这一问题,我们提出了一种全新的训练范式,旨在实现“全场景无损适配”:既能保持模型在高计算资源下的最优性能,又能使其在端侧低资源环境下实现无损迁移。为此,我们首次提出“令牌优化”(Token Optimization, TO),一种自适应推理框架,通过动态采样与智能令牌选择,使模型能够根据下游计算限制自动优化输入令牌集,最大化信息利用率。基于此目标,我们创新性从训练端地开发了名为 Flux 的数据增强工具,通过实现灵活可变的采样网格并结合令牌选择机制,能够无缝适配主流视频训练框架,以近乎零额外成本显著提升模型鲁棒性和下游的灵活性,使得训练出的单一模型可以在各种计算量限制下自适应推理。我们将 Flux 整合至大规模视频预训练流程,所得模型 FluxViT 在标准计算成本下于多项任务中创造了最新性能纪录。尤为突出的是,在 1/4 令牌量的限制下时,经令牌优化的 FluxViT 仍能媲美先前最优的 InternVideo2 系列模型的性能,实现近 90%的无损计算资源节省。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-04" srcset=" /lm/post/2025-09-19-iccv2025-accepted-papers/4_hu_659de66e92cd6d00.jpg 400w, /lm/post/2025-09-19-iccv2025-accepted-papers/4_hu_17c155a99fb15eab.jpg 760w, /lm/post/2025-09-19-iccv2025-accepted-papers/4_hu_f76fc51dc43bac47.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/4_hu_659de66e92cd6d00.jpg" width="656" height="760" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="05">05</h1> <p><strong>题目:</strong> VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos</p> <p><strong>作者:</strong> 于家硕,吴越,褚蒙,任志斐,黄子政,储培,张瑞杰,何逸楠,李奇睿,李松泽,Zhenxiang Li,涂中英,何聪辉,乔宇,王亚立,王毅,王利民</p> <p><strong>单位:</strong> 上海人工智能实验室,开云足球俱乐部,中国科学院深圳先进技术研究院</p> <p><strong>论文简介:</strong></p> <p>我们推出 VRBench——首个专为评估大模型多步推理能力而构建的长篇叙事视频基准测试,解决了现有评估方法忽视时序推理与流程有效性的局限。该基准包含 1,010 条长视频(平均时长 1.6 小时)、9,468 个人工标注的多步问答对,以及 30,292 个带时间戳的推理步骤。这些视频通过包含专家交叉评审的多阶段筛选流程进行收集,重点确保剧情连贯性和情节复杂度。我们开发了一套人机协同框架来生成连贯的推理链,每条推理链均需包含多个带时间戳的推理步骤,涵盖事件归因、隐性推理等七种类型。VRBench 设计了多阶段评估管道,从结果和过程两个层面评估模型性能:除采用选择题评估最终结果外,我们创新性地提出 LLM 引导的过程性评分指标,从多维度全面评估推理链质量。通过对 12 个 LLM 和16 个 VLM 在 VRBench 上的广泛测试,我们开深入分析了现有模型对长视频多步推理能力的不足,并提供了多方面建议。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-05" srcset=" /lm/post/2025-09-19-iccv2025-accepted-papers/5_hu_b621854db51777f5.jpg 400w, /lm/post/2025-09-19-iccv2025-accepted-papers/5_hu_f6865e8cf0c0a0b8.jpg 760w, /lm/post/2025-09-19-iccv2025-accepted-papers/5_hu_1f224cd1f030d16d.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/5_hu_b621854db51777f5.jpg" width="760" height="309" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="06">06</h1> <p><strong>题目:</strong> Divide-and-Conquer for Enhancing Unlabeled Learning, Stability, and Plasticity in Semi-supervised Continual Learning</p> <p><strong>作者:</strong> Yue Duan (段岳), Taicai Chen (陈泰财), Lei Qi (祁磊), Yinghuan Shi (史颖欢)</p> <p><strong>单位:</strong> 开云足球俱乐部, 东南大学</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2508.05316" target="_blank" rel="noopener">https://arxiv.org/abs/2508.05316</a>, <a href="https://github.com/NJUyued/USP4SSCL" target="_blank" rel="noopener">https://github.com/NJUyued/USP4SSCL</a></p> <p><strong>论文简介:</strong></p> <p>半监督持续学习(Semi-supervised Continual Learning, SSCL)旨在从仅有部分数据被标注的连续任务序列中学习,这极具现实意义但挑战重重。其核心挑战在于有效利用无标签数据,同时平衡模型的“记忆稳定性”(不遗忘旧知识)与“学习可塑性”(学习新知识)。现有方法往往孤立地解决其中一两个问题,难以兼顾全局。针对此,本文提出了一个名为USP的“分而治之”的协同框架,通过三个相互关联的模块,系统性地增强无标签学习(Unlabeled Learning)、记忆稳定性(Memory Stability)和学习可塑性(Learning Plasticity)。在增强可塑性方面,我们提出了特征空间预留(FSR)策略。该策略利用等角紧框架(ETF)为未来的新类别预先在特征空间中保留位置,从而在学习新任务时避免与旧类别的特征产生冲突。在无标签学习方面,我们设计了分治伪标签(DCP)方法。该方法将无标签数据分为高置信度和低置信度两部分,并分别采用分类器和更稳健的最近类均值(NCM)进行伪标签分配,从而充分利用所有数据,提高了伪标签的准确性。在维持稳定性方面,我们提出了类均值锚定无标签蒸馏(CUD)。该方法巧妙地复用DCP的中间结果,将无标签数据锚定到由有标签数据计算出的稳定类中心上进行知识蒸馏,有效缓解了模型在无标签数据上的灾难性遗忘。大量实验表明,USP框架显著优于当前SOTA方法,在最终任务准确率方面最高提升5.94%。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-06" srcset=" /lm/post/2025-09-19-iccv2025-accepted-papers/6_hu_74024f7307e36a05.jpg 400w, /lm/post/2025-09-19-iccv2025-accepted-papers/6_hu_a32e2ac3c775635b.jpg 760w, /lm/post/2025-09-19-iccv2025-accepted-papers/6_hu_25159b1128c5bb83.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/6_hu_74024f7307e36a05.jpg" width="446" height="512" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="07">07</h1> <p><strong>题目:</strong> Correspondence as Video: Test-Time Adaption on SAM2 for Reference Segmentation in the Wild</p> <p><strong>作者:</strong> Haoran Wang (王皓冉), Zekun Li (李泽昆), Jian Zhang (张剑), Lei Qi (祁磊), Yinghuan Shi (史颖欢)</p> <p><strong>单位:</strong> 开云足球俱乐部, 东南大学</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2508.07759" target="_blank" rel="noopener">https://arxiv.org/abs/2508.07759</a>,https://github.com/wanghr64/cav-sam</p> <p><strong>论文简介:</strong></p> <p>大型视觉模型(如SAM)在处理新领域、新类别的下游分割任务时性能会显著下降。参考分割(Reference Segmentation)利用带标注的参考图像来引导模型分割目标图像,是一个很有前景的解决方案。然而,现有方法大多依赖于元学习(Meta-learning),需要大量的训练数据和计算资源。针对此,本文提出了一种名为CAV-SAM的全新范式,其核心思想是将参考图像与目标图像之间的“对应关系”巧妙地转化为一段“伪视频”。这使得为视频任务设计的最新模型SAM2,仅通过轻量级的测试时微调,就能高效地适应下游分割任务,完全避免了高成本的元学习过程。该框架主要包含两个模块:基于扩散的语义过渡 (DBST): 为解决参考与目标图像间同一类别、不同实例导致的“语义差异”问题,该模块利用扩散模型生成一个从参考图像到目标图像的平滑语义过渡序列(即伪视频)。 测试时几何对齐 (TTGA): 为应对目标物体在姿态、大小上的“几何变化”挑战,该模块在测试时仅使用参考图像,通过一种新颖的“增强循环一致性”损失对SAM2进行轻量化微调。优化后的模型能为伪视频序列生成更精准的提示,从而更好地对齐几何变化。 大量实验证明,CAV-SAM无需元学习,其性能却远超当前SOTA方法,在多个数据集上平均性能提升约5%。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-07" srcset=" /lm/post/2025-09-19-iccv2025-accepted-papers/7_hu_7871e4b513c3546.jpg 400w, /lm/post/2025-09-19-iccv2025-accepted-papers/7_hu_660fc3c0b5b31cde.jpg 760w, /lm/post/2025-09-19-iccv2025-accepted-papers/7_hu_aa72482118adab90.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-iccv2025-accepted-papers/7_hu_7871e4b513c3546.jpg" width="760" height="320" loading="lazy" data-zoomable /></div> </div></figure> </p> ICML 2025 录用论文简介 https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/ Fri, 18 Jul 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/ <blockquote> <p>ICML(International Conference on Machine Learning,简称ICML)是机器学习与人工智能领域的国际顶级学术会议,是机器学习领域历史最悠久的、规模最大、影响最广的顶级学术会议之一,也是中国计算机学会CCF推荐的A类会议。</p> <p>开云足球俱乐部计算机学院大模型中心有4篇论文被ICML 2025录用。</p></blockquote> <h1 id="01">01</h1> <p><strong>题目:</strong> On the Tension between Byzantine Robustness and No-Attack Accuracy in Distributed Learning</p> <p><strong>作者:</strong> Yi-Rui Yang(杨亦锐), Chang-Wei Shi(史长伟), Wu-Jun Li(李武军)</p> <p><strong>单位:</strong> 开云足球俱乐部</p> <p><strong>链接:</strong> <a href="https://cs.nju.edu.cn/lwj/paper/ICML2025_NFLinBRDL.pdf" target="_blank" rel="noopener">https://cs.nju.edu.cn/lwj/paper/ICML2025_NFLinBRDL.pdf</a></p> <p><strong>论文简介:</strong></p> <p>分布式机器学习是人工智能大模型和大数据分析的核心支撑技术,近年来已经成为学术界和工业界广泛关注的热门课题。分布式机器学习的目的是利用多个相互连接的设备(节点)的算力以及存储的数据训练一个机器学习模型。传统的分布式机器学习方法往往假设工作节点不会出现故障或受到恶意攻击。近年来,随着训练数据规模和机器学习模型(大模型)规模不断增大,所需要的计算集群规模也在不断增大。相比小规模集群,大规模集群出现各类软硬件故障的概率显著增大,例如,据Meta发布的训练LLaMa 3.1的技术文档报道,在包含16384块GPU的集群上训练LLaMa 3.1 405B模型,平均每3小时会出现一次意外故障,其中78%的意外故障已确认或怀疑是硬件故障。另一方面,相比基于数据中心集群的分布式机器学习,在联邦学习等基于开放网络的分布式机器学习中,节点受到各类恶意攻击的可能性显著增加。出现故障或者受到恶意攻击的节点被称为拜占庭(Byzantine)节点。大部分已有的分布式机器学习方法在设备出现故障或受到恶意攻击时会失效。在设备出现故障或受到恶意攻击时仍然能正常工作的分布式机器学习称为拜占庭鲁棒的分布式机器学习。近年来,拜占庭鲁棒的分布式机器学习受到了越来越多的关注。现有的拜占庭鲁棒的分布式机器学习方法普遍采用鲁棒聚合器以抵御拜占庭节点的攻击(故障)。然而在实际应用中,拜占庭节点并非始终存在。据我们所知,目前尚无理论研究探讨无拜占庭节点时使用鲁棒聚合器的影响。针对这一问题,我们从理论上分析了无拜占庭攻击(故障)场景下鲁棒聚合器的聚合误差。我们证明了,当实际并不存在拜占庭节点时,鲁棒聚合器的最大聚合误差与其可容忍的拜占庭节点数量正相关。该理论结果揭示了拜占庭鲁棒性与无故障(攻击)准确度之间的内在矛盾。进一步地,我们分别针对非凸目标函数和满足Polyak-Łojasiewicz (PL)条件的目标函数,给出了采用鲁棒聚合器的梯度下降法的收敛速率下界,并证明了该下界的紧致性。该收敛速率下界同样反映出拜占庭鲁棒性与无故障(攻击)准确率之间的内在矛盾。实验数据进一步验证了我们的理论发现。该研究为实际应用中的分布式机器学习(尤其是大模型分布式训练)提供了理论指导和工程调优方向。例如,在基于大规模集群训练大模型时,在训练到达收敛点(最优值)前的大量迭代(epoch)中,可以采用拜占庭鲁棒的学习算法(鲁棒聚合器),从而避免因设备出现故障而导致训练过程的崩溃和反复重启,提升训练过程的精度和效率;在训练接近收敛点(最优值)时的极少量迭代(epoch)中,在确保集群中没有故障的前提下,切换到非拜占庭鲁棒的学习算法(如常用的平均聚合器),进一步提升精度;整个过程可以实现在保证精度的前提下,提升大模型训练速度,降低训练成本。本文被ICML 2025录用为Spotlight(所有投稿论文的2.6%,所有录用论文的9.6%)。 <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-01" srcset=" /lm/post/2025-09-19-icml2025-accepted-papers/1_hu_4e61ac29aa13d379.jpg 400w, /lm/post/2025-09-19-icml2025-accepted-papers/1_hu_9e454f7eaa825e0b.jpg 760w, /lm/post/2025-09-19-icml2025-accepted-papers/1_hu_48ccbcb605f24aba.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/1_hu_4e61ac29aa13d379.jpg" width="760" height="204" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="02">02</h1> <p><strong>题目:</strong> Stochastic Layer-Wise Shuffle for Improving Vision Mamba Training</p> <p><strong>作者:</strong> Zizheng Huang, Haoxing Chen, Jiaqi Li, Jun Lan, Huijia Zhu, Weiqiang Wang, Limin Wang</p> <p><strong>单位:</strong> 开云足球俱乐部,上海创智学院,中国移动研究院,上海人工智能实验室</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2408.17081" target="_blank" rel="noopener">https://arxiv.org/abs/2408.17081</a></p> <p><strong>论文简介:</strong></p> <p>Vision Mamba(Vim)模型因其近线性计算复杂度在视觉数据处理中展现出巨大潜力,尤其会提升高分辨率图像和长视频的处理效率,但其训练方法,特别是大规模模型的训练,常因过拟合、训练流程复杂等问题而受限,在标准视觉基准上的性能与领先视觉Transformer(ViT)模型也存在明显差距。为了改善Vim的训练流程,本文提出了一种新颖的即插即用正则化方法——随机分层打乱(Stochastic Layer-Wise Shuffle, SLWS)。该方法的核心思想是,在训练过程中对每层的输入令牌(token)序列进行随机打乱,且对于模型各层的输入序列打乱的概率随网络深度线性增加,最后在输出时恢复为原序列顺序。如此一来,训练能够促使深层网络学习到具有位置不变性的高阶语义信息,而浅层网络则保留对低阶信息的位置敏感性,而且序列的打乱操作增加了模型对于输入数据预测的难度,从而可以缓解过拟合问题。SLWS作为一种训练正则化方式,无需修改模型架构,且在推理阶段不再被激活从而不产生任何额外开销。该方法促使模型深层和浅层具有不同的感知先验,实验证明,其不仅有效缓解了Vim模型的过拟合问题,成功支持了原先可能会崩溃的大模型进行稳定训练,在朴素监督学习范式下为不同规模的Vim模型带来明显性能提升。此外,当SLWS以CLIP模型特征作为监督信号进行掩码特征蒸馏预训练时,所得到的Vim-Huge模型在ImageNet-1K上取得了87.6%的微调准确率,为Vision Mamba模型在该基准的训练中树立了新的SOTA。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-02" srcset=" /lm/post/2025-09-19-icml2025-accepted-papers/2_hu_20510d147d3aca5b.jpg 400w, /lm/post/2025-09-19-icml2025-accepted-papers/2_hu_b73a4bb8f1372a03.jpg 760w, /lm/post/2025-09-19-icml2025-accepted-papers/2_hu_31f0ddc24953cb07.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/2_hu_20510d147d3aca5b.jpg" width="760" height="317" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="03">03</h1> <p><strong>题目:</strong> Elucidating the Design Space of Multimodal Protein Language Models(ICML spotlight)</p> <p><strong>作者:</strong> Xinyou Wang* (王辛有), Cheng-Yen Hsieh*, Daiheng Zhang(张代恒), Dongyu Xue (薛东雨), Fei Ye(叶菲), Shujian Huang(黄书剑), Zaixiang Zheng (郑在翔), Quanquan Gu(顾全全)</p> <p><strong>单位:</strong> 开云足球俱乐部,罗格斯大学,字节跳动</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2504.11454" target="_blank" rel="noopener">https://arxiv.org/abs/2504.11454</a></p> <p><strong>论文简介:</strong></p> <p>论文简介:</p> <p>背景:蛋白质是由氨基酸序列折叠成特定空间结构的生物大分子,基于 AI 助力蛋白质建模与设计是当前 AI for Science 中的最重要的研究方向之一。2024 年的诺贝尔化学奖颁发给了 DeepMind 的 AlphaFold,该成果基于 AI 解决了结构生物学中困扰了 50 年的蛋白质折叠和结构预测问题,逐渐应用于药物设计(如抗体开发)、酶工程和疾病治疗等场景中。蛋白质氨基酸序列与自然语言的数据形式具有内在的相似性。受此启发,开云足球俱乐部自然语言处理组与字节跳动 ByteDance Research 紧密合作,近年来在基于生成式AI的蛋白质建模与生成中持续探索,相关系列工作 DPLM(一种通用的扩散蛋白质语言模型)和 DPLM-2(多模态的蛋白质基座模型)已分别发表在ICML 2024 和 ICLR 2025,本文是该系列工作的最新进展。代码开源地址:https://github.com/bytedance/dplm,项目主页:https://bytedance.github.io/dplm/。</p> <p>多模态蛋白质语言模型(Multimodal PLM)能够同时建模和生成蛋白质的结构和序列,为广泛的蛋白质设计任务奠定了坚实基础。蛋白质的序列由氨基酸 token 组成,在我们的前期工作 DPLM 中,我们采用 discrete diffusion 的建模方式,并取得了良好的效果。 蛋白质的结构信息是以坐标形式表示的连续数据类型,建模时需要将其离散化成结构 token,再与序列信息联合。我们认为现有多模态蛋白质语言模型的结构建模存在三个重要的挑战:1)对连续坐标的离散化会引入信息损失,从而导致蛋白质结构的细粒度信息丢失;2)离散的结构 token 无法准确体现局部结构特征的内在关联,对预测的准确度带来较大的挑战;3)缺少蛋白质结构的几何关系建模,导致难以准确捕捉残基在三维空间中复杂的交互关系。</p> <p>为此,我们针对性提出了解决方案: 1)采用更精确的针对蛋白结构的生成式建模方式,提升了结构预测的准确度。2)利用显式的蛋白质结构的几何信号监督,通过引入几何模块和表征对齐,提升了蛋白质结构的几何关系建模能力。实验结果显示,本文提出的技术方案显著提升了多模态蛋白质语言模型的结构生成表现,对于蛋白质折叠任务的RMSD(结构预测误差指标)从 5.52 降低至 2.36 ,与专门的蛋白质折叠模型 ESMFold 持平;在无条件蛋白质生成中,采样多样性提升约30%,改善了之前采样多样性较差的问题,同时保证采样蛋白的质量。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-03" srcset=" /lm/post/2025-09-19-icml2025-accepted-papers/3_hu_69814230aa645eee.jpg 400w, /lm/post/2025-09-19-icml2025-accepted-papers/3_hu_7b82362eb098dca8.jpg 760w, /lm/post/2025-09-19-icml2025-accepted-papers/3_hu_f8849354112e0008.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/3_hu_69814230aa645eee.jpg" width="760" height="364" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="04">04</h1> <p><strong>题目:</strong> Differentiable Solver Search for Fast Diffusion Sampling</p> <p><strong>作者:</strong> Shuai Wang(王帅), Zexian Li(李泽贤), Qipeng Zhang(张启鹏), Tianhui Song(宋天慧), Xubin Li(李旭斌), Tiezheng Ge(葛铁铮), Bo Zheng(郑波), Limin Wang(王利民)</p> <p><strong>单位:</strong> 开云足球俱乐部,阿里</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2505.21114" target="_blank" rel="noopener">https://arxiv.org/abs/2505.21114</a></p> <p><strong>论文简介:</strong></p> <p>论文简介:</p> <p>扩散模型在生成质量上表现卓越,但这一优势的背后是大量的模型推理成本。近年来,基于常微分方程(ODE)的高级求解器应运而生,其核心目标是在有限采样步骤下,降低反向扩散求解过程中的巨额计算开销。不过,这类求解器受类Adams线性多步法的启发较深,仅依赖于与时间相关的拉格朗日插值。研究发现,与时间相关的拉格朗日插值并非扩散模型的最优选择,我们由此揭示出一个包含时间步长与求解器系数的紧凑搜索空间。基于这一分析,我们提出了一种新颖的可微分求解器搜索算法,旨在筛选出更优的求解器。实验表明,配备该搜索所得求解器后,FlowMatching模型(如SiT-XL/2和FlowDCN-XL/2)在ImageNet-256×256数据集上仅需10步,便分别取得2.40和2.35的FID分数;与此同时,DDPM模型DiT-XL/2在同样10步的条件下,FID分数达到2.33。值得关注的是,我们所搜索到的求解器性能显著优于传统求解器(甚至部分蒸馏方法),且在不同模型架构、分辨率及模型规模下均展现出良好的通用性。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-04-1" srcset=" /lm/post/2025-09-19-icml2025-accepted-papers/4_hu_b22a437e411fb2ce.jpg 400w, /lm/post/2025-09-19-icml2025-accepted-papers/4_hu_968df2ffd3238664.jpg 760w, /lm/post/2025-09-19-icml2025-accepted-papers/4_hu_16a85f847cb370c.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/4_hu_b22a437e411fb2ce.jpg" width="760" height="203" loading="lazy" data-zoomable /></div> </div></figure> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-04-2" srcset=" /lm/post/2025-09-19-icml2025-accepted-papers/5_hu_e7ca9da343330b97.jpg 400w, /lm/post/2025-09-19-icml2025-accepted-papers/5_hu_71ae35d7b5467c79.jpg 760w, /lm/post/2025-09-19-icml2025-accepted-papers/5_hu_50f1c35fa4975fd5.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-09-19-icml2025-accepted-papers/5_hu_e7ca9da343330b97.jpg" width="760" height="194" loading="lazy" data-zoomable /></div> </div></figure> </p> 开云足球俱乐部计算机学院大模型中心12篇论文被CVPR 2025录用 https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/ Wed, 30 Apr 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/ <blockquote> <p>CVPR(计算机视觉和模式识别会议)是国际上最具影响力的年度学术会议之一,专注于计算机视觉、模式识别及相关领域的前沿研究。每年,它汇聚了全球顶尖的研究人员、学者及工业界人士,共同探讨最新的技术进步与创新应用。会议内容广泛,包括图像处理、机器学习、三维重建、视频分析等众多主题。所有提交的论文都需经过严格的同行评审过程,确保展示的研究成果具有高度的原创性和学术价值。在2024年谷歌学术指标(Google Scholar Metrics)中,CVPR在全球所有期刊和会议中排名第二,仅次于Nature。</p> <p>开云足球俱乐部计算机学院大模型中心有12篇论文被CVPR 2025录用。</p></blockquote> <h1 id="01">01</h1> <p><strong>题目:</strong> UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming</p> <p><strong>作者:</strong> Hao Lin (林昊), Ke Wu (吴轲), Jie Li (李杰), Jun Li (李俊), Wu-Jun Li (李武军)</p> <p><strong>单位:</strong> 开云足球俱乐部</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2307.16375" target="_blank" rel="noopener">https://arxiv.org/abs/2307.16375</a></p> <p><strong>论文简介:</strong> 大模型的训练往往需要多机多卡的分布式训练。大模型的分布式训练挑战巨大,即使硬件足够,很多人大概率(我们实验中验证有64%-87%的概率)会因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而跑不出结果。此外,很多人在碰到大模型训练慢时只会想到增加GPU等硬件,而忽略了或者没意识到分布式训练算法的作用。实际上,分布式训练算法会极大地影响硬件的算力利用率。高效能分布式训练算法具有高算力利用率。用同样的硬件算力训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法速度快,最高可能会快数倍甚至数十倍以上;或者说,训练同一个模型,高效能分布式训练算法会比低效能分布式训练算法成本低,最高可能会节省数倍甚至数十倍以上的算力成本。很多已有的分布式训练算法的效能较低,甚至可能导致机器和GPU卡越多、训练速度越慢的结果。在本文中,我们研发了高效能分布式训练算法UniAP并基于UniAP研发了相应的大模型分布式训练平台和框架。UniAP是首个能实现层类并行策略(张量并行等)和层间并行策略(流水线并行等)联合优化的工作。给定模型和硬件平台,UniAP能够通过自动搜索找到高效能的分布式训练方案,既解决了效率和成本问题(我们实验中,比已有的最好方法最高快3.8倍,比不采用并行策略优化的算法最高快9倍),也解决了很多人在大模型分布式训练时因为超参数设置(模型怎么切分和排布、数据怎么切分和排布等)不合理而跑不出结果的问题。我们还实现了UniAP跟国产AI计算卡的适配。相关工作为大模型训练的降本增效提供了核心技术和(国产)平台。本文被CVPR 2025录用为Oral(所有投稿论文的0.7%,所有录用论文的3.3%)。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-01" srcset=" /lm/post/2025-04-30-cvpr25-accepted/01_hu_e100169f849da6b4.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/01_hu_640f60e0a6475723.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/01_hu_c519ad08e5f68f55.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/01_hu_e100169f849da6b4.jpg" width="715" height="244" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="02">02</h1> <p><strong>题目:</strong> Balanced Direction from Multifarious Choices: Arithmetic Meta-Learning for Domain Generalization</p> <p><strong>作者:</strong> Xiran Wang(王曦染), Jian Zhang(张剑), Lei Qi(祁磊), Yinghuan Shi(史颖欢)</p> <p><strong>单位:</strong> 开云足球俱乐部、东南大学</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2503.18987" target="_blank" rel="noopener">https://arxiv.org/abs/2503.18987</a></p> <p><strong>论文简介:</strong> 领域泛化旨在应对源域(训练集)与未见目标域(测试集)之间由于分布差异所引发的迁移挑战。目前广泛采用的一阶元学习方法基于梯度对齐理论,通过在多个源域之间寻找平衡参数,有效缓解了模型对单一域的过拟合,展现出良好的泛化能力。然而,我们的研究发现:能够推导出梯度对齐的优化路径并非唯一,现有方法实际上仅探索了其中的一种方向。更重要的是,梯度对齐理论虽强调方向的一致性,却忽略了模型最终在参数空间中收敛位置的讨论。理想的平衡参数应更接近各源域最优解的质心位置。为此,本文提出一种简洁而高效的等差算数元学习(Arithmetic Meta-Learning)策略。该方法在遵循梯度对齐原则的基础上,首次将参数平均思想引入元学习,设计出基于等差梯度的优化策略,用以模拟源域最优参数质心的估计过程,同时保持梯度方向的一致性。无需引入额外的专家网络或显式正则项,Arith仅通过简单的加权策略,便可在多个基准数据集上实现良好的泛化性能。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-02" srcset=" /lm/post/2025-04-30-cvpr25-accepted/02_hu_25cd3c75baa28be7.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/02_hu_970cb5f3f06cca6b.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/02_hu_b4048c24b1b1dfb7.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/02_hu_25cd3c75baa28be7.jpg" width="760" height="142" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="03">03</h1> <p><strong>题目:</strong> Steady Progress Beats Stagnation: Mutual Aid of Foundation and Conventional Models in Mixed Domain Semi-Supervised Medical Image Segmentation</p> <p><strong>作者:</strong> Qinghe Ma(马庆贺), Jian Zhang(张剑), Zekun Li(李泽昆), Qian Yu(于谦), Lei Qi(祁磊), Yinghuan Shi(史颖欢)</p> <p><strong>单位:</strong> 开云足球俱乐部、东南大学</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2503.16997" target="_blank" rel="noopener">https://arxiv.org/abs/2503.16997</a></p> <p><strong>论文简介:</strong> 大规模预训练的视觉基础模型展现出出色的通用能力。然而,当将这些模型适配到特定领域的下游任务时,其固有的海量先验知识可能成为一把“双刃剑”。在存在分布不一致的医学图像分割场景中,MedSAM等基础模型往往会产生过度自信的预测,其中部分预测存在错误。这种错误积累会阻碍未标注数据的有效利用,限制模型性能的进一步提升。本文提出一种基础模型与传统模型的协同训练框架(SynFoC)来解决该问题。课题组发现,从头开始训练的传统模型能够修正基础模型的高置信度错误预测,而基础模型在训练早期阶段可为传统模型提供高质量的伪标签监督。具体地,该方法1)充分利用基础模型强大的泛化能力,避免传统模型在少量标注样本上的过拟合风险;2)同时借助传统模型的稳健自纠正能力,引导基础模型纠正高置信错误预测,动态平衡两模型在不同训练阶段的主导地位。在方法层面,通过引入Self-Mutual Confidence(SMC)动态评估模块,度量来自传统模型的伪标签质量,动态调整两模型伪标签的融合权重。同时,基于共识-分歧的一致性约束进一步增强了两模型的协同表征能力。实验结果表明,所提出的方法表现均优于现有其他方法。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-03" srcset=" /lm/post/2025-04-30-cvpr25-accepted/03_hu_f53d83166b7ec020.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/03_hu_58afb2d2924d8bbf.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/03_hu_aaf053b28554ac74.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/03_hu_f53d83166b7ec020.jpg" width="760" height="431" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="04">04</h1> <p><strong>题目:</strong> Taste More, Taste Better: Diverse Data and Strong Model Boost Semi-Supervised Crowd Counting</p> <p><strong>作者:</strong> Maochen Yang(杨茂琛), Zekun Li(李泽昆), Jian Zhang(张剑), Lei Qi(祁磊), Yinghuan Shi(史颖欢)</p> <p><strong>单位:</strong> 开云足球俱乐部、东南大学</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2503.17984" target="_blank" rel="noopener">https://arxiv.org/abs/2503.17984</a></p> <p><strong>论文简介:</strong> 人群计数为计算机视觉、模式识别中的重要应用,其在智慧城市、公共安全等领域至关重要。然而精确标注大量数据成本高昂。半监督人群计数旨在利用易于获取的无标签数据,但如何有效利用这些数据仍是挑战。针对现有方法在数据增强适用性和模型全局上下文捕捉能力上的局限,本研究提出了一个名为TMTB (Taste More Taste Better) 的新框架。该框架从“数据”和“模型”两方面入手:本研究设计了一种特别适用于人群计数任务的Inpainting Augmentation技术。通过利用扩散模型对图像背景进行修复式生成,该技术能在不破坏前景人群结构完整性的前提下,有效增加训练数据的多样性,并设计了机制过滤不可靠的生成区域。本研究引入了视觉状态空间模型 (Visual State Space Model, VSSM) 作为骨干网络。VSSM能以线性复杂度有效捕捉全局上下文信息,尤其适用于处理极端拥挤、低光照或恶劣天气等复杂场景。此外,本研究还加入了一个抗噪声分类头,它提供相对模糊但更鲁棒的区间计数监督信号,有效缓解了回归头对标注噪声敏感的问题。本研究在多个主流数据集上进行了广泛实验。结果表明,TMTB在不同标注比例(如5%, 10%, 40%)下均显著超越了现有SOTA方法。特别地,在仅用5%标注数据的JHU-Crowd++数据集上,本研究将MAE首次降至70以下,达到67.0。同时,TMTB在跨域泛化任务上也展现出优异性能。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-04" srcset=" /lm/post/2025-04-30-cvpr25-accepted/04_hu_278f838391606089.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/04_hu_cdf396fd430f27ef.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/04_hu_d3e571302f9cee35.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/04_hu_278f838391606089.jpg" width="760" height="307" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="05">05</h1> <p><strong>题目:</strong> AutoLUT: LUT-Based Image Super-Resolution with Automatic Sampling and Adaptive Residual Learning</p> <p><strong>作者:</strong> Yuheng Xu (许煜恒), Shijie Yang (杨世杰), Xin Liu (刘鑫), Jie Liu (刘杰), Jie Tang (唐杰), Gangshan Wu (武港山)</p> <p><strong>单位:</strong> 开云足球俱乐部</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2503.01565" target="_blank" rel="noopener">https://arxiv.org/abs/2503.01565</a></p> <p><strong>论文简介:</strong> 近年来,高分辨率屏幕(Hi-DPI)的日益普及推动了对高清图像的需求增长。然而,边缘设备有限的计算能力给复杂超分辨率神经网络的部署带来了挑战,这凸显了对高效方法的迫切需求。尽管先前的研究已取得显著进展,但尚未充分挖掘像素级信息。此外,这些方法依赖固定采样模式,既限制了精度,也制约了对低分辨率图像细微特征的捕捉能力。为应对这些挑战,我们提出了两个即插即用模块,旨在基于查找表(LUT)的超分辨率网络中高效捕获并利用像素信息。我们的方法首创了自动采样(AutoSample)技术,这是一种灵活的LUT采样方案——采样权重在训练过程中自动学习,既能适应像素变化,又可扩展感受野且不增加推理成本。同时,我们采用自适应残差学习(AdaRL)来增强层间连接,促进细节信息流动,从而提升网络重建精细特征的能力。该方法在保持存储空间相近的情况下,为MuLUT和SPF-LUT模型均带来显著性能提升:对于MuLUT模型,在五个数据集上平均获得约+0.20 dB的PSNR提升;对于SPF-LUT模型,在存储空间减少超50%、推理时间缩短约三分之二的情况下,仍保持与原模型相当的复原效果。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-05-1" srcset=" /lm/post/2025-04-30-cvpr25-accepted/05_1_hu_df8e5326d4da1621.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/05_1_hu_cfb5a5f08b60986.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/05_1_hu_f4296c559f2e85a7.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/05_1_hu_df8e5326d4da1621.jpg" width="760" height="492" loading="lazy" data-zoomable /></div> </div></figure> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-05-2" srcset=" /lm/post/2025-04-30-cvpr25-accepted/05_2_hu_3f8d391d3fe2d009.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/05_2_hu_24b186745db08aac.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/05_2_hu_da094309db3bb924.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/05_2_hu_3f8d391d3fe2d009.jpg" width="760" height="539" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="06">06</h1> <p><strong>题目:</strong> CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution</p> <p><strong>作者:</strong> Xin Liu (刘鑫), Jie Liu (刘杰), Jie Tang (唐杰), Gangshan Wu (武港山)</p> <p><strong>单位:</strong> 开云足球俱乐部</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2503.06896" target="_blank" rel="noopener">https://arxiv.org/abs/2503.06896</a></p> <p><strong>论文简介:</strong> 基于Transformer的方法在图像超分辨率(Image Super-Resolution, SR)等低级视觉任务中表现出了卓越的性能。然而,随着空间分辨率的提高,其计算复杂度呈平方级增长。为缓解该问题,已有一系列研究尝试将低分辨率图像划分为局部窗口、轴向条带或空洞窗口进行处理。SR任务通常依赖于图像的冗余信息进行重建,而这种冗余不仅存在于局部区域,也广泛存在于远距离区域。然而,现有方法普遍将注意力计算限制于内容无关的局部区域,直接限制了注意力机制捕捉长距离依赖的能力。为解决上述问题,本文提出了一种轻量级的内容感知Token聚合网络(Content-Aware Token Aggregation Network, CATANet)。具体而言,我们设计了一种高效的内容感知Token聚合模块,用于聚合长距离内容相似的Token。该模块通过在整个图像Token范围内共享聚合中心,并仅在训练阶段更新聚合中心,从而有效降低计算成本。随后,我们引入组内自注意力机制以实现长距离信息交互,并进一步设计了组间交叉注意力机制以增强全局信息的融合能力。实验结果表明,与当前最先进的基于聚类的方法SPIN相比,CATANet在保持更高推理速度的同时,在峰值信噪比(PSNR)方面最高提升了0.33dB,显示出更优的性能表现。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-06" srcset=" /lm/post/2025-04-30-cvpr25-accepted/06_hu_f0d9dff8885c37a9.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/06_hu_31eb83525db6757a.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/06_hu_f908f4f2e8636b12.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/06_hu_f0d9dff8885c37a9.jpg" width="760" height="257" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="07">07</h1> <p><strong>题目:</strong> Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning</p> <p><strong>作者:</strong> Jiange Yang, Haoyi Zhu, Yating Wang, Gangshan Wu, Tong He, Limin Wang</p> <p><strong>单位:</strong> 开云足球俱乐部、上海人工智能实验室、中科大、同济等</p> <p><strong>链接:</strong> <a href="https://arxiv.org/pdf/2411.14519" target="_blank" rel="noopener">https://arxiv.org/pdf/2411.14519</a></p> <p><strong>论文简介:</strong> 数据稀缺性和异构化是机器人学习领域所面临的长期挑战。本研究提出了基于稀疏门控混合专家架构的轨迹预测模型Tra-MoE。Tra-MoE通过更好地平衡参数协作化和参数专用化进而从大规模、跨域、无需动作标签的视频数据中学习泛化性更强且性能超过同等参数量密集基线的轨迹预测模型,成功实现了通专融合的网络架构,同时显著降低了机器人系统对采集成本高昂的真机数据需求。Tra-MoE有效结合了不同物理引擎渲染的仿真视频以及真实环境中人类、单机械臂和双机械臂的跨智能体异构操作视频,在跨智能体学习领域中具有重要的研究前景。此外,本研究提出了一种自适应的策略条件化技术,能够更有效地利用预测轨迹对机器人策略进行引导,从而显著提升下游机器人策略执行的性能。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-07" srcset=" /lm/post/2025-04-30-cvpr25-accepted/07_hu_690021f7f420773b.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/07_hu_9ef725b0289d4609.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/07_hu_34bb4380e8a85264.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/07_hu_690021f7f420773b.jpg" width="760" height="632" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="08">08</h1> <p><strong>题目:</strong> LeviTor: 3D Trajectory Oriented Image-to-Video Synthesis</p> <p><strong>作者:</strong> Hanlin Wang, Hao Ouyang, Qiuyu Wang, Wen Wang, Ka Leong Cheng, Qifeng Chen, Yujun Shen, Limin Wang</p> <p><strong>单位:</strong> 开云足球俱乐部,蚂蚁研究院,浙江大学,香港科技大学,上海人工智能实验室</p> <p><strong>链接:</strong> <a href="https://github.com/ant-research/LeviTor" target="_blank" rel="noopener">https://github.com/ant-research/LeviTor</a></p> <p><strong>论文简介:</strong> 利用用户绘制轨迹的方式完成交互的直观性使其在图像到视频合成任务(Image-to-Video Synthesis)中控制物体如何运动的应用越来越广泛。然而,现有的在2D空间中绘制物体运动轨迹的方法在处理平面以外的运动时通常会面临歧义性问题,即同样的2D运动轨迹在3D空间中可能对应多条运动路径。在这项工作中,我们通过引入一个新的维度——深度维度——来增强这种交互方式,让用户能够为轨迹上的关键点分配相对深度值。这样,我们的新交互范式不仅继承了2D轨迹交互的便利性,还增加了在3D空间中的轨迹控制,从而拓宽了用户创作的范围。具体地说,我们提出了一种用于图像到视频合成中的3D轨迹控制的开创性方法,将物体用少量聚类点表示,来反映物体的远近变化和遮挡情况。这些聚类点连同深度信息和实例信息一起作为生成控制信号被输入到一个视频扩散模型中完成视频生成。大量实验验证了我们的方法(称为LeviTor)在从静态图像生成逼真视频时精确操控物体运动的有效性。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-08" srcset=" /lm/post/2025-04-30-cvpr25-accepted/08_hu_1751dbef0790baa6.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/08_hu_fdaded7387e23b3c.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/08_hu_67565fc74801c8df.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/08_hu_1751dbef0790baa6.jpg" width="760" height="346" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="09">09</h1> <p><strong>题目:</strong> Contextual AD Narration with Interleaved Multimodal Sequence</p> <p><strong>作者:</strong> Hanlin Wang, Zhan Tong, Kecheng Zheng, Yujun Shen, Limin Wang</p> <p><strong>单位:</strong> 开云足球俱乐部,鲁汶大学,蚂蚁研究院,上海人工智能实验室</p> <p><strong>链接:</strong> <a href="https://arxiv.org/abs/2403.12922" target="_blank" rel="noopener">https://arxiv.org/abs/2403.12922</a></p> <p><strong>论文简介:</strong> 影像口述(AD)任务旨在为视障人士生成视觉信息的语言描述,以帮助他们获取长视频内容(如电影、电视剧)的信息。通过以视频特征、文本、角色库和上下文信息作为输入,影像口述能够通过角色名称对应到具体的角色人物,并提供合理且符合上下文的描述,以帮助观众理解电影的情节。为了实现这一目标,我们提出了一种简单且统一的框架,利用预训练的基础语言模型,通过交错的多模态序列作为输入来生成影像口述内容,称为 Uni-AD。为了在不同模态之间实现更细粒度的特征对齐,我们引入了一个简单而轻量级的模块,将视频特征映射到文本特征空间。此外,我们还提出了一个角色优化模块,通过识别在视频上下文中发挥更重要作用的主要角色,来提供更精确的角色信息。结合这些设计,我们进一步将上下文信息和对比损失函数融入架构中,以生成更加流畅且符合上下文的影像口述内容。在多个影像口述数据集上的实验表明,Uni-AD 在影像口述生成任务中表现优异,证明了我们方法的有效性。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-09" srcset=" /lm/post/2025-04-30-cvpr25-accepted/09_hu_fb61f5341a939d52.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/09_hu_d2db3b4868bbc9f0.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/09_hu_c1ccb64f2076ede5.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/09_hu_fb61f5341a939d52.jpg" width="760" height="504" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="10">10</h1> <p><strong>题目:</strong> Multiple Object Tracking as ID Prediction</p> <p><strong>作者:</strong> Ruopeng Gao,Ji Qi,Limin Wang</p> <p><strong>单位:</strong> 开云足球俱乐部,中国移动(江苏)软件技术有限公司,上海人工智能实验室</p> <p><strong>链接:</strong> <a href="https://github.com/MCG-NJU/MOTIP" target="_blank" rel="noopener">https://github.com/MCG-NJU/MOTIP</a></p> <p><strong>论文简介:</strong> 多目标跟踪是视频理解中一个长久以来的挑战。一个自然且直观的方法是将其划分成为两个子任务:目标检测和关联。主流的方法采用复杂的手工算法来维护轨迹信息并且计算用于目标匹配的代价矩阵。尽管这些方法取得了令人满意的跟踪性能,但是它们在适应复杂场景时往往需要一系列繁杂的手工修改。我们认为这样人为的先验假设限制了模型的适应性与灵活性,使其无法在特定数据域上取得最优跟踪效果。因此,我们提出了一种新的视角:将多目标跟踪视作一种基于上下文的ID预测任务,将上述的目标关联流程转变为一种端到端可训练的框架。基于此,我们提出了一个简单并且有效的方法,称做MOTIP。给定包含不同ID的过往轨迹的集合,MOTIP直接解码当前检测结果的ID标签从而完成目标关联流程。不需要额外繁杂的技巧和设计,我们的方法仅仅使用目标外观特征作为跟踪线索就在多个基准上取得了最优性能。如此简单的设计和令人振奋的表现为未来的改进留下了充足的空间,表明其可以作为后续研究的一个富有潜力的基线方法。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-10" srcset=" /lm/post/2025-04-30-cvpr25-accepted/10_hu_9a57f170c0398507.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/10_hu_e7dbbf8506bf5ad1.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/10_hu_e955a05bbb16460f.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/10_hu_9a57f170c0398507.jpg" width="760" height="297" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="11">11</h1> <p><strong>题目:</strong> Online Video Understanding: OVBench and VideoChat-Online</p> <p><strong>作者:</strong> Zhenpeng Huang, Xinhao Li, Jiaqi Li, Jing Wang, Xiangyu Zeng, Cheng Liang, Tao Wu, Xi Chen, Liang Li, Limin Wang</p> <p><strong>单位:</strong> <a href="https://videochat-online.github.io/" target="_blank" rel="noopener">https://videochat-online.github.io/</a></p> <p><strong>链接:</strong> 开云足球俱乐部,中国移动研究院,上海人工智能实验室</p> <p><strong>论文简介:</strong> 多模态大语言模型(MLLMs)在离线视频理解方面取得了显著进展。然而,将这些模型应用于实际场景,如自动驾驶和人机交互,面临着独特的挑战,因为需要实时处理连续的在线视频流。为此,本文从三个方面提出了系统性的努力:评估基准、模型架构和训练策略。首先,我们介绍了OVBench,一个综合性的问题回答基准,旨在评估模型在在线视频上下文中的感知、记忆和推理能力。该基准包含6种核心任务类型,涵盖了三种时间上下文——过去、当前和未来——并形成了来自多种数据集的16个子任务。其次,我们提出了一种新的金字塔记忆库(Pyramid Memory Bank),有效地保留了视频流中的关键时空信息。第三,我们提出了一种离线到在线的学习范式,设计了适用于在线视频数据的交替对话格式,并构建了一个专门用于在线视频训练的指令调优数据集VideoChatOnline-IT。基于上述要点,本文构建了在线视频理解框架——VideoChat-Online,强大且高效的在线视频理解模型。尽管计算成本较低且效率较高,VideoChat-Online在流行的离线视频基准和OVBench基准上均优于现有的最先进离线和在线模型,证明了我们模型架构和训练策略的有效性。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-11-1" srcset=" /lm/post/2025-04-30-cvpr25-accepted/11_1_hu_94babecca7def9bb.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/11_1_hu_55fabf84f53a00bd.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/11_1_hu_8e3fe13bf05610a0.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/11_1_hu_94babecca7def9bb.jpg" width="609" height="371" loading="lazy" data-zoomable /></div> </div></figure> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-11-2" srcset=" /lm/post/2025-04-30-cvpr25-accepted/11_2_hu_fde002e05d04aee9.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/11_2_hu_730596cd8c4630d4.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/11_2_hu_f28beafc197c48a9.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/11_2_hu_fde002e05d04aee9.jpg" width="760" height="346" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="12">12</h1> <p><strong>题目:</strong> Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment</p> <p><strong>作者:</strong> 晏子昂,李志林,何逸楠,王晨汀,黎昆昌,李新浩,曾祥宇,王子磊,王亚立,乔宇,王利民,王毅</p> <p><strong>单位:</strong> 上海人工智能实验室,浙江大学,中国科学技术大学,上海交通大学,中国科学院深圳先进技术研究院,开云足球俱乐部</p> <p><strong>论文简介:</strong> 当前的多模态大语言模型(MLLMs)尽管在广泛的视觉应用中展现出卓越的感知与推理能力,但在处理细粒度或高精度视觉理解任务时仍面临显著挑战。近期的研究主要聚焦于两种策略:其一是开发工具使用能力,其二是将特定视觉任务整合到自回归框架中。然而,这些方法往往以牺牲整体多模态性能为代价,难以兼顾通用性与任务特定性能的平衡。为解决这一问题,并以可扩展的方式提升MLLM在多样化视觉任务中的表现,本文提出了一种新颖的方法——任务偏好优化(Task Preference Optimization, TPO)。该方法利用从细粒度视觉任务中提取的可微分任务偏好,实现了对多模态模型的有效优化。TPO的核心创新在于引入了可学习的任务标记,这些标记在多个任务特定头部与MLLM之间建立了动态连接。通过在训练过程中充分利用丰富的视觉标注数据,TPO不仅显著提升了MLLM的多模态表征能力,还在特定任务上的性能得到了显著增强。此外,TPO支持多任务联合训练,实验结果表明,这种多任务协同机制能够带来超越单一任务训练方法的性能提升,体现了任务间知识迁移的协同效应。我们将TPO方法实例化为两个代表性模型——VideoChat和LLaVA,并通过实验验证了其优越性。与基线模型相比,TPO使多模态性能总体提升了14.6%。更重要的是,MLLM-TPO在多种任务上展现了强大的零样本泛化能力,其性能与当前最先进的监督学习模型相当。综上所述,TPO为多模态大语言模型在复杂视觉任务中的性能优化提供了一种高效且可扩展的解决方案,为未来研究开辟了新方向。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-12" srcset=" /lm/post/2025-04-30-cvpr25-accepted/12_hu_4c6e69a2ee907fe2.jpg 400w, /lm/post/2025-04-30-cvpr25-accepted/12_hu_81cb1bf782f4230.jpg 760w, /lm/post/2025-04-30-cvpr25-accepted/12_hu_1c13f9b0e7f5944c.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-30-cvpr25-accepted/12_hu_4c6e69a2ee907fe2.jpg" width="760" height="298" loading="lazy" data-zoomable /></div> </div></figure> </p> <p><a href="https://mp.weixin.qq.com/s/RKXp_7lzeO9Ad7axKbcShw" target="_blank">查看原文</a></p> 开云足球俱乐部计算机学院大模型中心5篇论文被ICLR 2025录用 https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/ Tue, 15 Apr 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/ <blockquote> <p>ICLR(International Conference on Learning Representations)是人工智能领域中专注于深度学习和表征学习的顶级学术会议之一。自2013年首次举办以来,ICLR迅速成为机器学习研究的前沿平台,尤其在深度学习、神经网络架构、强化学习、生成模型、自然语言处理等领域具有广泛的影响力。</p> <p>开云足球俱乐部计算机学院大模型中心有5篇论文被ICLR 2025录用。</p></blockquote> <h1 id="01">01</h1> <p><strong>题目:</strong> TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning<br> <strong>作者:</strong> Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang<br> <strong>单位:</strong> 开云足球俱乐部、上海人工智能实验室、中科院等<br> <strong>链接:</strong> <a href="https://openreview.net/forum?id=nAVejJURqZ" target="_blank" rel="noopener">https://openreview.net/forum?id=nAVejJURqZ</a><br> <strong>论文简介:</strong> 目前的大多数视频多模态大模型在进行长视频理解时容易关注到与问题不相关的片段,从而经常出现幻觉。是否能够通过将时序定位作为辅助任务,通过准确定位到相关事件的长视频子片段,以提升多模态大模型在长视频问答任务上的表现?针对以上动机,本文提出了TimeSuite,一种利用时间定位数据对短视频MLLMs进行增量微调,从而增强其长视频理解能力的有效方法。具体来说,TimeSuite包含一个处理长视频序列的简单高效框架(VideoChat-T),一个高质量的基于定位的指令调优数据集(TimePro),以及一个精心设计的指令调优任务(Temporal Grounded Caption)。通过联合使用以上组件对MLLMs进行指令微调后,可以有效引导MLLMs在回答问题时关注正确的片段,从而提升长视频问答的准确率。本文具有两个核心亮点:其一,无需依赖任何外部专家解码器,所提出的VideoChat-T可以在时序定位任务中实现专家级的性能,同时保持相当的泛化QA能力和强大的零样本能力。其二,通过引入专家任务的增强了MLLM对长视频的全面理解,验证了通过整合专家任务来增强MLLM综合能力的可行性。实验结果表明,TimeSuite为提高短视频MLLM的长视频理解能力提供了一个成功的解决方案,VideoChat-T相较于原模型在Egoschema和VideoMME等长视频问答测试基准上的准确率分别提高了5.6%和6.8%。此外,VideoChat-T显示了强大的零样本时间定位能力,显著优于现有的最先进的视频多模态大模型。经过进一步微调后,它的性能甚至可以比肩传统的有监督时间定位专家模型。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-01" srcset=" /lm/post/2025-04-15-iclr25-accepted/01_hu_b3d12c09cbdd7fad.jpg 400w, /lm/post/2025-04-15-iclr25-accepted/01_hu_d362119f7329d1c0.jpg 760w, /lm/post/2025-04-15-iclr25-accepted/01_hu_febcbeb47fa1401e.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/01_hu_b3d12c09cbdd7fad.jpg" width="760" height="347" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="02">02</h1> <p><strong>题目:</strong> CG-Bench: Clue-grounded Question Answering Benchmark for Long Video Understanding<br> <strong>作者:</strong> Guo Chen, Yicheng Liu, Yifei Huang, Yuping He, Baoqi Pei, Jilan Xu, Yali Wang, Tong Lu, Limin Wang<br> <strong>单位:</strong> 开云足球俱乐部、上海人工智能实验室、复旦大学、浙江大学<br> <strong>链接:</strong> <a href="https://openreview.net/forum?id=le4IoZZHy1" target="_blank" rel="noopener">https://openreview.net/forum?id=le4IoZZHy1</a><br> <strong>论文简介:</strong> 本文重点讨论了一个面向长视频多模态理解与推理的新型评测基准——CG-Bench,该基准通过构建“线索-问题-答案”三元组体系,深入挖掘视频大模型在复杂情境中实际推理能力,旨在解决当前多选题评测方法带来的“虚高”问题。与传统评测不同,CG-Bench强调模型不仅要回答正确,还必须能够精准定位视频中支撑答案的关键线索片段。评测体系涵盖三类任务:感知型问题评估基础视觉能力,推理型问题要求跨时间整合多模态信息,而幻觉检测则检验模型在缺乏明确线索时是否会作出不可信判断。为进一步提高评估的可信度,CG-Bench引入双重评估机制:白盒评估以IoU衡量模型能否精确定位视频线索,黑盒评估通过Clue Recovery Rate考察模型在处理长视频上下文稀释问题中的能力。此外,该基准还融合了多选与开放式问答形式,并利用人工标注结合启发式规则,提升开放问答的评估质量。数据集包含1219个长视频,覆盖638个三级类别,共计12129个问答对,确保任务的多样性和挑战性。评估结果显示,虽然GPT-4o等主流模型在多选题中表现尚可,但在需要同时完成推理与线索定位的场景下准确率急剧下降,其白盒评估下的acc@IoU仅为4.38%,开放式问答正确率也不足40%。实验发现,模型性能受视频长度、帧数抽样策略和多模态信息影响显著,当前模型在精确检索和利用关键信息方面仍面临巨大挑战,揭示出多模态长视频推理仍是一项亟待攻克的核心难题。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-02" srcset=" /lm/post/2025-04-15-iclr25-accepted/02_hu_4b6007ea5ded8cb1.jpg 400w, /lm/post/2025-04-15-iclr25-accepted/02_hu_ae5eb409b9a89a60.jpg 760w, /lm/post/2025-04-15-iclr25-accepted/02_hu_de5d2148b66f69c8.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/02_hu_4b6007ea5ded8cb1.jpg" width="760" height="319" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="03">03</h1> <p><strong>题目:</strong> SPA: 3D Spatial-Awareness Enables Effective Embodied Representation<br> <strong>作者:</strong> Haoyi Zhu, Honghui Yang, Yating Wang, Jiange Yang, Limin Wang, Tong He<br> <strong>单位:</strong> 中科大、上海人工智能实验室、浙江大学、同济大学、开云足球俱乐部<br> <strong>链接:</strong> <a href="https://openreview.net/forum?id=6TLdqAZgzn" target="_blank" rel="noopener">https://openreview.net/forum?id=6TLdqAZgzn</a><br> <strong>论文简介:</strong> 空间智能是机器人在复杂环境中进行交互和操作的核心能力,增强空间感知对于提高机器人在具身智能任务中的表现至关重要。然而现有方法在三维空间感知上存在局限性,难以有效捕获环境的空间几何结构信息。针对这一问题,本研究提出了视觉表征学习框架SPA,通过增强三维空间感知来提高在具身智能任务中的表示学习能力。SPA从合成室内场景和真实世界机器人交互场景中构建了一个含有相机位姿、深度图以及语义特征图标注的大规模多视角数据集进行训练。训练时,SPA基于多视角图像和相机位姿构建三维体积特征,进而结合掩码技术及可微神经渲染生成RGB图、深度图和语义图,同时通过Eikonal正则化和SDF监督进一步提升三维几何一致性。经过6000 GPU小时训练的SPA在真实环境和八个仿真环境的200余项任务中平均性能优于其他基线方法,其中在高达30.3%的任务中排名第一。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-03-1" srcset=" /lm/post/2025-04-15-iclr25-accepted/03_1_hu_cfc9b6bcd7e1d394.jpg 400w, /lm/post/2025-04-15-iclr25-accepted/03_1_hu_c4da3db7a5ab7bf1.jpg 760w, /lm/post/2025-04-15-iclr25-accepted/03_1_hu_eb043d5946813c7d.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/03_1_hu_cfc9b6bcd7e1d394.jpg" width="760" height="392" loading="lazy" data-zoomable /></div> </div></figure> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-03-2" srcset=" /lm/post/2025-04-15-iclr25-accepted/03_2_hu_743d4620733f098e.jpg 400w, /lm/post/2025-04-15-iclr25-accepted/03_2_hu_6fd6df0797ddf931.jpg 760w, /lm/post/2025-04-15-iclr25-accepted/03_2_hu_c5163664956ee2cc.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/03_2_hu_743d4620733f098e.jpg" width="760" height="383" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="04">04</h1> <p><strong>题目:</strong> Proving Olympiad Inequalities by Synergizing LLMs and Symbolic Reasoning<br> <strong>作者:</strong> Zenan Li(李泽南),Zhaoyu Li(李照宇),Wen Tang(唐文),Xian Zhang(张宪),Yuan Yao(姚远),Xujie Si(司旭杰),Fan Yang(杨凡),Kaiyu Yang(杨凯峪),Xiaoxing Ma(马晓星)<br> <strong>单位:</strong> 开云足球俱乐部、多伦多大学、微软亚洲研究院、北京大学、Meta<br> <strong>链接:</strong> <a href="https://openreview.net/forum?id=FiyS0ecSm0" target="_blank" rel="noopener">https://openreview.net/forum?id=FiyS0ecSm0</a><br> <strong>论文简介:</strong> 近期,以大模型为代表的AI技术在竞赛级别数学证明题的求解上取得了显著进展。以不等式证明为例,这类问题因其巨大的搜索空间而极具挑战性——在证明的每一步,模型可能面临超过一万种潜在的选择,这使得传统方法难以高效解决。针对这一难题,开云足球俱乐部软件所科研团队提出了神经符号式不等式证明系统,通过深度融合神经网络与符号推理的优势,在奥林匹克级别的不等式证明任务中展现了卓越的性能。目前,该系统在标准测试集上的表现已超越人类金牌选手水平:人类金牌选手平均能解答15题(共20题),而我们的系统成功解出16题,显著领先于GPT和DeepSeek等主流AI模型。这一突破不仅验证了神经符号方法在复杂数学推理中的强大潜力,也为AI在自动定理证明、教育辅助和科研探索等领域的应用开辟了新的可能性。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-04" srcset=" /lm/post/2025-04-15-iclr25-accepted/04_hu_38ab42c5a7a94fbf.jpg 400w, /lm/post/2025-04-15-iclr25-accepted/04_hu_445968fae589ebc6.jpg 760w, /lm/post/2025-04-15-iclr25-accepted/04_hu_f6eef80a78281444.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/04_hu_38ab42c5a7a94fbf.jpg" width="760" height="410" loading="lazy" data-zoomable /></div> </div></figure> </p> <h1 id="05">05</h1> <p><strong>题目:</strong> MeteoRA: Multiple-tasks Embedded LoRA for Large Language Models<br> <strong>作者:</strong> Jingwei Xu(徐经纬)、Junyu Lai(赖俊宇)、Yunpeng Huang(黄云鹏)<br> <strong>单位:</strong> 开云足球俱乐部<br> <strong>链接:</strong> <a href="https://openreview.net/pdf?id=yOOJwR15xg" target="_blank" rel="noopener">https://openreview.net/pdf?id=yOOJwR15xg</a><br> <strong>论文简介:</strong> 在大语言模型领域中,“预训练 + 微调范式”已经成为了部署各类下游应用的重要基础,而其中低秩适应技术(LoRA)是大模型参数高效微调中最流行的方法之一,而在搭载多个 LoRA 适配器的单一大语言模型上,自主任务感知和切换方面一直存在挑战。在此背景下,本文提出了一个可扩展、高效的多任务嵌入架构 MeteoRA。该框架通过引入全模式混合专家模型(MoE)的方式,将多个特定任务的 LoRA 适配器和一个路由组件嵌入到基座模型上,从而让基座模型具有了根据用户的输入自适应选择合适的适配器处理输入的能力,进而能够同时解决多个正交的下游任务。该框架还包括了一个新颖的混合专家模型前向加速策略,根据多 LoRA 适配器模型结构的特殊性实现了基于 PyTorch 和 Triton 的定制化算子,从而规避了经典 MoE 架构中路由的 for 循环实现的效率瓶颈,文中实验表明该加速策略能够实现平均意义上 4 倍的加速效果。此外,本文发现配备了 MeteoRA 框架的大语言模型在处理复合问题时具有卓越的性能,可以在一次推理中高效地解决十个串行输入的不同问题,此外还观察到在复合问题中,路由组件在不同的输入输出的部分中具有明显的倾向性,进而证明了该方法具备自适应的 LoRA 适配器切换能力。</p> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="img-05" srcset=" /lm/post/2025-04-15-iclr25-accepted/05_hu_a01150751f9e65c3.jpg 400w, /lm/post/2025-04-15-iclr25-accepted/05_hu_ff7258d1b845c92.jpg 760w, /lm/post/2025-04-15-iclr25-accepted/05_hu_3b477fc5bdc5809c.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-04-15-iclr25-accepted/05_hu_a01150751f9e65c3.jpg" width="760" height="224" loading="lazy" data-zoomable /></div> </div></figure> </p> <p><a href="https://mp.weixin.qq.com/s/iG5D5n4EXy1MrG4riTt1ag" target="_blank">查看原文</a></p> 书生 InternVideo2.5 开源,万帧长视频准确“大海捞针”,精细感知真实时空关系 https://cs.nju.edu.cn/lm/post/2025-02-11-internvideo-25-release/ Tue, 11 Feb 2025 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2025-02-11-internvideo-25-release/ <blockquote> <p>近日,上海人工智能实验室(上海AI实验室)联合开云足球俱乐部、中科院深圳先进技术研究院共同开源视频多模态大模型书生InternVideo2.5。 在视频理解领域,全新升级的InternVideo2.5取得时间跨度与细粒度的双维提升,“记忆力”较前代模型扩容6倍,具备万帧长视频中精准“大海捞针”能力,AI视频理解既能“短平快”,亦可“长深细”。 让AI得以更准确“看懂”纷繁的真实世界,更为多领域应用注入新质生产力。书生InternVideo系列模型此前已应用于中央广播电视总台巴黎奥运会直播,准确定位运动员的得分瞬间及相关慢动作,显著提升电视节目编创效率。基于长视频理处理能力的增强,升级后的InternVideo2.5将为自动驾驶、监控安防、虚拟现实等应用提供更高效的AI技术支持。</p></blockquote> <p>开源链接:<a><a href="https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5" target="_blank" rel="noopener">https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5</a></a> <br>论文链接:<a><a href="https://arxiv.org/abs/2501.12386" target="_blank" rel="noopener">https://arxiv.org/abs/2501.12386</a></a> <br>Huggingface链接:<a><a href="https://huggingface.co/OpenGVLab/InternVideo2_5_Chat_8B" target="_blank" rel="noopener">https://huggingface.co/OpenGVLab/InternVideo2_5_Chat_8B</a></a></p> <video controls poster="/lm/post/2025-02-11-internvideo-25-release/cover.jpg" > <source src="https://cs.nju.edu.cn/lm/post/2025-02-11-internvideo-25-release/InternVideo2.5_demo.mp4" type="video/mp4"> </video> <h3 id="专注精细时空理解长视频高效感知">专注精细时空理解,长视频高效感知</h3> <p>上海AI实验室持续布局视频多模态大模型(Video MLLM)技术探索,自2022年起,先后推出并开源通用视频基础模型书生InternVideo、视频理解大模型书生<a href="https://mp.weixin.qq.com/s?__biz=Mzg5NDc0MTUxMA==&mid=2247533491&idx=1&sn=cb9ac56e0e8aafa03f089d22305420bb">InternVideo2</a>及以对话为中心的视频理解新范式<a href="https://mp.weixin.qq.com/s?__biz=MzkzNzIyNDg4MQ==&mid=2247544884&idx=1&sn=34c6ea5e7a435a238f78177f95000a80&token=230509976&lang=zh_CN">VideoChat</a>。在视频基础视觉表征学习和多模态对话的技术积累上,全新升级InternVideo2.5专注于细微时空理解,将视觉感知和语言理解深度融合,实现了长视频理解能力突破。</p> <p><strong>InternVideo2.5能力特征:</strong></p> <ul> <li>超长视频处理: 万帧精确定位,视频处理长度较此前版本提升6倍(3000-10000帧)。</li> <li>细粒度感知: 准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。</li> <li>多项视觉能力融合: 不仅能进行通用视频问答,还能完成目标跟踪、分割等专业视觉任务。</li> </ul> <div class="img-full-width"> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="image" srcset=" /lm/post/2025-02-11-internvideo-25-release/figure_hu_a50f22fad0dc27e5.jpg 400w, /lm/post/2025-02-11-internvideo-25-release/figure_hu_edbee0977f0f6f4f.jpg 760w, /lm/post/2025-02-11-internvideo-25-release/figure_hu_db8b68f7be8654cc.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2025-02-11-internvideo-25-release/figure_hu_a50f22fad0dc27e5.jpg" width="760" height="217" loading="lazy" data-zoomable /></div> </div></figure> </p> </div> <p><span style="font-size: 0.8em; line-height: 0.2; color: rgb(136, 136, 136);">左图:InternVideo2.5与其它80亿参数开源模型在MVBench和VideoMME上的评测性能对比;右图:InternVideo2.5可准确对视频进行跟踪分析。</span></p> <h3 id="lrc结合渐进训练破解长视频建模技术瓶颈">LRC结合渐进训练,破解长视频建模技术瓶颈</h3> <p>针对长视频和精细化视觉任务,传统视频多模态大模型面临显著技术瓶颈,难以在超长视频中准确追踪目标物体,或在复杂场景下识别细微的时空关系。以“万帧大海捞针”任务为例,传统方法需耗费大量计算资源,且定位精度不足,导致视频分析效率低下,限制了该类大模型在工业级场景中的应用。 为此,上海AI实验室联合团队基于自研的<a href="https://mp.weixin.qq.com/s?__biz=MzkzNzIyNDg4MQ==&mid=2247559641&idx=2&sn=f46a86df07b9ca5a0bdc13f30730e23f">书生·万象(InternVL2.5)</a>基座模型,提出长时丰富上下文建模(LRC)技术,为破解当前瓶颈提供了解题思路。</p> <p><strong>长时丰富上下文建模技术 (LRC)两大核心模块:</strong></p> <ul> <li> <p>分层上下文压缩 (HiCo): 巧妙地利用长视频中视觉信息的冗余性,对视频内容进行分层压缩。实验结果显示,在HiCo的作用下,InternVideo2.5可在万帧视频中准确找到目标帧,在开源模型中综合领先。</p> </li> <li> <p>任务偏好优化 (TPO): TPO通过将来自各种细粒度视觉任务(例如目标跟踪、分割、时间定位等)的标注信息,转化为可微分的任务偏好,指导模型自学习,将InternVideo能力拓展至各类专业视觉任务。</p> </li> </ul> <p>同时,联合团队以超过30万小时的视频语料,使用渐进式多阶段训练方案,对InternVideo2.5进行了预训练,保证其视频能力的获取。其中,训练语料涵盖视觉文本对齐数据、长视频数据和特定任务视觉数据类型,为模型学习提供丰富信息。延续书生·万象采用的渐进式多阶段训练方案,逐步提升模型的细粒度感知和时间理解能力:一阶段进行基础学习,实现任务识别指令调整和视频语言对齐训练;二阶段通过集成和训练特定任务组件以及视觉概念预训练,增强视觉理解能力;三阶段则在混合语料库上进行多任务训练和指令调整,优化所有模型组件。这一方案实现了模型“从小到大”、数据“从粗到精”的有效优化,使成本更低、性能更高。</p> <p><a href="https://mp.weixin.qq.com/s/kId4bxMbbR4kT2Q_HXCpsg" target="_blank">查看原文</a></p> 中国科学院学部“大模型/AIGC的健康发展与赋能赋智”科学与技术前沿论坛在南京召开 https://cs.nju.edu.cn/lm/post/2024-01-16-healthy-development-and-empowerment-of-large-models-aigc/ Tue, 16 Jan 2024 00:00:00 +0000 https://cs.nju.edu.cn/lm/post/2024-01-16-healthy-development-and-empowerment-of-large-models-aigc/ <div class="img-full-width"> <p> <figure > <div class="flex justify-center "> <div class="w-100" ><img alt="image" srcset=" /lm/post/2024-01-16-healthy-development-and-empowerment-of-large-models-aigc/image_hu_2328bc696d26508c.jpg 400w, /lm/post/2024-01-16-healthy-development-and-empowerment-of-large-models-aigc/image_hu_4acc13ce51d786c0.jpg 760w, /lm/post/2024-01-16-healthy-development-and-empowerment-of-large-models-aigc/image_hu_ed6c64a9ba8630c8.jpg 1200w" src="https://cs.nju.edu.cn/lm/post/2024-01-16-healthy-development-and-empowerment-of-large-models-aigc/image_hu_2328bc696d26508c.jpg" width="760" height="250" loading="lazy" data-zoomable /></div> </div></figure> </p> </div> <p>中国科学院学部第155次科学与技术前沿论坛—“大模型/AIGC的健康发展与赋能赋智”于2024年1月6-7日在南京召开。本次论坛由中国科学院学部主办,中国科学院学部学术与出版工作委员会、中国科学院信息技术科学部常务委员会承办,开云足球俱乐部、东南大学和《中国科学》杂志社协办,中国科学院院士吕建、黄如和中国工程院院士王坚共同担任论坛主席。中国科学院学部学术与出版工作委员会主任包信和院士出席论坛,中国科学院学部工作局周德进、教育部教师工作司任友群、东南大学黄如院士、江苏省科技厅徐光辉出席论坛开幕式并致辞。包信和、吕建、黄如、谭铁牛、鄂维南、徐宗本等6位中国科学院院士,高文、杨善林等2位中国工程院院士,以及来自中国科学院、开云足球俱乐部、东南大学、香港科技大学、科大讯飞、华为、阿里、小米、美的、吉利汽车研究院等87所高校、科研院所和企业的近300位专家参加了本次论坛,超过半数为45岁以下青年科学家。</p> <p>论坛分为主旨报告和专题报告两个环节,在主旨报告环节,谭铁牛院士介绍了生成式人工智能的发展态势,高文院士介绍了鹏城脑海预训练大模型底座与开源合作,杨善林院士介绍了AIGC及其科学基础,鄂维南院士介绍了深度学习的基本原理,徐宗本院士介绍了关于大模型的数理基础研究,英国皇家工程院院士、香港科技大学首席副校长郭毅可教授介绍了大模型的内涵科学问题,科大讯飞、华为、阿里的人工智能专家介绍了大模型的应用与创新实践。在专题报告环节,与会专家围绕“大模型/AIGC的发展前沿与协同创新”“大模型/AIGC助力科技发展”“大模型/AIGC助力实体经济”“大模型/AIGC助力教育变革”“大模型/AIGC与智能化基础软件”“大模型/AIGC与算力基础设施、及芯片技术”“大模型/AIGC安全可控、隐私保护与低成本部署”“大模型/AIGC的治理与管理”等8个专题进行了报告,报告结束后,与会专家学者还围绕专题进行圆桌提问交流。</p> <p>经过两天的交流研讨,与会专家就大模型与人工智能发展的关键技术与挑战、应用场景与产业赋能赋智、法律道德风险等进行了前瞻研讨,形成了一些初步共识,论坛结束后将以简报、专报等形式发布论坛成果。</p> <p><a href="http://ad.cas.cn/xbdt2022/202401/t20240116_5000694.html" target="_blank">查看原文</a></p>