2025年11月8日,中国东南亚嘉里青年科学家论坛暨观澜大模型高峰论坛继续开展,第二天的议程聚焦“统一多模态、可信评测、智能体与系统落地、软件工程与行业场景”。来自中国科学院自动化研究所、南京邮电大学、中国科学技术大学、哈尔滨工业大学、复旦大学、浙江大学、北京航空航天大学与中国电信的青年学者与产业专家,依次分享最新研究进展。从大模型如何“看得更准、想得更清、做得更稳”,到工具链、评测与工程闭环的协同演进,一系列方法与实践路径集中亮相。南京大学智能科学与技术学院副院长单彩峰出席论坛并致辞。论坛由南京大学智能科学与技术学院准聘副教授吉炜、准聘助理教授刘佳恒、王博岩、张震等主持。

单彩峰代表智能科学与技术学院欢迎各位专家学者们的到来。他提到,苏州校区作为南京大学最年轻的校区,自启用以来,始终聚焦新工科发展。智能科学与技术学院作为首批建设的四个学院之一,重点发展感知和视觉智能、具身和空间智能、应用和科学智能、认知和决策智能、混合和类脑智能等前沿方向。他指出,学院目前已汇聚近50位优秀教师,人才队伍建设卓有成效。他诚挚邀请与会专家在未来能与学院进行深度交流,共同为构建“更稳、更合规、更高效”的大模型生态贡献力量。

专家报告

徐常胜 特聘研究员(中国科学院自动化研究所)|开放世界的多模态大模型研究与应用
面对大模型在开放世界理解复杂场景的挑战,徐常胜指出,必须重构视觉与语言的关系。现有主流方案往往将视觉信息强行对齐到语言空间,导致视觉细节大量丢失。为此,报告提出了“Libra”的系统性解决方案,其核心思想是在大型语言模型上搭载解耦的视觉系统。该方案遵循三大原则:首先,建立独立的“视觉专家”模块,以保留视觉信息的完整性和独特性;其次,设计高效的跨模态条件路由,让视觉和语言按需进行“对话”而非“捆绑”;最后,通过统一的离散自回归预训练,强化视觉系统自身的表征能力。在模型应用层面,针对下游任务中普遍存在的数据分布差异和标注稀缺问题,团队进一步提出了创新的迁移学习策略。一方面,采用“课程学习”式的无监督迁移,让模型从简单样本开始“学起”,逐步适应复杂场景;另一方面,通过“提示微调+知识蒸馏”的小样本适配方案,在保留预训练知识的同时高效适应新任务。实验证明,该系列方法在视觉定位和细节识别等任务上表现优越,并在多个公开数据集及工业质检等真实场景中展现了其稳健的落地能力。

鲍秉坤 副院长(南京邮电大学计算机学院/软件学院/网络空间安全学院)|面向工业操作场景的视频行为理解
鲍秉坤指出,工业场景下的视频分析面临独特挑战:不同于日常视频,工业视频通常视角移动频繁、人机交互复杂、工序冗长且高度依赖长期时序理解。为此,团队构建了“内容定位-异常检测-未来预测”的工业级视频分析闭环方案。在内容定位上,团队提出“类人两阶段定位”策略,先通过特征解耦进行粗粒度实例挖掘,再结合跨模态交互实现精细化边界定位。在异常检测上,为解决工业异常(如装错零件、操作位置偏差)的隐蔽性,团队创新性地将“文本操作手册”作为外部知识与视频内容进行跨模态融合,显著提升了对细粒度异常的识别能力。在未来行为预测上,考虑到工业操作的强意图性与实时性要求,团队提出了“意图感知+自适应多模态采样”方法,在有效引导预测的同时,极大降低了计算开销。该系列方案已在MAD等公开数据集和真实工厂环境中得到验证。

常晓军 教授(中国科学技术大学)|多模态大模型:从跨模态理解到生成与推理
常晓军系统地描绘了“从理解决策到融合生成”的统一多模态智能蓝图。他指出,多模态智能的发展需经历“单点感知→动态认知→协同感知”三个阶段。在此框架下,团队围绕“理解-融合-推理-生成”的完整链路,取得了一系列进展:在理解层面,通过HC-LLM和ProAgent模型,实现了更精准的时序理解与更高效的智能体协同;在融合层面,借助RealignDiff、Visual RAG及LongVLM等技术,实现了从粗到细的跨模态语义对齐和长视频的深度理解;在推理与生成层面,通过Ground-R1强化学习构建“有证据的推理链”,以TGS-Agent实现“先推理、后分割”的可追溯流程,并用StoryAgent保障视频生成的故事一致性与逻辑完整性。这一系列工作共同勾勒出一条“既能理解也能生成”的统一多模态实践路径,推动多模态智能从“看懂世界”迈向“参与世界”。

王翔 教授(中国科学技术大学)|MiniOneRec: 开源生成式推荐框架
王翔指出,推荐系统正从传统的“召回-粗排-精排”级联式范式,向端到端的“生成式”范式演进。传统范式存在算力碎片化、架构断层等问题,而生成式推荐则通过将推荐任务转化为序列生成问题,实现了流程一体化。其核心在于引入“语义ID”,将海量、无序的物品ID空间(Item ID)压缩为更小、且包含语义信息的“可解空间”(Semantic ID)。为此,团队推出了首个完整开源的生成式推荐框架MiniOneRec。该框架基于开源大语言模型(如Qwen2.5)和公开数据集,完整实现了从“推荐请求生成”到“候选物品生成”,再到“多样性筛选”与“强化学习优化”的全链路。框架的一大亮点是提供了一套完备的“语义ID工具箱”(如RQ-VAE),显著提升了ID的压缩效率和语义保真度。实验证明,MiniOneRec不仅验证了推荐领域的“规模法则”(模型越大、效果越好),也在跨领域泛化和冷启动场景中展现出优越性能,为学术研究与工业复现提供了坚实的基座。

俞俊 教授(哈尔滨工业大学(深圳))|面向低空具身智能体的多模态感知与自主决策
俞俊指出,面向万亿级的低空经济,具身智能体必须解决“看得清、想得明、反应快”三大核心问题。在感知层面,为摆脱传统传感器在功耗、重量上的限制,团队聚焦于轻量化的单目/视频深度感知,并通过“仿真到真实”的迁移学习与几何一致性建模,构建了高效的具身视觉基础模型,尤其在电线等细微障碍物的识别上表现突出。在认知推理层面,针对大模型难以部署、小模型能力不足的现状,报告提出了“大模型做高层规划、小模型做动作映射”的快慢协作思路,并引入工作记忆机制,以实现对长指令的理解和复杂任务规划。在高速自主决策层面,为应对传统强化/模仿学习在高速场景下的局限性,团队开创性地提出了“物理可微”的决策方法,通过将物理约束(如碰撞、平滑性)融入可微的轨迹优化过程,并结合动态时间分配,在保障安全的前提下,显著提升了无人机高速避障的成功率与稳定性。

曹艺馨 教授(复旦大学)|模型效用定律:迈向可泛化评估之路
面对大模型能力近乎无限与评测数据集有限之间的核心矛盾,曹艺馨提出了“可泛化评估”的新范式,旨在通过有限的测试集“预测”模型尚未表现出的能力。为此,报告引入了“模型效用定律”与“模型效用指数(MUI)”这一核心评估框架。该定律认为,评估模型不仅要看其任务表现(performance),更要衡量其达成表现所付出的“努力”(effort)。MUI通过量化“完成任务所需激活的能力 / 模型全部能力”来刻画这种“努力程度”,实现了对模型综合能力的更深度诊断。基于MUI,报告将模型优化过程划分为“进化、积累、粗化、崩溃”四个方向,为训练过程提供了清晰的诊断视角。此外,该框架还催生了两大应用:一是将性能与MUI的比例作为PUR指标,能够更稳定、全面地进行模型比较;二是以MUI作为多样性指标的评测集覆盖采样策略,能在显著缩小评测规模的同时,保持与全集评测结果的高度一致性,为“高效、稳健、可泛化”的评估体系提供了全新思路。

张宁豫 副教授(浙江大学)|知识驱动大模型智能体
张宁豫指出,当前大模型智能体落地面临的核心挑战是“知识缺失”与“交互常识不足”。为此,报告提出了“知识驱动”的三步走解决方案:第一步,通过高质量数据注入知识。针对智能体轨迹数据稀疏的问题,团队提出利用人类的程序化先验知识(procedural priors)来合成并筛选高质量的轨迹数据(如KnowPrompt项目),实验证明该方法能显著提升智能体的规划与执行能力。第二步,教会智能体识别“知识边界”。通过训练模型自主判断(如KnowSelf、KnowRL项目),使其学会何时直接回答、何时启动“思维链”深度思考、何时借助外部工具(检索/API调用),从而实现更高效、可靠的决策。第三步,构建轻量化、可插拔的记忆系统。针对现有记忆模块效率低下的问题,团队研发了LightMem等系统,通过主动过滤、主题切割与离线更新等机制,在保持全局信息一致性的同时,显著降低了Token消耗与API调用开销。该系列方案已在数据科学与水下导航(OceanGPT)等复杂场景中得到成功应用。

杨健 副教授(北京航空航天大学)|代码基座大模型与代码智能体
杨健指出,代码大模型正从单一的“模型能力”比拼,走向更为复杂的“工程系统能力”构建。报告系统回顾了代码模型从编码器(Encoder-Only)到生成式预训练(GPT-like),再到当前高质量微调与开源繁荣的技术演进路径。在核心技术层面,报告强调了以Pass@k指标结合单元测试进行“以用促评”的重要性,并针对长序列代码任务,介绍了FIM(中间填充)、NTP/MTP并行解码与扩散式生成等关键优化技术。杨健指出,多语言知识迁移与多智能体协作是代码智能体发展的两大核心趋势。前者旨在利用Python等优势语言的知识来提升模型在其他语言(如Verilog、Rust)上的表现,而后者则致力于构建一个“智能体 × 强化学习 × 环境反馈”的闭环系统。在这个系统中,不同的智能体将扮演产品经理、架构师、程序员、测试工程师等多样化角色,通过协同作业与持续迭代,系统化地完成从“代码补全”到“测试生成”,再到“仓库级操作”的复杂软件工程任务,最终实现从“能写代码”到“会写软件”的跨越。

张劼 资深算法专家(中国电信人工智能研究院)|基于大模型的表格理解技术探索与实践
面对企业级应用中“超大表格、多表关联、复杂报表”三大核心痛点,张劼分享了一套完整的技术解决方案。传统方法或大模型幻觉率高,或工程方法效率低下,难以满足工业级需求。为此,团队构建了从数据、模型到应用的全链路实践。在数据与评测层面,团队不仅开源了业内高难度的表格问答基准(T2R-bench),创新性地提供了模型的“思考过程”标注,还针对工业界极度缺乏高质量多表关联数据的问题,构建了企业级数据集。在模型层面,团队推出了业界首个基于强化学习的表格理解模型,通过“先选区域、再找答案”并融合“区域+答案”双重奖励,显著提升了模型对表格结构的解析能力。此外,还通过创新的代码相似度奖励强化学习,提升了代码生成任务的准确率。这一系列技术已成功应用于自研的智能办公助手与现金流分析助手中,实现了从“函数公式自动生成”到“多维度对比分析”,再到“专业报告一键生成”的端到端赋能,为解决真实商业场景中的复杂数据分析问题提供了强大工具。
本次论坛圆满落幕。与会专家普遍认为,统一范式、可信评测与软硬协同将成为大模型迈向“稳、合规、高效”的主线;从“模型能力”到“系统能力”的协同演进,正催生更多可落地、可复现、可开放的生态与方案。
