2025年11月7日,“中国东南亚嘉里青年科学家论坛暨观澜大模型高峰论坛”在南京大学苏州校区成功举办。来自新加坡国立大学、南洋理工大学、牛津大学、香港科技大学、澳门大学、微软亚洲研究院等机构的海内外青年学者围绕大模型的理论前沿、工程实践与产业落地开展深入交流,共商区域协同创新与高质量发展。南京大学校长助理,南京大学苏州校区党工委常务副书记姜田出席论坛并致辞。论坛由南京大学智能科学与技术学院准聘副教授吉炜、准聘助理教授刘佳恒、王博岩、张震等主持。

姜田代表南京大学苏州校区对海内外专家学者的到来表示热烈欢迎。他提到,大模型技术作为新一代人工智能的核心引擎,作为人工智能的基础设施,正在重塑国家战略、科学研究、产业应用乃至社会生活的方方面面。南京大学致力于推动智能科学与多学科的深度融合,在感知智能、具身智能、认知决策等方向开展前沿探索。他表示,本次论坛依托计算机软件新技术国家重点实验室,积极构建“产学研用”一体化生态,结合大模型为代表的生成式人工智能,对自然语言处理、知识获取、跨模态理解与生成等领域带来深刻变革,助力苏州校区打造新工科高地。他强调,本次论坛汇聚了来自中国、新加坡、英国、澳大利亚等国家和地区的顶尖学者与青年科学家,共同探讨大模型与多模态智能的未来路径,聚焦大模型前沿、可信安全与工程落地,旨在联动中国与东南亚青年学者,促进跨区域协同创新与高质量发展。他期待,本次论坛的举办能成为中国与东南亚地区青年学者促成国际交流合作的起点,推动中国与东南亚乃至全球在人工智能领域的深度对话与务实合作,共同构建一个更开放、包容、智能的未来。

专家报告

Bingsheng He 教授(新加坡国立大学) Towards Large Reasoning Models as Judge
Bingsheng He 围绕“LLM 作为评审”的新趋势指出,2025 年或成为“代理式 AI(Agentic AI)”的关键节点:模型从单纯“答题者”走向在代码评测、学术评审等场景中承担“判官/评审”。他系统揭示了大模型会决策时受到从众(Bandwagon)、权威(Authority)、位置(Position)与干扰(Distraction)等偏见的影响,并通过偏置注入基准发现:即便具备链式思维的“推理模型”在面对伪证据时仍会出现“伪推理偏置”,鲁棒性显著下降。为了解决大语言模型的偏见和稳健性问题,该团队的研究工作包括了“偏置自反思提示”等偏见缓解技术,以及采用“分组奖励”机制的强化学习策略,显著提升复杂推理场景下的稳健性与效率。面向未来,他倡议软硬件协同实现能效“百万倍级”提升,并呼吁构建更透明、可持续的学术生态以推动负责任的 AI 评审与开放合作。

Wei Lu 教授 (南洋理工大学) Small Language Models: From Pre-training to Post-training
Wei Lu 以“可负担、可复现、可扩展”的小模型路线为主线,分享团队在有限预算(五万新币)下从零预训练 11 亿参数 TinyLlama 的实践:训练配置与损失全程公开、许可证开放,社区月度下载量达百万级。在后训练方面,他强调“结构化推理流程”优于一味拉长思维链(CoT):通过表格化/多维度提示引导模型逐步、可检视地推理。实证显示,对小模型而言,充足且高质量的指令监督是强化学习成功的前提,否则易陷入“冗长套路”。他还讨论了小模型的规模下限、蒸馏与压缩的可行性,倡议以“小”博“大”,探索具备合理推理能力所需的最小模型规模,在能效与可复现性上形成更优解。

Jindong Gu 研究员(牛津大学/Google) Responsible Visual Generative AI
Jindong Gu 聚焦于大规模扩散模型的安全与可靠性问题,提出从“发现-约束-溯源”的全链路思路:在生成前/过程中引入可扩展的安全对齐与内容过滤机制,抑制有害内容生成;通过在潜空间中学习可解释的语义方向,对暴力、歧视等敏感属性进行细粒度可控抑制/增强,同时避免对无关属性的纠缠;并基于分类器与表征重构等技术,在不访问模型权重的前提下实现生成内容的源头识别。报告同时讨论了“多模态语用越狱”(Multimodal Pragmatic Jailbreak)的途径与对策,以及文本水印等对模型生态的潜在风险。该系列工作是一套旨在促进整个AIGC生态健康发展的“组合拳”,为构建更安全、可信、负责任的视觉内容生成生态提供了系统性的技术方案。

Long Chen 助理教授 (香港科技大学) The Interplay of Understanding and Generation in Multimodal AI
Long Chen 指出,当前统一多模态模型在“高层语义理解”与“低层空间推理”之间仍存显著鸿沟。团队从三方面推进:其一,在冻结的多模态大模型上附加即插即用分割头,利用注意力图中的空间线索,以极低计算增量增强像素级理解;其二,在文本引导图像编辑中提出 FlowCycle,通过流匹配的循环一致性约束保留背景细节,并结合“源一致性”编辑确保主体与环境协调;其三,揭示噪声在扩散模型分类中的关键作用,优化噪声匹配可显著提升判别稳健性。此外,团队构建了以推理为中心的基准GIR-Bench,旨在系统性评估统一模型中“理解”与“生成”能力的一致性。该基准通过定制化的评估流程避免了“以大模型为裁判”的主观偏差,并揭示了当前顶尖模型在这两项能力之间仍存在显著鸿沟。

Yang Deng 助理教授 (新加坡管理大学) Towards Human-centered Proactive Conversational Agents
针对当前对话 AI 被动、不可控的局限,Yang Deng 提出构建“以人为本的主动式(Human-Centered Proactive)”对话智能体。该框架包含三大支柱:智能(主动规划)、适应性(个性化交互)与稳健性(可信安全)。在智能层面,他将多轮对话建模为马尔可夫决策过程(MDP),并设计了“小模型作规划、大模型作执行”的架构;通过监督学习初始化后,再利用 LLM 作为奖励模型与用户模拟器,构建强化学习闭环以持续优化策略。在适应性层面,为实现对不同用户的个性化响应,团队引入“大五人格”与“决策风格”等心理学框架,构建了多样化的虚拟用户进行多智能体仿真,从而提升模型的泛化能力与评测的有效性。在稳健性层面,为解决模型的“过度自信”与幻觉问题,研究聚焦于“知识边界”的界定,将其划分为四种类型,并结合拒答微调、自我反思等方法,让模型能意识到其知识边界。实验证实,该框架下的智能体在生成对话时能保持人格一致性,且赋予人格后,其对话策略更富同理心与探索性。

Zhedong Zheng 助理教授 (澳门大学) Cognitive Biases in Large Multimodal Models: Unveiling Challenges and Solutions
Zhedong Zheng 借鉴心理学与神经科学的经典现象,系统剖析多模态模型中的认知偏见:在“斯特鲁普效应”情境下模型易受文本覆盖误导;“韦伯—费希纳效应”揭示识别阈值受熟悉度影响,导致跨文化识别下降;“裂脑实验”启示模型可能存在类似两半球的结构性偏向。为提升可依赖性,他提出以对同一问题进行多次采样并对答案进行聚类/计算熵来表征不确定性:答案越分散,不确定性越高,可触发审慎机制。该指标无需访问模型权重,易集成,可作为黑箱度量并用于文本-图像检索的重排(如词项遮蔽组合比较)。他进一步指出,可以通过数据增强、专家混合(MoE)与对抗性提问,构建“发现—度量—干预”的闭环,提升稳健性与可解释性。

Kaitao Song 研究员(微软亚洲研究院) The Beauty of Model Ochestration
Kaitao Song 分享从“增强单一模型”走向“构建灵活模型系统”的两条主线:其一,“模型链(Chain-of-Model)”——以大语言模型作为控制器,先做意图解析与任务规划,再从模型/工具库检索与选择合适组件,在本地或远端端点执行并汇总与对比结果,形成可追溯的多步依赖图;该编排范式与已发表的 HuggingGPT 思路相通,并强调与社区资源的开放式连接。其二,“通道模型(Channel Model)”——将表示维度划分为多条“通道链”,在注意力/Transformer 中按链分配多头以保证信息流闭合,支持链级独立训练、按需激活与渐进扩展;通过链内归一化与按链计算目标避免跨链信息混淆,可在同一模型内导出不同规模的计算路径,实现参数复用与弹性推理。该路线已在线性注意力与 Transformer 中完成原型化验证,展示在等配置下以更少参数或更高维度取得竞争性结果的潜力。

Hao Fei 高级研究员 (新加坡国立大学) Toward Unified and Advanced Multimodal Generalist”
Hao Fei 提出构建多模态大模型的两条主线:一是“统一”,以单一架构覆盖更多模态与任务范式(理解、生成、编辑等);二是“进化”,在更高维度、更长序列与更复杂推理上持续突破。代表性工作包括:实现任意模态到任意模态转换的统一接口 NExT-GPT;将像素级理解、生成与编辑整合于单一框架的 Vitron;以及通过扩散 Transformer 实现音视频同步生成的 JavisDiT,并从方法论上提出语义等价分词以加强视觉与语言的底层对齐。为评估“通用性”,提出 General-Level/General-Bench,以“任务广度+协同能力”为核心,构建从“专才”到“跨模态加成”的五级范式,并用“超越专才”和“谐调平均”等指标量化协同增益。大规模评测显示,当前尚无模型达到最高级别。未来应“做宽”亦“做深”,在扩展任务与模态覆盖面的同时,构建更优的统一式架构与跨范式协同机制。
与会学者一致认为,大模型的发展正从“能做什么”迈向“做得更稳、更合规、更高效”,在未来将以统一范式、可信安全与软硬协同作为主线进行前沿探索。
