2025年10月28日,山西大学副教授马亿和天津大学智能与计算学部副研究员汤宏垚分别做了主题为《Unlock Scaling Potentials in Deep Reinforcement Learning: A Data, Network, and Training Budget Perspective》及《Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model》的报告,本次讲座由我院助理教授杨天培主持。

马亿指出,近年来,"规模定律"(Scaling Laws)概念支撑了计算机视觉和自然语言处理领域的进步,尽管这些领域已见证变革性突破,但规模定律在深度强化学习(RL)中的应用仍相对未被充分探索。马亿老师系统地从三个关键维度——数据、网络和训练预算——分析了规模策略,通过综合这些策略,不仅突出了它们在推进深度强化学习中的协同作用,还为未来研究提供了路线图。

汤宏垚针对大语言模型强化微调(RFT)中“在线策略”方法无法复用历史数据、难以高效扩展的问题,提出了一种名为ReMix的“离线策略”新方法。ReMix创新性地融合了混合策略梯度、KL凸约束和策略再生机制,既能高效利用历史数据加速训练,又能保证模型稳定收敛。

互动环节,在座师生积极提问,两位专家耐心解答,现场气氛热烈。


本次讲座圆满结束。
