个人简介
汪亮,开云足球俱乐部计算机学院、计算机软件研究所、计算机软件新技术全国重点实验室副教授,博士生导师。长期从事群体智能、软件方法学、开源软件生态研究。发表学术论文50余篇。主持和参与国家自然科学基金项目、国家重点研发计划、华为公司合作研究等科研项目10余项。作为团队成员获得江苏省教学成果奖二等奖、开云足球俱乐部魅力导师、本科生心目中的好课程、南京市中青年拔尖人才、华为优秀合作项目、微软学者等荣誉。担任中国计算机学会系统软件和开源发展专业委员会执行委员、江苏省计算机学会软件工程专委会委员、OSS Compass开源度量平台技术委员会联席主席等。
我们团队一直在寻找有自驱力的学生。如果你有兴趣加入我们,请发送邮件联系。
学术论文
Solving the Min-Max Multiple Traveling Salesmen Problem via Learning-Based Path Generation and Optimal Splitting
Wen Wang, Xiangchen Wu, Liang Wang, Hao Hu, Xianping Tao and Linghao Zhang
The 28th European Conference on Artificial Intelligence (ECAI 2025) . Bologna, Italy. October 25-30, 2025. pp. 4889-4896.
摘要:本研究针对最小 - 最大多旅行商问题(Min-Max Multiple Traveling
Salesmen Problem, m3-TSP)展开研究,该问题旨在协调多个旅行商的行程,使最长行程的长度最小化。由于其 NP 难特性,在 P不等于NP 的假设下,精确求解器已不再实用。因此,基于学习的方法因其能快速生成高质量近似解而受到关注。其中,两阶段方法将基于学习的组件与经典求解器相结合,简化了学习目标。然而,这种解耦往往会破坏优化的一致性,可能导致解的质量下降。为解决这一问题,我们提出一种名为生成 - 分割(GaS)的新型两阶段框架,该框架在联合训练过程中将强化学习(RL)与最优分割算法相结合。该分割算法相对于城市数量具有近线性的可扩展性,并能保证在欧氏空间中对任意给定路径进行最优分割。为实现强化学习组件与该算法的联合优化,我们采用长短期记忆网络(LSTM)增强的模型架构来解决部分可观测性问题。大量实验表明,所提出的 GaS 框架在解的质量和迁移性方面均显著优于现有的基于学习的方法。
Attributed Multiplex Learning for Analogical Third-Party Library Recommendation and Retrieval
Baihui Sang, Liang Wang, Jierui Zhang, Xianping Tao
The 33rd IEEE/ACM International Conference on Program Comprehension (ICPC 2025). Ottawa, ON, Canada. April 27-28, 2025. pp. 1-11.
摘要:第三方库(TPLs)在现代软件开发中扮演着关键角色,其提供的可复用代码能够加速项目开发进程。然而,可用的第三方库数量庞大,这使得为特定任务选择合适的库或为废弃库寻找替代方案成为一项具有挑战性的任务。现有方法存在局限性,仅依赖于基于挖掘的方法或基于特征的解决方案。本研究提出一种创新的属性多重网络学习方法,该方法融合多个层面的文本数据和关系数据,以实现有效的库类比推荐与检索。通过将库表示为带属性的节点,并将库间关系建模为图中的边,我们的方法构建了一个属性多重网络用于第三方库的表示嵌入。该方法采用统一简洁的模型整合不同维度的信息,所提出的归纳式模型还能够解决冷启动问题。此外,我们的模型具有可扩展性,能够适配大量的库。为验证该方法的有效性,我们在 NPM 生态系统中进行了包括消融实验在内的多项实验。基于包含 8308 个库的真实数据集,实验结果表明,在 Hit@10 指标下推荐准确率达到 89.8%。同时,我们贡献了一个新的数据集,该数据集包含了从废弃(deprecated)信息中提取的4070条迁移规则,丰富了 NPM 生态系统中相对匮乏的现有数据集。总之,我们的方法高效且具有应用前景,能够支持现实场景中的大规模第三方库推荐与检索任务。
EarlyPR: Early Prediction of Potential Pull-Requests from Forks
Xiangchen Wu, Liang Wang, Xianping Tao
IEEE International Conference on Software Analysis, Evolution and Reengineering (SANER 2025). Montréal, Québec, Canada. Tue 4 - Fri 7 March 2025. pp. 1-12.
摘要:本研究提出 EarlyPR 框架,用于识别和预测开源软件(OSS)项目分支(fork)中潜在的拉取请求(PR)贡献。该框架通过提供重复贡献、被拒绝贡献的预警以及遗漏贡献的检测,有望提升 OSS 项目中基于分支 - 拉取(fork-and-pull)开发模式的效率。与传统基于拉取请求(PR)的研究不同,后者依赖于贡献者提供的 PR 描述和内容(这些信息仅在 PR 创建后才可用),而 EarlyPR 通过挖掘分支的提交(commit)历史,在 PR 创建前进行预测。
真实开源软件仓库开发者交流网络的社区检测基准研究
张洁芮, 汪亮, 常正超, 李梓荣, 桑百惠, 陶先平
软件学报. . 2025年9月(录用). .
摘要:群体智能是新一代人工智能的重要组成部分,研究如何激发和汇聚开源社区“人”的力量能够极大的提升开发效率。社区检测作为研究开源项目中开发者关系的技术手段,在社交网络的探索和理解中起着至关重要的作用。然而,目前的研究主要集中在 Facebook等大规模社交网络上,系统性地研究项目级开源软件开发者社交网络(OSS-DSNs)中的社区检测仍然较为缺乏。在本文中,我们首先收集真实世界的数据,并分析 OSS-DSNs 的特征。然后,我们在这些真实数据集上,对多种重叠和非重叠的社区检测算法进行基准测试,比较它们在多个度量和维度上的性能。最后,基于合成的 OSS-DSNs,我们高效地生成了一系列合成网络,并使用带有真实标签的数据进行算法评估,以进行对比分析。我们识别了小规模和中等规模社交网络与大规模网络之间的特征差异,并探讨了这些差异如何影响社区检测的度量标准及算法性能。我们的研究提供了一个新的基准,并为更好地理解开源软件社区中的沟通与协作提供了重要的见解。
Measuring and Mining Community Evolution in Developer Social Networks with Entropy-Based Indices
Jierui Zhang, Liang Wang, Ying Li, Jing Jiang, Tao Wang, Xianping Tao
ACM Transactions on Software Engineering and Methodology (TOSEM), Volume 34, Issue 1. Article No.: 12. . 2024年12月30日. Pages 1 – 43.
摘要:本研究提出四种基于熵的新型指标,用于衡量开源软件(OSS)项目中开发者社交网络(DSNs)的社区演化特征。这些指标为社区分裂、收缩、合并及扩张等事件提供了定量化度量方法,且具备单调性等已验证特性,其定义的最大值与最小值对应具有实际意义的场景。通过组合使用这些指标,可描述社区涌现、消亡等复杂演化事件。基于上述指标,本研究进一步提出一种融合shapelet mining的新型机器学习方法,用于挖掘社区演化的代表性模式。真实开源软件项目的验证结果表明:与现有研究相比,这些指标能有效捕捉各类社区演化行为,准确率达94.1%;同时,其预测开源软件团队生产力的准确率为0.718。借助shapelet mining与学习框架,这些指标可识别社区演化模式,并能在项目最后一次提交前 3 个月,以 93% 的准确率预测开源软件项目的存续状态。研究结果凸显了此类基于熵的指标在理解开源软件项目状态、预测未来趋势方面的潜力,为开发者社交网络与开源软件社区的后续研究提供了重要支撑。