近日,开云足球俱乐部智能科学与技术学院徐科副教授联合浙江大学、华为云等单位,针对数据分析流程中数据验证这一问题,提出了一个支持交互式数据血缘追踪的可视化系统HYPNOS。HYPNOS 通过血缘模块解析并适配代码,从数据转换脚本中提取模式级与实例级数据血缘信息;同时提供血缘视图用于整体把握数据转换过程,以及细节视图用于实例级追踪与细节检查。HYPNOS 能揭示不同层次的数据关联,帮助用户更高效地理解和追踪数据血缘。

Fig 1. HYPNOS系统架构
HYPNOS 系统架构(见Fig 1)由两大部分组成:血缘模块与可视化界面。 血缘模块以脚本及一个或多个表格为输入,通过程序适配器(program adaptor)解析每行代码,提取数据转换(DT)语义。随后,模块利用血缘追踪器(lineage tracker)捕获模式级与实例级的数据血缘(DL),并提供数据血缘追踪(DLT)服务。 基于提取的 DT 语义,系统的血缘视图(lineage view)构建出表示脚本数据转换流程的血缘图。用户可通过双击血缘图中的表格,在细节视图(detail view)中展开查看。血缘视图与细节视图分别支持针对列级(column-level)与行级(row-level)的数据追踪交互操作。 在本研究中,数据血缘(DL)通过解析逐步数据转换操作中的输入输出关系获得。

Fig 2a. 快速定位异常国家:通过结果表排序发现洪都拉斯增长率显著异常 (B1→C1) ; 逐步溯源检查:行级追踪到上/下周聚合数据,确认 new_deaths_x=79, new_deaths_y=204 (B2→C2)。历史上下文比对:展开洪都拉斯逐日死亡数,锁定 2020/08/26–08/27 两日数据偏大,但在长时趋势下属正常波动 (C5→ C7)。

Fig 2b. 列级公式验证:growth rate 源自 new_deaths_x / new_deaths_y – 1,追踪并确认过滤与聚合逻辑正确 ( A→C)
我们通过案例研究(Fig 2)、专家访谈和用户实验来展示 HYPNOS 的可用性与有效性。文章被IEEE TVCG正式收录并发表。

