新闻快递
新闻快递

新闻快递

当前位置: 首页 >> 正文

必赢线路检测3003、大数据学院共同在面向大模型高效微调的数据质量增强领域取得重要研究进展

2026年06月25日 12:15 周元 点击:[]
 

近日,来自我校必赢线路检测3003和大数据学院(智能环境前沿交叉研究院)的作者团队,在图谱到文本生成场景下面向大模型高效微调的数据质量增强领域,取得重要研究进展。成果以《DC-FM: A Logic-Fact Dual Consistency Filtering Method for Aligned Samples in Graph-to-Text Generation》为题,近日在信息处理领域国际权威期刊Information Processing & Management(IF:8.1)发表。

图谱到文本生成是语义理解中的关键任务,旨在将知识图谱中的结构化三元组自动转换为高质量的自然语言描述。然而,现有公开数据集中普遍存在图文对齐噪声问题-即图谱与文本之间的语义不一致或逻辑矛盾,严重制约了预训练语言模型的生成性能。传统数据筛选方法主要存在两大瓶颈:一是难以捕捉图谱与文本之间隐含的逻辑依赖关系;二是缺乏多维度协同验证机制,事实一致性与逻辑一致性评估相互割裂。

针对上述挑战,该研究创新性地提出了一种逻辑-事实双一致性过滤方法(DC-FM)。该方法由“查询引导的逻辑验证模块”和“事实一致性验证模块”协同构成:前者通过原子级双向依赖分解,显式建模图谱与文本之间隐含的因果、时空等逻辑关系;后者基于问答一致性机制量化事实对齐程度。两个模块的输出经加权融合后,形成综合一致性得分,从而自动筛选出逻辑与事实一致性的高质量对齐样本。该成果为构建高可靠性、高逻辑一致性的知识图谱文本生成系统提供了全新的数据筛选范式,对推动自然语言生成、知识表示及智能信息处理等领域具有重要意义。

该论文由大模型理论与应用团队教师——必赢线路检测3003石泽和申渝、大数据学院郭智威共同指导, 2024级人工智能专业硕士生汪语童为第一作者,2025级软件工程专业硕士生张可诚排第三,展现出在党建引领下两学院科教融汇、协同育人的显著成效。

下一条:排查隐患压实责任 筑牢实验室安全防线 ——必赢线路检测3003开展实验室安全专项检查

关闭