本次介绍的论文聚焦人工智能与大型语言模型在生殖遗传学领域的应用,通过对比四种主流模型对患者教育材料的简化效果,探索提升生殖遗传知识普及度与医疗公平的可行路径。这项研究为解决当前生殖遗传领域因信息复杂导致的服务使用率失衡问题提供了新方向,对推动健康素养提升和医疗资源合理利用具有重要意义。
Marjan Naghdi, Ping Cao, Rick Essers, Malou Heijligers, Aimee D C Paulussen, Arie van der Lugt, Robert A C Ruiter, Wendy A G van Zelst-Stams, Andres Salumets, Masoud Zamani Esteki, Artificial intelligence-simplified information to advance reproductive genetic literacy and health equity, Human Reproduction, 2025

研究背景
生殖遗传检测与咨询本应通过个性化方案降低遗传疾病负担,但实际应用中却因两大核心问题受限:一是检测技术本身复杂,二是患者教育材料(PEMs)设计不合理。现有 PEMs 往往过于专业,远超普通人群的理解能力,导致部分患者因信息不足拒绝必要检测,另一部分则过度使用缺乏明确证据支持的技术。这种失衡在低中收入地区尤为明显,先天性疾病相关的儿童死亡率居高不下,而生殖遗传检测的低使用率加剧了这一困境。随着在线健康信息成为孕妇主要参考来源,简化 PEMs 以提升可及性、推动健康公平的需求愈发迫切。

模型简介
研究选取了四种主流大型语言模型(LLMs)进行对比。GPT-3.5 作为较早的普及型模型,代表了基础语言处理能力;GPT-4 作为其升级版本,以更强的推理能力著称,擅长处理复杂任务;Copilot 在医学内容生成方面表现突出,尤其适合专业信息的转化;Gemini 则在结构化教育材料创作上更具优势,能生成清晰易懂的医学内容。这些模型均通过统一的提示词处理文本,确保简化任务的标准化,最终基于 30 份原始 PEMs 生成了 120 份简化版本。
实验设计
研究采用比较观察性设计,核心流程分为三部分。首先是文本筛选,从 WHO、约翰・霍普金斯医学等权威平台选取 30 份 PEMs,覆盖生殖遗传咨询、孕早期筛查、羊水穿刺等 6 个关键主题,每份主题包含不同来源的文本以保证多样性,且均面向普通人群。其次是模型处理,四种 LLMs 基于相同提示词对这些文本进行简化。最后是评估环节,一方面通过量化指标分析文本可读性,另一方面由 30 位生殖遗传学专家从临床可靠性角度进行评估。此外,研究还开发了一个开放获取的图形用户界面,支持实时文本简化与可读性分析,方便临床应用。
指标介绍
评估体系包含三个维度,每个维度的指标设计均旨在全面反映简化效果。

- 可读性指标:采用五种经验证的工具,从不同角度衡量文本易理解程度。例如,Flesch 阅读 ease 公式通过句子长度和音节数评估整体流畅性;Gunning Fog 指数聚焦长句和复杂词比例,反映文本的 “晦涩度”;SMOG 指数则通过多音节词占比估算理解所需的教育水平;Coleman–Liau 指数和 Linsear Write 公式则分别从字母 – 单词结构、短词与长词平衡的角度补充评估,共同构成对文本复杂度的全方位衡量。
- 文本特征指标:关注简化前后文本的结构变化,包括词数(反映简洁性)、复杂词比例(衡量词汇难度)、长句比例(体现句子结构复杂度)、总句数(与句子拆分合理性相关)及被动语态比例(影响表达直接性),以此解析模型的简化逻辑。
- 专家评估指标:由专业人士从三个核心维度评分,“准确性” 关注简化文本与原文的一致性,“完整性” 衡量关键医疗信息的保留情况,“遗漏相关性” 则判断被省略内容是否为非必要细节,三者共同确保简化不牺牲临床价值。
研究结果
所有 LLMs 均显著提升了 PEMs 的可读性,将原本需要较高教育水平才能理解的文本,降至更易普及的阅读水平。其中,Copilot 和 Gemini 在提升可读性方面效果尤为明显,能大幅降低文本的语言复杂度。但在临床可靠性上,GPT-4 表现最优,在准确性、完整性和对非必要信息的筛选上均得到专家的较高认可。相比之下,部分模型虽显著提升了可读性,却因过度简化遗漏了关键信息,导致专家评分较低。这一结果凸显了 “简化” 与 “准确” 之间的平衡至关重要 —— 既要让文本易懂,又不能丢失核心医疗内容。

研究创新
该研究在生殖遗传学领域有几大突破:首次系统对比了多种主流 LLMs 在简化 PEMs 中的表现,填补了该领域的研究空白;通过大样本的专家评估(30 位专家对 120 份文本打分),为 LLM 生成内容的临床可靠性提供了扎实验证;开发的开放获取图形用户界面,整合了文本简化与可读性分析功能,为临床实践提供了实用工具;更重要的是,其证实了 LLMs 在平衡可读性与内容完整性上的潜力,为健康素养提升提供了新方法。
研究局限
研究存在一定局限:简化过程中可能存在关键信息被遗漏的风险,需要警惕过度简化带来的误导;评估主要依赖专家判断,缺乏真实患者的反馈,难以直接验证简化文本对患者决策的实际影响;目前研究材料以英文为主,对其他语言的适用性尚未验证,可能限制其在多语言地区的应用;此外,部分原始 PEMs 可能被纳入 LLMs 的训练数据,存在潜在的熟悉度偏差,影响结果的客观性。
临床意义及展望
该研究为生殖医疗实践提供了重要启示:LLMs 可作为医护人员的得力助手,快速生成易于理解的 PEMs,帮助低健康素养人群掌握生殖遗传检测信息,减少因认知不足导致的检测滥用或弃用,进而推动健康公平。未来研究需纳入患者反馈,验证简化文本对实际决策的影响;拓展至更多语言,解决非英文人群的信息可及性问题;同时持续优化 LLMs,提升其在保留关键信息前提下的简化能力,并建立严格的人类监督机制,确保技术应用的安全性,最终实现技术进步与医疗质量的协同提升。