本次介绍的论文聚焦体外受精(IVF)胚胎选择领域的关键评估瓶颈:在临床实践中,未移植胚胎因未被选择而无法观察到 “若被移植是否活产” 的结局。为破解这一难题,研究创新性地引入多重插补法,首次将未移植胚胎纳入完整评估体系。同时,研究构建了两种互补的 AUC 指标以精准衡量排序能力:跨不同患者、不同治疗周期的人群水平 AUC和聚焦单一周期内同一患者的胚胎队列的治疗水平 AUC,为胚胎选择算法评估提供了新的思路。
Bori L, Johansen MN, Berntsen J, Parner ET, Meseguer M. Predicting time to live birth with deep learning embryo ranking: a novel multiple imputation approach. Hum Reprod. 2025 Aug 1;40(8):1516-1525. doi: 10.1093/humrep/deaf102. PMID: 40514039.

IVF 胚胎选择困境:精准评估的探索
体外受精(IVF)中,活产时间(TTLB,即实现活产所需的胚胎移植次数)是衡量治疗效果的核心指标,而胚胎选择的准确性直接影响这一指标。传统依赖 Gardner 形态学分级的方法存在主观性强、排序精度有限的问题,新兴的 AI 算法(如 iDAScore)虽展现潜力,但评估其临床效用面临关键障碍:未移植胚胎的活产结局天然缺失,无法全面验证其在实际治疗中的排序价值。本研究旨在通过创新方法处理结局缺失,客观对比 iDAScore 与 Gardner 分级的临床效用,为胚胎选择算法的优化提供依据。

结局缺失难题:多重插补的破局之法
未移植胚胎的活产结局缺失是评估的核心难题 —— 这些胚胎因未被临床选择,“若被移植是否活产” 的信息未知,导致无法还原完整的临床选择场景。为此,研究采用链式方程多重插补(MICE)法:基于与胚胎活力密切相关的变量(患者年龄、卵母细胞来源、内细胞团(ICM)和滋养外胚层(TE)质量等级、既往移植结局等),通过随机森林模型模拟未移植胚胎的潜在活产结局(0 = 非活产,1 = 活产)。
插补过程通过生成 50 个独立数据集实现稳健性:每次插补从模型中随机抽取结果以反映结局的不确定性,50 个数据集则用于应对高缺失率(未移植胚胎占 57.7%)带来的统计偏差,确保后续分析(如活产时间、AUC 计算)的可靠性。插补结局需符合临床逻辑 —— 例如,年轻患者、高等级胚胎的插补活产率更高,且未移植胚胎的插补活产率(33.2%)低于移植胚胎(42.8%),与 “优先移植高质量胚胎” 的实际操作一致。

排序能力衡量:两种 AUC 的分野与计算
研究通过两种 AUC(受试者工作特征曲线下面积)评估算法的排序能力,二者因评估层面不同而存在显著差异。
人群水平 AUC 聚焦跨治疗周期的整体排序能力,即算法在 “所有胚胎(来自不同患者)” 中区分活产与非活产的准确性。其计算基于所有胚胎(移植 + 插补未移植)的评分 / 分级及对应结局:以评分 / 分级为阈值,计算不同阈值下的灵敏度(正确识别活产胚胎的比例)和特异度(正确识别非活产胚胎的比例),构建 ROC 曲线后计算曲线下面积;同时采用 Obuchowski 方法校正同一患者胚胎的聚类相关性,避免因胚胎间关联性导致的结果偏倚。
治疗水平 AUC 则针对单一治疗周期内的排序能力,即算法在 “同一患者的胚胎队列” 中区分活产与非活产的准确性(更贴近临床实际选择场景)。其计算限于 “非平凡周期”(至少 1 个活产和 1 个非活产胚胎):在单个周期内,将所有活产胚胎与非活产胚胎两两配对,统计 “活产胚胎评分 / 分级≥非活产胚胎” 的比例(即正确排序比例),该比例即为该周期的 AUC;最终对所有周期的 AUC 取平均,并通过 50 个插补数据集合并结果(采用 Rubin 规则),得到整体治疗水平 AUC。

核心结果对比:AI 算法的显著优势
对比 iDAScore 与 Gardner 分级的表现可见:在活产时间上,iDAScore 排序的平均 TTLB 为 1.68 次,较 Gardner 分级(1.78 次)缩短 6.1%,且胚胎数量越多,优势越显著(如 7 个胚胎周期中缩短 10.7%)。在排序能力上,人群水平 AUC 中,iDAScore(0.633)略高于 Gardner 分级(0.619);而治疗水平 AUC 中,iDAScore(0.672)显著高于 Gardner 分级(0.631),且两种方法的治疗水平 AUC 均高于人群水平,表明传统跨周期评估低估了实际排序能力。插补数据验证显示,模拟的未移植胚胎结局与患者年龄、胚胎质量的关联符合临床规律,证实了插补的合理性。

创新与局限:突破中的现实约束
本研究创新点在于通过多重插补法首次实现对所有胚胎(含未移植)的全面评估,解决了结局缺失的核心难题;区分两种 AUC 揭示了传统评估的局限,为算法性能提供了更贴合临床的衡量标准;量化验证了 AI 算法在缩短 TTLB 和提升排序精度上的优势。
研究仍有部分局限性:插补结局依赖输入变量的评估质量,可能存在模型偏差;基于单中心数据(73% 为捐赠卵母细胞),结果推广性受限;最多纳入 7 次移植,未覆盖更多次移植场景;未移植胚胎按 iDAScore 排序生成插补序列,可能轻微高估其性能。
临床价值与展望
临床层面,iDAScore 缩短 TTLB 的优势可减轻患者治疗负担,其更高的治疗水平 AUC 有助于精准选择高潜力胚胎,优化临床决策。方法学上,多重插补法为处理辅助生殖领域的结局缺失提供了范式,可推广至其他算法评估。未来需通过多中心研究验证普适性,开展前瞻性试验确认 AI 算法价值,并探索 “AI + 人工评估” 联合策略的优化空间。