本次介绍的论文围绕辅助生殖技术(ART)中胚胎评估的实际需求,构建了一套人工智能(AI)系统,通过胚胎发育第3天(D3)的延时成像数据与取卵年龄,对第5-6天(D5-D6)囊胚的形成情况及质量进行预测,为临床选择胚胎移植或冷冻时机提供参考,尤其适用于供卵稀缺地区预后较差患者的诊疗决策。研究对D2-4胚胎进行了详细的分类评估,且使用了不同设备的时差图像,达到了极高的细胞数分类准确率与囊胚质量预测性能,但是未公布数据集,结果可能依赖于特定数据分布。
Yanai A, Horie A, Sakurai A, Imakita S, Nakamura M, Ikeda A, Shitanaka S, Ohara T, Nakakita B, Ueda A, Kitawaki Y, Sagae Y, Okunomiya A, Mandai M. Innovative AI models for clinical decision-making: predicting blastocyst formation and quality from time-lapse embryo images up to embryonic day 3. Comput Biol Med. 2025 Sep;195:110637. doi: 10.1016/j.compbiomed.2025.110637. Epub 2025 Jun 21. PMID: 40544805.

一、临床背景:胚胎评估困境亟待突破
在 ART 中,胚胎移植时机影响妊娠结局。2021 年日本数据显示,囊胚移植妊娠率(41%)是卵裂期(20%)的 2 倍,但高龄(>40 岁)、少胚胎等预后差患者,延长培养常无法获得可移植囊胚,47% 的 43 岁以上患者仍需卵裂期移植,早期精准评估至关重要。传统 D3 静态形态评估预测囊胚形成的准确性不足;现有延时成像模型 D3 预测 AUC 为 0.69-0.81,且依赖人工标注、适配单一设备,AI“黑箱”特性也降低临床信任度,需更完善的评估方案。
二、研究设计:多中心数据与双阶段 AI 模型构建
本研究为多中心回顾性设计,研究整合了 2018-2022 年日本 4 家医疗机构的胚胎培养数据,覆盖 2792 个取卵周期及 4 种不同型号的延时培养箱,以确保数据的多样性与临床代表性。纳入标准聚焦于发育基础良好的 2 原核(2PN)卵裂期胚胎,同时剔除劣质、图像缺失或胚胎移位的样本,最终筛选出数据完整的胚胎用于建模。所有图像均经过预处理以统一尺寸和画质;囊胚结局则依据 Gardner 标准分类,明确区分囊胚形成、优质囊胚、劣质囊胚及发育停滞四种状态,为模型训练提供清晰且符合临床共识的目标标签。
AI 建模分两阶段:先以 ImageNet-1k 预训练的 NASNet-A Large 为基础,用 23852 张 17 分类图像(1-8 细胞期 + Veeck1-3 级)微调自动标注模型。第二阶段采用XGBoost构建囊胚预测模型,将自动标注获取的胚胎形态特征与取卵年龄等临床信息结合,开发针对囊胚形成、优质囊胚及劣质/停滞胚胎的预测工具。

三、研究结果:模型性能与泛化性表现
研究构建的 3 个囊胚相关预测模型在测试中均表现出良好性能:囊胚形成与优质囊胚预测模型的核心评估指标(ROC AUC)分别达 0.87、0.88,且两者校准效果良好;针对劣质/停滞胚胎的预测模型(PBAE)不仅评估指标(ROC AUC)达 0.87,其精准识别能力(PR AUC)更优,还支持根据临床需求灵活调整决策阈值,平衡预测准确性与灵敏度。
模型泛化性方面,按机构分组的亚组分析显示,4 家医疗机构中囊胚形成预测模型的 AUC 均不低于 0.83,无显著差异;按年龄分组(<35 岁、35-39 岁、≥40 岁)的分析表明,不同年龄组间模型预测性能差异较小;针对 D3 可移植胚胎(≥4 细胞)的 PBAE 预测,模型 AUC 达 0.85,Brier 评分 0.16,适配临床实际筛选需求。
SHAP 分析表明,模型预测的核心影响特征包括 62.75 hpi 时 8 细胞期胚胎占比、29.75 hpi 时≥2 细胞期胚胎占比及取卵年龄,这些特征对预测结果的影响方向与临床认知一致。

四、研究价值:技术创新契合区域需求
本研究构建的 AI 自动标注模型展现出强大的兼容性,能够无缝适配 4 种不同型号的延时培养箱,各数量细胞期分类准确率高达 95%,且无需人工参与标注过程,单枚胚胎评估耗时极短,不仅大幅提升了评估效率,还显著减少了人工标注带来的主观误差。
在预测性能方面,D3 阶段囊胚形成与优质囊胚预测的 ROC AUC 分别达 0.87、0.88,相较于既往同类 D3 预测模型(0.69 – 0.81)有了显著提升,其中 PBAE 模型的 PR AUC 达 0.90,能够高效识别无囊胚发育潜力的胚胎,为临床避免无效培养提供了有力支持。
模型经多机构、不同年龄组及 D3 可移植胚胎亚组验证,性能稳定且适配多种培养箱,降低中小 ART 中心应用门槛,同时针对供卵稀缺、高龄患者多的医疗环境,对≥40 岁患者胚胎预测仍保持较好准确性,实现技术与区域临床需求的精准适配。

五、研究局限:客观制约与改进方向
首先,囊胚分级依赖各参与机构的常规 Gardner 标准,未制定统一的标准化评估流程,而 Gardner 分级本身具有一定主观性,这可能导致囊胚结局标签存在差异,进而对模型训练与性能产生潜在影响。
其次,研究排除了 619 枚因图像质量差(如模糊、曝光异常)、胚胎移位等技术原因无法评估的胚胎,虽然保证了建模数据质量,但可能降低模型在真实临床复杂成像条件下的泛化性,且胚胎受精时间基于医疗记录而非直接观察,存在时间标注误差的可能性。
再者,模型未纳入受精方式(IVF/ICSI)、精子质量、促排卵方案等可能影响胚胎发育的临床参数,同时由于临床妊娠中晚期丢失率仅为 7%,样本量不足,未能深入分析胚胎特征与活产结局的关联。
最后,部分型号延时培养箱的样本量相对较少,致使相关亚组分析偶未达到统计显著性,需更大规模多中心数据进一步验证不同设备间模型性能的一致性。
六、临床意义及展望
本研究的 AI 模型可在 D3 阶段精准识别无囊胚潜力的胚胎,帮助高龄、少胚胎等预后差患者避免无效培养,减少资源浪费与等待时间,尤其适配供卵稀缺地区需求;其高标注一致性推动胚胎评估从 “经验依赖” 转向 “数据驱动”,兼容多类培养箱的特性也助力中小 ART 中心标准化建设,SHAP 技术还增强了模型可解释性与临床信任度,为相关指南制定提供循证支持。未来若整合胚胎形态学细节、遗传学检测结果并验证活产关联,有望进一步提升模型价值,为 ART 精准化发展提供更强支撑。