本次介绍的论文聚焦利用机器学习解析精子运动异质性,以计算机辅助精子分析(CASA)系统数据为核心,提出 通过监督 / 无监督学习挖掘运动亚群,创新轨迹可视化方式提升识别精度。论文突破传统分析维度,保留完整运动信息,但局限于二维运动,且没有关联到后续的受精与妊娠,为生殖生物学研究提供新路径的同时,也指明了后续优化方向。
Aragón-Martínez, Andrés. Unraveling sperm kinematic heterogeneity with machine learning. Asian Journal of Andrology ():10.4103/aja202544, August 12, 2025. | DOI: 10.4103/aja202544

CASA 系统运动参数(VSL)计算流程示意图
一、研究背景:核心矛盾与价值
计算机辅助精子分析(CASA)系统是解析精子运动的核心工具,可生成二维(x,y)运动原始坐标(用于构建轨迹)及 8-12 项浓缩运动参数,为识别精子运动异质性提供基础。但传统研究存在瓶颈:单变量统计无法处理多维度数据,易掩盖异质性;早期商业 CASA 系统部分不支持原始坐标存储,导致运动信息丢失。
一方面,传统单变量统计方法(如仅计算单个参数的均值、离散度)无法处理 CASA 的多维度数据,易忽略参数间关联性,甚至掩盖精子固有的运动异质性(同一精液中精子运动模式的差异);另一方面,早期商业 CASA 系统存在局限,部分不支持原始坐标的存储与导出,导致研究人员无法后续重建轨迹,仅能依赖浓缩参数分析,造成运动信息丢失。
精子运动异质性对辅助生殖技术(人类医学与家畜育种)至关重要——不同运动亚群的精子对环境物质(如碳酸氢盐、毒素)的响应及与卵子结合的能力存在差异,准确解析异质性是优化精液剂量生产、提升生殖效率的关键。

精子轨迹类型与数据增强表示法示意图
二、技术与方法:核心路径
为获取可靠的精子运动数据,研究以 CASA 系统为核心搭建数据采集体系:依托计算机视觉技术完成精子检测、连续帧中(x,y)坐标追踪,结合 “像素 – 微米” 校准与观测时间,自动计算速度、线性度、拍频等运动参数并生成轨迹。针对商业 CASA 系统成本高、原始坐标封闭的问题,研究团队基于 ImageJ 平台开发开源工具(如 CASA 软件、OpenCASA),支持坐标与参数同步存储,且适配鱼类、马、猪、人类等多物种精子分析,为后续研究提供低成本、完整的数据支撑。
在数据处理阶段,首先采用传统统计方法探索:通过主成分分析(PCA)对浓缩运动参数降维,再用层次聚类算法(凝聚式或分裂式)划分运动亚群,最后结合描述性与推断性统计分析 pH、激素等处理对亚群的影响,但该方法因依赖浓缩参数,无法重建轨迹,存在信息丢失问题。
为突破这一局限,研究引入机器学习技术优化分析流程:监督学习方面,以人工标注的精子运动类型(如超激活型、活动型)为训练数据,采用支持向量机(SVM)算法,基于 CASA 浓缩参数实现运动模式自动分类,已在多物种中验证有效性,仅存在人工标注耗时的不足;无监督学习则无需标注,通过 Python 工作流将 CASA 原始坐标重建为轨迹图像,输入聚类算法即可自动挖掘潜在运动亚群。同时,研究还通过图像变换(随机翻转、旋转等)进行数据增强以提升模型鲁棒性,并创新采用核密度估计(KDE)图、热图替代传统线图表示轨迹,更充分利用空间信息,尤其提升了超激活精子的识别精度。

轨迹图像聚类的 “数据 – 模型” 全流程示意图
三、研究结果:关键发现
商业 CASA 系统局限明显,部分不开放原始坐标,导致仅靠浓缩参数无法识别全部运动亚群;部分仅提供参数区间值而非单个精子数据,进一步降低亚群识别准确性。而开源 CASA 工具有效解决这些问题,既支持原始坐标存储,又适配多物种分析,为机器学习提供完整数据支撑,突破了数据瓶颈。
机器学习应用效能突出:无监督学习能稳定挖掘运动亚群,还可捕捉环境干预(如 5 – 羟色胺 2A 受体抑制、色氨酸添加)对轨迹的影响;监督学习(SVM)对人类精子运动模式分类准确率高,结合 KDE 图等增强轨迹表示法后,超激活精子识别灵敏度显著提升,弥补了传统阈值法的不足。
双变量分析显示,精子暴露于氯化汞等毒素或碳酸氢盐等调节剂时,会出现高 VAP – 高 LIN 的特殊亚群,证实运动异质性与环境响应相关。研究还推测,异质性可能源于精子发生与附睾成熟阶段分子分布不均,且直接影响辅助生殖效率,为后续机制研究指明方向。

传统轨迹表示与数据增强表示(KDE 图)对比示意图
四、研究创新:核心突破
研究在技术方法上实现多维度创新:首先拓展分析维度,突破传统依赖浓缩参数的局限,首次将精子轨迹图像作为机器学习输入,完整保留轨迹形态、空间分布等信息,让结果更贴近精子运动真实状态,避免参数浓缩导致的信息丢失。
其次创新轨迹可视化方式,传统线图难以清晰呈现空间规律,而 KDE 图、热图等增强表示法能充分利用二维(x,y)空间信息,解决线图信息模糊问题,尤其在超激活精子识别中表现突出,可精准捕捉这类特殊亚群。
此外,实现开源工具与 AI 深度融合:通过开源 CASA 工具打破商业软件数据垄断,降低数据获取成本;结合 Python 构建 “数据获取 – 轨迹重建 – AI 分析” 一体化流程,提升研究可重复性,降低多物种精子异质性研究门槛。
五、研究局限与未来展望
研究仍存在局限:数据获取上,部分商业 CASA 不开放原始坐标,制约多中心数据共享;机器学习上,模型依赖高质量数据,现有标注数据集规模有限,无监督学习结果需更多生物学验证;运动分析仅覆盖二维,3D 检测技术(如精子鞭毛 3D 成像)成本高、可及性低,难以普及。
未来方向明确:优化开源 CASA 工具,推动数据标准化与跨平台共享;扩大标注数据集,提升模型跨物种泛化能力;探索轨迹增强表示法的临床应用,开发 “优质精子自动筛选” 系统;推进 3D 技术低成本化,整合入现有体系,实现精子运动全方位解析,为生殖研究与生育力评估提供精准支撑。