AI 人脸识别技术已被广泛用于手机解锁、移动支付,甚至「看面相」。近日,来自美国数字医疗公司 FDNA 的研究人员提出了一种深度学习应用 Face2Gene,可以帮助医生识别罕见基因疾病。他们的研究登上了医学期刊《Nature Medicine》,并被 Nature 和 Science 争相报道。和大多数消费产品一样,Face2Gene 的 APP 可以搭载在智能手机里,其识别遗传病的 top-10 准确率高达 91%。研究者称,这种深度神经网络识别罕见病的准确率超过了人类医生。如果继续改进一些问题,它就可以帮助全球儿童获得更好的医疗条件了。
本月 7 日发表在《Nature Medicine》上的一篇论文提出了一种深度学习算法 DeepGestalt,可以帮助医生和研究人员通过分析人们的面部照片来发现罕见遗传病。在这篇论文中,研究者详细介绍了这项辅助诊断方法背后的技术——一个名为 Face2Gene 的智能手机 APP。该应用依靠深度学习算法和类脑神经网络来区分人类照片中与先天性和神经发育障碍有关的独特面部特征。利用从照片中推断出的模式,该模型可以定位到可能的诊断结果,并提供可能的选项列表。
研究人员正在提高算法能力,以帮助发现诸如德朗热综合征 (CdLS) 等遗传疾病的身体特征。
医生已经使用这种技术作为辅助手段,尽管它给出的诊断并不是决定性的。但是,研究者表示,这一工具引发了人们对伦理、法律方面的担忧,包括训练数据集中的种族偏见和数据集的商业成分,二者都可能会限制这一诊断工具的使用范围。
FDNA 是马萨诸塞州波士顿的一家数字医疗公司。在该公司首席技术官 Yaron Gurovich 的带领下,研究者们首先训练人工智能系统来区分德朗热综合征和天使人综合征,这两种疾病患者都有有别于其他疾病的明显面部特征。他们还教该模型区分对第三种疾病——努南综合征的不同基因形式进行分类。
接下来,研究者们给算法输入了涵盖 216 种不同综合征的 17000 多张确诊病例的图像。在用新面孔进行测试时,该 APP 的最佳诊断猜测准确率达到了 65%。如果考虑多个预测结果,则 Face2Gene 的 top-10 准确率可以达到约 90%。
缩小可能病症的范围
最终,FDNA 想开发该技术来帮助其他公司过滤、优先处理和解释 DNA 分析中发现的未知基因变异。但是要想训练模型,FDNA 需要数据。
因此目前医疗专家可免费使用 Face2Gene app,其中许多人将该系统作为诊断罕见遗传性疾病的第二选择,Nemours/Alfred I. duPont 儿童医院医学遗传专家、该研究的共同作者 Karen Gripp 说道。它还可以为对病人症状摸不着头脑的医生提供思路——「类似谷歌搜索」。
Gripp 也是 FDNA 的首席医疗官,她使用该算法帮助诊断一个小女孩的 Wiedemann–Steiner 综合征。这个小女孩才四岁,由于年龄较小,除了掉落大部分乳牙并长出多个恒牙,很多典型的躯体症状尚未显现。
Gripp 读了很多关于患有 Wiedemann–Steiner 综合征的儿童牙齿过早生长的案例报告,这是由一种叫作 KMT2A 的基因变异引起的罕见疾病。为了支撑该诊断的置信度,Gripp 将这个患者的照片上传到 Face2Gene。软件上出现了「Wiedemann–Steiner 综合征」。
接着,Gripp 用靶向 DNA 测试进一步确定了这一诊断结果。她说,该 AI 方法可以帮助她缩小可能病症的范围,节约了更昂贵的多基因检测(multi-gene panel testing)费用。
DeepGestalt 高级流程和网络架构。该网络由十个卷积层组成,除了最后一个之外的所有层都是批量归一化和 ReLU。在每对卷积层之后是池化层(在前四对之后的最大池,和在第五对之后的平均池)。然后是具有 dropout(0.5)和 softmax 层的全连接层。
「打败人类」
Gurovich 表示,随着更多医疗专家将病人的照片上传到该 APP,该项目的准确率也得到略微提高。现在该项目的数据库中大约有 15 万张照片。
在去年八月举办的一个先天性缺陷研讨会上,人们对 Face2Gene 和临床医生的准确率进行了一次非正式对比,结果表明 Face2Gene 优于人类。南卡罗来纳州格林伍德遗传中心(Greenwood Genetic Center)遗传学家 Charles Schwartz 向参与者发放十个儿童的面部照片(症状「容易识别」),然后让参与者进行诊断。
只在两张照片上有半数以上的临床遗传学家诊断出正确结果。而 Face2Gene 正确识别了其中 7 张照片里的症状。
「我们输得很惨,Face2Gene 打败了我们。」美国国家人类基因组研究所(US National Human Genome Research Institute)临床遗传学家 Paul Kruszka 说道。「我认为儿科医生和遗传学家将会有一个类似的 app,并像使用听诊器一样使用它。」
筒仓效应和偏见
但只有训练数据集够好,算法才足够好用,因此这种技术存在风险。尤其是涉及那种全球患者人数极少的罕见疾病时,公司和研究人员各自为营,将其数据集商业化。「这会威胁到这项技术的主要潜在优势。」带头促进这一领域数据共享的牛津大学计算生物学家 Christoffer Nellåker 说道。
训练数据集(其中大部分为白人)中的种族偏见仍是一大问题。2017 年的一份儿童智力障碍研究表明,Face2Gene 对唐氏综合征的识别率在比利时白人小孩中为 80%,而在刚果黑人小孩中仅为 37%。然而,随着训练数据集变得更加多样化,算法对非洲面孔的识别准确率亦随之提升,表明多样化人群的更公平表示是可以实现的。
「我们知道这个问题需要解决,但随着我们技术的发展,偏见会越来越少。」Gurovich 表示。
论文:Identifying facial phenotypes of genetic disorders using deep learning
https://www.nature.com/articles/s41591-018-0279-0
摘要:综合征遗传病影响了 8% 的人口。很多综合征具有可识别的面部特征,这些特征对于临床遗传学家来说具有很高的信息价值。最近的研究表明,面部分析技术识别综合征的能力已经达到了专业医生级别。然而,这些技术只能识别少数疾病表型,因而在临床诊断中发挥的作用有限,临床诊断中需要识别的综合征有上百种。本文提出一种面部图像分析框架 DeepGestalt,该框架利用计算机视觉和深度学习算法量化了数百种综合征的相似性。
在最初的三个实验中,DeepGestalt 的表现超越了临床医师。其中两个实验用于区分患有目标综合征和其它综合征的患者,剩下的一个用于区分努南综合征的不同基因亚型。最后一个实验是反应真实临床问题,而这次 DeepGestalt 在 502 张不同图像上识别正确综合征的 top-10 准确率达到了 91%。该模型是在一个包含 17000 张图像的数据集上训练的,这些图像共呈现了 200 多个综合征,通过社区驱动的表型平台进行策划。DeepGestalt 为临床遗传学、基因测试、医学研究和精准医疗中的表型评估增加了相当大的潜在价值。
,