编辑 | 萝卜皮

3 月 23 日,在机器之心 AI 科技年会上,西湖大学特聘研究员、博士生导师、西湖实验室 iMarker 主任、西湖欧米创始人郭天南博士发表了题为《AI 赋能的蛋白质组大数据科技》的演讲。

在演讲中,他以团队近期研究为例,展示了蛋白质组学在生命科学中的价值和应用,将人工智能应用于蛋白质组学,并与大量临床数据相结合,探索生物标志物,加速蛋白质组学技术成果在肿瘤领域的最新进展,同时介绍了 AI 赋能的蛋白质组大数据科技领域的产业转化/落地等前沿资讯。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(1)

演讲视频回顾(点击文章底部「阅读原文」也可观看):

https://www.bilibili.com/video/BV1H5411S7Ut

以下为郭天南在机器之心 AI 科技年会上的演讲内容,机器之心进行了不改变原意的编辑、整理:

非常荣幸有机会代表西湖大学、西湖实验室、西湖欧米为大家做汇报。我今天讲的题目是「AI 赋能的蛋白质组大数据科技」。科技即科学和技术,分以下几方面概述。

首先为大家简单科普什么是蛋白质组学。许锦波教授介绍了蛋白质的结构,相信大家已从原子结构到整体结构对蛋白质有了基本认识。下面我将更进一步,讲解什么是蛋白质组学。我们已在杭州西湖开展科普活动,询问路人:什么是蛋白质?什么是蛋白质组?很多人并不清楚。

第二,目前这个领域有哪些技术可以分析样品中的蛋白质,能产生什么样的数据。

第三,蛋白质组大数据。日常的大数据包含文本、图像、视频、声音,甚至有蛋白质结构。蛋白质组的大数据是以什么样的展现形式?怎样分析?AI 在其中有非常大的应用前景,已在前沿领域被使用。我之后会举两个例子,一个是甲状腺结节的良恶性诊断,一个是新冠分型,以这两个例子展示蛋白质组大数据和AI结合的妙用。

首先,科普什么是蛋白质组

我们身处宏观世界,肉眼能看到的就是宏观世界。比如得了感冒/新冠会有症状,检测心电图、核磁共振(MRI)或 CT,医院会出具各种影像资料,再如将组织放大百倍,通过显微镜可以看到一些细胞形态。这些能被看到,能被感受到的事物总和,我们称之为宏观世界,这些数据结合 AI 给我们带来非常奇妙的效用。如地球约 70 亿人口,杭州约一千万常驻人口所产生的交通资料、健康资料、图像、视频等等都可以经过 AI 分析,为生活带来便利。

但有一个真实存在的微观世界摸不着,看不见。若将一个手指放大几百倍能观察到一颗颗细胞,如果有技术,能够将这些细胞再放大几万倍,可以看到另外一个世界。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(2)

右侧视频展示的是新冠病毒入侵时,肺部细胞内出现的情况,可以看到有各种各样的蛋白质。前面许教授讲到蛋白质结构,每个蛋白质形态各异,正如宏观世界有外观迥异的动植物一样,并且这些蛋白质不是静止的,它们不断运动变化。当病毒入侵时,这些蛋白质会组织“反攻”,消灭病毒,也可能被病毒击败,使病毒不断地扩张。

虽然微观世界无法被肉眼观测到,但它至关重要。它与健康、疾病、治疗都息息相关。一个成年人大约有 30 万亿个细胞,一个真菌细胞约有 4 千万个蛋白质。在一个哺乳动物的体内,一个白细胞到底有多少蛋白质?目前还是未知数,估测数量非常庞大。

对于微观世界数据是否可以被采集后用于 AI 分析,并加深对疾病的理解呢?这是生命科学一个未知的领域。我们虽然可以对蛋白质结构进行描述和预测,但是如果想探究一个白细胞、红细胞、肿瘤细胞中有多少种不同的蛋白质,每种蛋白质有多少个,它们如何运作,尚无准确的答案。解决这些问题,就是蛋白质组领域研究的主要方向。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(3)

现阶段蛋白质组鲜为人知,但大部分人对基因组有所听闻,每个人都有一个基因组。基因组和蛋白质组是一切生命科学的基础,同时基因组和蛋白质组也可以服务于一切生命科学产业。如果从产业角度来讲,蛋白质组的经济市场比基因组市场庞大数倍。

从毛毛虫化蝶、蝌蚪变青蛙的过程中,其个体基因不曾改变,一个人从出生到死亡基因组也保持稳定,但蛋白质却发生了巨变。目前蛋白质组学在所有生命科学中最为复杂,也是最神秘的领域之一。如果把蛋白质组学研究透彻,可以给所有的生命科学产业带来底层的支持。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(4)

如图展示了从基因到蛋白质,蛋白质又构成了不同的肌肉红细胞、白细胞、神经细胞、肿瘤细胞的过程。它们绝大部分的基因组是类似的,但它们形态不一,功能各异,是蛋白质组的不同所致。

蛋白质组是什么?虽然我们看不到,但可通过AI计算模拟/预测其形态模型。通过这些多彩的图片直观地展现了蛋白质的多样性,正如宏观世界丰富多彩的物件。人体到底有多少种蛋白质?据估计,已知的至少有两万种,预测至少有 16 万种以上。加之多个蛋白质构成的不同组合及修饰,蛋白质组的种类可能在千万的级别。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(5)

AlphaFold2 是解决每个蛋白质结构的问题,不知其结构,分析便无从下手。我们对微观世界蛋白质组结构的分析现状可类比百年前的博物学,归纳梳理不同的植物、动物、微生物,是对于每一个物件/研究对象形状的基本描述。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(6)

我将一个生命体、一个细胞,一个组织或者一个人类比成一个军队,每个士兵、兵种、武器、装备就好像是不同的蛋白质,结构/功能各异。军队的排兵布阵就是蛋白质组,比如出动步兵一百个,调遣空军飞机二十架、一千架,作战效果千差万别。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(7)

蛋白质组学研究有多难呢?若想在一个成年人体内找到某个蛋白质,就如在一万条长江的水量中寻找一滴水。这个领域是生命科学里最难的方向之一。但是它的应用广泛,简单举例,像临床医学、药物研发、农业、食品、环境等等,只要跟生命相关的领域都离不开蛋白质。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(8)

第二,蛋白质组有哪些技术方法研究

拜登在 2022 年 2 月 2 日重启了美国的癌症「登月计划」,这个项目里最重要的方向是蛋白质组。早在 2017 年拜登参加了国际蛋白质组学会(HUPO)研讨会,讲述他对蛋白质组研究的期望。后因总统换届导致项目中断,直到上个月重启计划,他们称之为蛋白基因组,这是极其重要的战略方向,不仅对科学乃至对产业也至关重要。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(9)

我们可以做什么呢?我们运用现有技术提取临床样品中的蛋白质组数据,即之前我提到的微观世界的数据。有了数据才可广泛地使用 AI 来分析其中的规律。现阶段积累的微观世界数据非常少,因为提取蛋白质数据需非常复杂的技术,这些技术在过去五年时间内才开始比较迅猛地迭代发展。

所有临床样品:人、动物、植物,不管是液态的尿液、眼泪、脑脊液、唾液,亦或是固态的手术、冰冻或者石蜡组织,甚至包括一些特殊样品,如头发、牙齿、指甲、骨骼、粪便,都有丰富的蛋白质。但它们是什么蛋白质种类?每一种蛋白质到底有多少?绝大部分是未知的,而这些未知的蛋白质组信息和疾病的诊断及治疗息息相关。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(10)

如今有了各种新技术,我们可用极其小量的样品做蛋白质组分析。如图,左上角是一个石蜡组织,我们用细针(半径:0.5 毫米)做穿刺,其中红色的就是可分析的组织。这个组织可以做多次全蛋白质组分析,可以测到数千甚至上万种蛋白质,并且可以实现高通量(16 个样品可以在三个小时内完成),具有高重现性,有利于后续多批次的分析。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(11)

如图是我们几个月前发表在《Cell》上的论文,讲述了如何从各类临床样品中提取蛋白质,进行质谱分析。目前所有的生物样品都可进行高效的蛋白质组分析。

虽然可以分析,蛋白质分析价钱是不是很昂贵?人类基因组计划前期需花费近 20 亿美金检测一个人的基因组,现在几千元即可做一个人的全基因组测序。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(12)

去年我们做了一个分析。从 2006 年开始,用质谱测量一个蛋白质的价格大概是 3 美金,14 年间价格直线下降,2020 价格降到 0.1 美金以下,今年价格继续下降。虽然质谱测量蛋白质的技术因技术门槛高未被广泛普及,但它在实验室里的价格已大幅度下降,趋于商用水平,这也是西湖欧米诞生的契机。

这些技术可将微观世界蛋白质组的运动规律捕捉下来,当它们转化为数据后,我们对生命和医疗的理解将步入更高的阶段。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(13)

我们如何更好地诊断疾病、治疗疾病呢?今天上午有老师提及通过 AI、图像、文本,和一些显微镜的图像,甚至对传统的血、尿、粪的生化检测数据进行智能分析,辅助疾病诊断和治疗。但是这些数据都是宏观数据,犹如隔靴搔痒。溯本求源,微观世界的分子状态、功能、种类、数量真正影响了疾病发展、药物治疗效果、预后机理等,这样的分子数据我们称其组学数据,包括基因组、转录组、蛋白组、代谢组、微生物组等等。其中最核心的是蛋白质组,几乎所有药物的靶点都是蛋白质。

通过蛋白质技术提取大量临床样品中的分子数据,积累海量蛋白质组大数据后,结合其他组学的数据,经 AI 整合就可以更精准地找到更多生物标记物。我们的实验室和西湖欧米公司一直致力于产生蛋白质组大数据,协助精准医学。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(14)

第三,蛋白质大数据应用实例

1、甲状腺结节诊断

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(15)

甲状腺如蝴蝶的形状一样,是一个 20 多克的小器官。有些人把它称为人体新陈代谢的 CEO,管理各个器官。它接受来自于大脑的信息,分泌甲状腺素,这个激素会控制五脏六腑,也控制肌肉力量、情绪,对人体非常重要。

甲状腺相关问题这些年不断受到人们的关注。据数据显示,成年人中大概一半患有甲状腺结节,女性高于男性,大约是男性的 3~5 倍,大部分是良性,但是也有 7~15% 的比例是恶性,沿海地区的比例更高一些。大部分人群出现恶性肿瘤的年龄,是 20~55 岁;这个年龄段大家的压力比较大,在压力过大的情况下甲状腺更容易出现问题。

目前我们诊断甲状腺结节是基于宏观世界的检测方法,通过无创的 B 超。如果 B 超发现甲状腺结节有潜在问题,这时需要通过细针穿刺,取出微量组织,用显微镜放大几百倍,观察其中是否有肿瘤细胞,如果有恶性肿瘤细胞,通常需要手术切除。手术也会存在一些其他的问题,如果影响到声带,患者说话唱歌就会出现问题。切了甲状腺需要终生服药,因为它分泌的甲状腺素人体无法自行合成,如果不服药,我们的五脏六腑、肌肉、情绪管理都会出现问题。

这个看似是一个简单/常见的问题,实际上有非常大的缺陷。虽然很多患者的结节是良性的,不用过多处理,改变生活习惯,调整作息就可以得到改善。有些是恶性则需要手术切除;但还有30%的甲状腺结节是无法精确诊断的,医学上叫 Indeterminate,通过我们现在的金标准也无法准确判断。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(16)

这篇文献就提到一种细胞学无法诊断的结节。美国的一些实验室与公司,他们开发了基因测序试剂盒,通过较为成熟的基因测序辅助判断结节的良恶性;他们的灵敏度达到接近百分之百(83%~100%),但是特异性只有10~52%。这意味着,如果是恶性,基本可以检测出来,几乎不会漏掉;但是被检测出是恶性的结节,实际上有50%到90%都是良性的结节。当试剂盒显示结节是恶性的,这会让病人和医生感到很大的压力,大部分人会因此选择切除甲状腺,之后终生服药。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(17)

我们能否用基于蛋白质组大数据结合AI开发一个新技术,让甲状腺结节诊断变得更加精准?基因检测准确率并不是很高,因为基因突变总体比较少,且存在个体差异,mRNA 相对来说又不太稳定,检测的难度较高。我们团队与新加坡和中国的几十家医院合作中,建立了多中心、回顾性的验证集和前瞻性的验证集,共包括一千多名病人,甲状腺结节穿刺后,进行蛋白质组分析。之后建立了一个神经网络,在其中挑选出 19 个蛋白,运用这 19 个蛋白再构建一个模型,这个模型就可以判断结节是良性还是恶性。具体的技术细节这里不作赘述。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(18)

这些结果的准确度都在90%以上,达到目前最高的准确度。这可以将良性肿瘤和恶性肿瘤比较好地区别出来,通过产业转化,让此技术可以应用于临床。这个产品只是精准诊断中的一个应用。其他病种,比如卵巢癌、大肠癌等都可以用类似的方法进行处理。

除此之外,它对制药也有很大的帮助。比如在甲状腺结节中有一个亚型Hurthle,分为良性的腺瘤和恶性的腺癌。在相对罕见的甲状腺肿瘤中,生物学研究稀少,治疗方法目前也尚不清楚,它的微观世界原理不清楚,导致没有有效的用药对策。

通过我们的研究发现,它们有 186 个蛋白与一般的甲状腺肿瘤不一样;其中有 160 个都与线粒体相关。线粒体是细胞里的能量「工厂」,正如汽车发动机,这说明在这个亚型肿瘤细胞中是发动机出了问题。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(19)

如图五颜六色原点(各个蛋白)代表的是发动机里面的各个部件,哪些蛋白出现了明显的上调,这些蛋白就是治疗的关键,但是哪一个更有效,需要进一步研究和探索。蛋白质组研究也可以为制药与疾病的治疗提供有价值的帮助。

2、新冠研究

下面讲另外一个例子——新冠研究。人们提到新冠异常焦虑,但实际上 80% 的感染患者是轻症(根据当时的数据),一般的隔离治疗就可以痊愈。据统计,20% 的病人是重症(当时的数据),重症患者需要吸氧或者呼吸机。问题在于,病人感染之后的早期,出现发热咳嗽时,如何能判断轻重症?如果早期可判断,就能提前采取不同的处理方式。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(20)

我们通过血液蛋白质组和 AI 模型来判断谁是重症,谁是轻症。临床研究一般会有一个训练集,知道有些患者是重症,有些患者是轻症。我们进行了训练集、验证集、独立验证等研究,看这个模型能不能在独立队列中得到验证。最后得到 22 个蛋白,7 个代谢物,1 个模型;这个模型相对比较简单,就是使用随机森林模型。

很有意思,我们发现这个训练集中有两个患者临床资料和症状不相符;其中有一个是 70 岁的男性,轻症被我们诊断为重症,他是所有人中年龄最大的,虽然是轻症,但是他的分子表型跟重症更加相似。另外一个独立的队列中也不相符,比如这个患者是重症,模型认为他是轻症,后来发现这个患者入院之前进行了 20 多天的中药治疗,虽然临床表现为重症,但他很快出院了。还有一个轻症患者,分子模型认为他是重症,后来发现这个患者有乙肝、糖尿病,并且他转阴的时间是所有病人中最长的,重症已经出院了,他却没有出院。临床有非常多的情况,有些患者病情突然转好,有些急剧恶化,如果可以提前预判,都会有很微妙的改变。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(21)

如图,有一位患者临床表现是轻症,模型认为她的分数最差,比重症的分数还要差。后来发现这位患者是一位 66 岁的女性,她采血的当天血糖达到 27.8mmol/L,空腹血糖一般 6.1 mmol/L以下,她当时的情况非常危险;当然,后来经过治疗她顺利出院了。为什么会出现高血糖现象,我们并不知道,如果治疗的时候可以基于分子检测的话,我们就可以更加从容地对这样的患者进行诊断。并且有一些生物信息学的分析,发现新冠感染之后病人会出现什么样的分子改变,同样对于治疗也提供了很多线索。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(22)

除了血液之外,最近我们开发了一个新技术,从尿液中进行蛋白质检测,并且结合 AI 模型进行新冠的判别,具体细节不赘述。一般认为尿液中没有蛋白,做体检如发现尿里有蛋白质会让人非常紧张,是不是肾功能有问题?其实是因为传统测量方法灵敏度不够,我们的技术可以测到尿液中存在四千多个蛋白,并且用尿蛋白建模型可以非常准确地预测新冠的轻症和重症。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(23)

如图,可以看到这两个重症患者,他们康复的时候分数越来越低,轻症患者一直比较低。因为尿液完全无创,我们正在开发一个产品,希望能够通过居家检测尿液,就可以对新冠或者其他疾病并行进行检测。这可以测到很多细胞因子,对疾病诊断以及发生的机理、治疗提供线索。

最后,前面提到那么多蛋白质数据,蛋白质组在数据上到底是什么样的形式?

现在蛋白质谱数据一般要通过长期的训练才可以看懂,但是我们做大数据的时候,像 AlphaFold2 提出 TensorFlow,转化成 Tensor 可以更方便地使用算法。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(24)

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(25)

我们把蛋白质的大数据变成 Tensor 结构(可为视频或音频),这里的每个像素点就是蛋白质多肽的片段,数据非常大。如果把这个视频变成一张图,每一列就是前面的一帧,横过来可以看到非常多的信息。任意取一个小的区域放大,就可以看到像宇宙一样,有无数的像素点。一个 45 分钟的质谱文件,差不多有 100 亿个像素点。我们用此方法可以将 DIAT、DIAT Tensor 区别疾病的良性和恶性,现在很多相关项目都在进行当中。

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(26)

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南(27)

最后一张 PPT,为大家介绍西湖欧米的愿景。我们希望跟医院及社区合作,只要有人类的活动,就有健康、亚健康、疾病,我们有大量样品可以产生血液、尿液、粪便、组织等等,欧米希望搭建图中生态圈,通过质谱仪等设备积累蛋白质组数据,结合多组学数据,通过数据中心的处理转化为 Tensor,通过 AI 反馈到社区,反馈到医院,也反馈到制药公司,有助于新药研发。感谢聆听。

,