人工智能研究院智源学者计划西湖大学特聘研究员郭天南

编辑 | 萝卜皮

3 月 23 日，在机器之心 AI 科技年会上，西湖大学特聘研究员、博士生导师、西湖实验室 iMarker 主任、西湖欧米创始人郭天南博士发表了题为《AI 赋能的蛋白质组大数据科技》的演讲。

在演讲中，他以团队近期研究为例，展示了蛋白质组学在生命科学中的价值和应用，将人工智能应用于蛋白质组学，并与大量临床数据相结合，探索生物标志物，加速蛋白质组学技术成果在肿瘤领域的最新进展，同时介绍了 AI 赋能的蛋白质组大数据科技领域的产业转化/落地等前沿资讯。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(1)

演讲视频回顾（点击文章底部「阅读原文」也可观看）：

https://www.bilibili.com/video/BV1H5411S7Ut

以下为郭天南在机器之心 AI 科技年会上的演讲内容，机器之心进行了不改变原意的编辑、整理：

非常荣幸有机会代表西湖大学、西湖实验室、西湖欧米为大家做汇报。我今天讲的题目是「AI 赋能的蛋白质组大数据科技」。科技即科学和技术，分以下几方面概述。

首先为大家简单科普什么是蛋白质组学。许锦波教授介绍了蛋白质的结构，相信大家已从原子结构到整体结构对蛋白质有了基本认识。下面我将更进一步，讲解什么是蛋白质组学。我们已在杭州西湖开展科普活动，询问路人：什么是蛋白质？什么是蛋白质组？很多人并不清楚。

第二，目前这个领域有哪些技术可以分析样品中的蛋白质，能产生什么样的数据。

第三，蛋白质组大数据。日常的大数据包含文本、图像、视频、声音，甚至有蛋白质结构。蛋白质组的大数据是以什么样的展现形式？怎样分析？AI 在其中有非常大的应用前景，已在前沿领域被使用。我之后会举两个例子，一个是甲状腺结节的良恶性诊断，一个是新冠分型，以这两个例子展示蛋白质组大数据和AI结合的妙用。

首先，科普什么是蛋白质组

我们身处宏观世界，肉眼能看到的就是宏观世界。比如得了感冒/新冠会有症状，检测心电图、核磁共振（MRI）或 CT，医院会出具各种影像资料，再如将组织放大百倍，通过显微镜可以看到一些细胞形态。这些能被看到，能被感受到的事物总和，我们称之为宏观世界，这些数据结合 AI 给我们带来非常奇妙的效用。如地球约 70 亿人口，杭州约一千万常驻人口所产生的交通资料、健康资料、图像、视频等等都可以经过 AI 分析，为生活带来便利。

但有一个真实存在的微观世界摸不着，看不见。若将一个手指放大几百倍能观察到一颗颗细胞，如果有技术，能够将这些细胞再放大几万倍，可以看到另外一个世界。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(2)

右侧视频展示的是新冠病毒入侵时，肺部细胞内出现的情况，可以看到有各种各样的蛋白质。前面许教授讲到蛋白质结构，每个蛋白质形态各异，正如宏观世界有外观迥异的动植物一样，并且这些蛋白质不是静止的，它们不断运动变化。当病毒入侵时，这些蛋白质会组织“反攻”，消灭病毒，也可能被病毒击败，使病毒不断地扩张。

虽然微观世界无法被肉眼观测到，但它至关重要。它与健康、疾病、治疗都息息相关。一个成年人大约有 30 万亿个细胞，一个真菌细胞约有 4 千万个蛋白质。在一个哺乳动物的体内，一个白细胞到底有多少蛋白质？目前还是未知数，估测数量非常庞大。

对于微观世界数据是否可以被采集后用于 AI 分析，并加深对疾病的理解呢？这是生命科学一个未知的领域。我们虽然可以对蛋白质结构进行描述和预测，但是如果想探究一个白细胞、红细胞、肿瘤细胞中有多少种不同的蛋白质，每种蛋白质有多少个，它们如何运作，尚无准确的答案。解决这些问题，就是蛋白质组领域研究的主要方向。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(3)

现阶段蛋白质组鲜为人知，但大部分人对基因组有所听闻，每个人都有一个基因组。基因组和蛋白质组是一切生命科学的基础，同时基因组和蛋白质组也可以服务于一切生命科学产业。如果从产业角度来讲，蛋白质组的经济市场比基因组市场庞大数倍。

从毛毛虫化蝶、蝌蚪变青蛙的过程中，其个体基因不曾改变，一个人从出生到死亡基因组也保持稳定，但蛋白质却发生了巨变。目前蛋白质组学在所有生命科学中最为复杂，也是最神秘的领域之一。如果把蛋白质组学研究透彻，可以给所有的生命科学产业带来底层的支持。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(4)

如图展示了从基因到蛋白质，蛋白质又构成了不同的肌肉红细胞、白细胞、神经细胞、肿瘤细胞的过程。它们绝大部分的基因组是类似的，但它们形态不一，功能各异，是蛋白质组的不同所致。

蛋白质组是什么？虽然我们看不到，但可通过AI计算模拟/预测其形态模型。通过这些多彩的图片直观地展现了蛋白质的多样性，正如宏观世界丰富多彩的物件。人体到底有多少种蛋白质？据估计，已知的至少有两万种，预测至少有 16 万种以上。加之多个蛋白质构成的不同组合及修饰，蛋白质组的种类可能在千万的级别。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(5)

AlphaFold2 是解决每个蛋白质结构的问题，不知其结构，分析便无从下手。我们对微观世界蛋白质组结构的分析现状可类比百年前的博物学，归纳梳理不同的植物、动物、微生物，是对于每一个物件/研究对象形状的基本描述。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(6)

我将一个生命体、一个细胞，一个组织或者一个人类比成一个军队，每个士兵、兵种、武器、装备就好像是不同的蛋白质，结构/功能各异。军队的排兵布阵就是蛋白质组，比如出动步兵一百个，调遣空军飞机二十架、一千架，作战效果千差万别。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(7)

蛋白质组学研究有多难呢？若想在一个成年人体内找到某个蛋白质，就如在一万条长江的水量中寻找一滴水。这个领域是生命科学里最难的方向之一。但是它的应用广泛，简单举例，像临床医学、药物研发、农业、食品、环境等等，只要跟生命相关的领域都离不开蛋白质。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(8)

第二，蛋白质组有哪些技术方法研究

拜登在 2022 年 2 月 2 日重启了美国的癌症「登月计划」，这个项目里最重要的方向是蛋白质组。早在 2017 年拜登参加了国际蛋白质组学会（HUPO）研讨会，讲述他对蛋白质组研究的期望。后因总统换届导致项目中断，直到上个月重启计划，他们称之为蛋白基因组，这是极其重要的战略方向，不仅对科学乃至对产业也至关重要。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(9)

我们可以做什么呢？我们运用现有技术提取临床样品中的蛋白质组数据，即之前我提到的微观世界的数据。有了数据才可广泛地使用 AI 来分析其中的规律。现阶段积累的微观世界数据非常少，因为提取蛋白质数据需非常复杂的技术，这些技术在过去五年时间内才开始比较迅猛地迭代发展。

所有临床样品：人、动物、植物，不管是液态的尿液、眼泪、脑脊液、唾液，亦或是固态的手术、冰冻或者石蜡组织，甚至包括一些特殊样品，如头发、牙齿、指甲、骨骼、粪便，都有丰富的蛋白质。但它们是什么蛋白质种类？每一种蛋白质到底有多少？绝大部分是未知的，而这些未知的蛋白质组信息和疾病的诊断及治疗息息相关。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(10)

如今有了各种新技术，我们可用极其小量的样品做蛋白质组分析。如图，左上角是一个石蜡组织，我们用细针（半径：0.5 毫米）做穿刺，其中红色的就是可分析的组织。这个组织可以做多次全蛋白质组分析，可以测到数千甚至上万种蛋白质，并且可以实现高通量（16 个样品可以在三个小时内完成），具有高重现性，有利于后续多批次的分析。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(11)

如图是我们几个月前发表在《Cell》上的论文，讲述了如何从各类临床样品中提取蛋白质，进行质谱分析。目前所有的生物样品都可进行高效的蛋白质组分析。

虽然可以分析，蛋白质分析价钱是不是很昂贵？人类基因组计划前期需花费近 20 亿美金检测一个人的基因组，现在几千元即可做一个人的全基因组测序。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(12)

去年我们做了一个分析。从 2006 年开始，用质谱测量一个蛋白质的价格大概是 3 美金，14 年间价格直线下降，2020 价格降到 0.1 美金以下，今年价格继续下降。虽然质谱测量蛋白质的技术因技术门槛高未被广泛普及，但它在实验室里的价格已大幅度下降，趋于商用水平，这也是西湖欧米诞生的契机。

这些技术可将微观世界蛋白质组的运动规律捕捉下来，当它们转化为数据后，我们对生命和医疗的理解将步入更高的阶段。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(13)

我们如何更好地诊断疾病、治疗疾病呢？今天上午有老师提及通过 AI、图像、文本，和一些显微镜的图像，甚至对传统的血、尿、粪的生化检测数据进行智能分析，辅助疾病诊断和治疗。但是这些数据都是宏观数据，犹如隔靴搔痒。溯本求源，微观世界的分子状态、功能、种类、数量真正影响了疾病发展、药物治疗效果、预后机理等，这样的分子数据我们称其组学数据，包括基因组、转录组、蛋白组、代谢组、微生物组等等。其中最核心的是蛋白质组，几乎所有药物的靶点都是蛋白质。

通过蛋白质技术提取大量临床样品中的分子数据，积累海量蛋白质组大数据后，结合其他组学的数据，经 AI 整合就可以更精准地找到更多生物标记物。我们的实验室和西湖欧米公司一直致力于产生蛋白质组大数据，协助精准医学。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(14)

第三，蛋白质大数据应用实例

1、甲状腺结节诊断

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(15)

甲状腺如蝴蝶的形状一样，是一个 20 多克的小器官。有些人把它称为人体新陈代谢的 CEO，管理各个器官。它接受来自于大脑的信息，分泌甲状腺素，这个激素会控制五脏六腑，也控制肌肉力量、情绪，对人体非常重要。

甲状腺相关问题这些年不断受到人们的关注。据数据显示，成年人中大概一半患有甲状腺结节，女性高于男性，大约是男性的 3~5 倍，大部分是良性，但是也有 7~15% 的比例是恶性，沿海地区的比例更高一些。大部分人群出现恶性肿瘤的年龄，是 20~55 岁；这个年龄段大家的压力比较大，在压力过大的情况下甲状腺更容易出现问题。

目前我们诊断甲状腺结节是基于宏观世界的检测方法，通过无创的 B 超。如果 B 超发现甲状腺结节有潜在问题，这时需要通过细针穿刺，取出微量组织，用显微镜放大几百倍，观察其中是否有肿瘤细胞，如果有恶性肿瘤细胞，通常需要手术切除。手术也会存在一些其他的问题，如果影响到声带，患者说话唱歌就会出现问题。切了甲状腺需要终生服药，因为它分泌的甲状腺素人体无法自行合成，如果不服药，我们的五脏六腑、肌肉、情绪管理都会出现问题。

这个看似是一个简单/常见的问题，实际上有非常大的缺陷。虽然很多患者的结节是良性的，不用过多处理，改变生活习惯，调整作息就可以得到改善。有些是恶性则需要手术切除；但还有30%的甲状腺结节是无法精确诊断的，医学上叫 Indeterminate，通过我们现在的金标准也无法准确判断。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(16)

这篇文献就提到一种细胞学无法诊断的结节。美国的一些实验室与公司，他们开发了基因测序试剂盒，通过较为成熟的基因测序辅助判断结节的良恶性；他们的灵敏度达到接近百分之百（83%~100%），但是特异性只有10~52%。这意味着，如果是恶性，基本可以检测出来，几乎不会漏掉；但是被检测出是恶性的结节，实际上有50%到90%都是良性的结节。当试剂盒显示结节是恶性的，这会让病人和医生感到很大的压力，大部分人会因此选择切除甲状腺，之后终生服药。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(17)

我们能否用基于蛋白质组大数据结合AI开发一个新技术，让甲状腺结节诊断变得更加精准？基因检测准确率并不是很高，因为基因突变总体比较少，且存在个体差异，mRNA 相对来说又不太稳定，检测的难度较高。我们团队与新加坡和中国的几十家医院合作中，建立了多中心、回顾性的验证集和前瞻性的验证集，共包括一千多名病人，甲状腺结节穿刺后，进行蛋白质组分析。之后建立了一个神经网络，在其中挑选出 19 个蛋白，运用这 19 个蛋白再构建一个模型，这个模型就可以判断结节是良性还是恶性。具体的技术细节这里不作赘述。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(18)

这些结果的准确度都在90%以上，达到目前最高的准确度。这可以将良性肿瘤和恶性肿瘤比较好地区别出来，通过产业转化，让此技术可以应用于临床。这个产品只是精准诊断中的一个应用。其他病种，比如卵巢癌、大肠癌等都可以用类似的方法进行处理。

除此之外，它对制药也有很大的帮助。比如在甲状腺结节中有一个亚型Hurthle，分为良性的腺瘤和恶性的腺癌。在相对罕见的甲状腺肿瘤中，生物学研究稀少，治疗方法目前也尚不清楚，它的微观世界原理不清楚，导致没有有效的用药对策。

通过我们的研究发现，它们有 186 个蛋白与一般的甲状腺肿瘤不一样；其中有 160 个都与线粒体相关。线粒体是细胞里的能量「工厂」，正如汽车发动机，这说明在这个亚型肿瘤细胞中是发动机出了问题。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(19)

如图五颜六色原点（各个蛋白）代表的是发动机里面的各个部件，哪些蛋白出现了明显的上调，这些蛋白就是治疗的关键，但是哪一个更有效，需要进一步研究和探索。蛋白质组研究也可以为制药与疾病的治疗提供有价值的帮助。

2、新冠研究

下面讲另外一个例子——新冠研究。人们提到新冠异常焦虑，但实际上 80% 的感染患者是轻症（根据当时的数据），一般的隔离治疗就可以痊愈。据统计，20% 的病人是重症（当时的数据），重症患者需要吸氧或者呼吸机。问题在于，病人感染之后的早期，出现发热咳嗽时，如何能判断轻重症？如果早期可判断，就能提前采取不同的处理方式。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(20)

我们通过血液蛋白质组和 AI 模型来判断谁是重症，谁是轻症。临床研究一般会有一个训练集，知道有些患者是重症，有些患者是轻症。我们进行了训练集、验证集、独立验证等研究，看这个模型能不能在独立队列中得到验证。最后得到 22 个蛋白，7 个代谢物，1 个模型；这个模型相对比较简单，就是使用随机森林模型。

很有意思，我们发现这个训练集中有两个患者临床资料和症状不相符；其中有一个是 70 岁的男性，轻症被我们诊断为重症，他是所有人中年龄最大的，虽然是轻症，但是他的分子表型跟重症更加相似。另外一个独立的队列中也不相符，比如这个患者是重症，模型认为他是轻症，后来发现这个患者入院之前进行了 20 多天的中药治疗，虽然临床表现为重症，但他很快出院了。还有一个轻症患者，分子模型认为他是重症，后来发现这个患者有乙肝、糖尿病，并且他转阴的时间是所有病人中最长的，重症已经出院了，他却没有出院。临床有非常多的情况，有些患者病情突然转好，有些急剧恶化，如果可以提前预判，都会有很微妙的改变。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(21)

如图，有一位患者临床表现是轻症，模型认为她的分数最差，比重症的分数还要差。后来发现这位患者是一位 66 岁的女性，她采血的当天血糖达到 27.8mmol/L，空腹血糖一般 6.1 mmol/L以下，她当时的情况非常危险；当然，后来经过治疗她顺利出院了。为什么会出现高血糖现象，我们并不知道，如果治疗的时候可以基于分子检测的话，我们就可以更加从容地对这样的患者进行诊断。并且有一些生物信息学的分析，发现新冠感染之后病人会出现什么样的分子改变，同样对于治疗也提供了很多线索。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(22)

除了血液之外，最近我们开发了一个新技术，从尿液中进行蛋白质检测，并且结合 AI 模型进行新冠的判别，具体细节不赘述。一般认为尿液中没有蛋白，做体检如发现尿里有蛋白质会让人非常紧张，是不是肾功能有问题？其实是因为传统测量方法灵敏度不够，我们的技术可以测到尿液中存在四千多个蛋白，并且用尿蛋白建模型可以非常准确地预测新冠的轻症和重症。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(23)

如图，可以看到这两个重症患者，他们康复的时候分数越来越低，轻症患者一直比较低。因为尿液完全无创，我们正在开发一个产品，希望能够通过居家检测尿液，就可以对新冠或者其他疾病并行进行检测。这可以测到很多细胞因子，对疾病诊断以及发生的机理、治疗提供线索。

最后，前面提到那么多蛋白质数据，蛋白质组在数据上到底是什么样的形式？

现在蛋白质谱数据一般要通过长期的训练才可以看懂，但是我们做大数据的时候，像 AlphaFold2 提出 TensorFlow，转化成 Tensor 可以更方便地使用算法。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(24)

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(25)

我们把蛋白质的大数据变成 Tensor 结构（可为视频或音频），这里的每个像素点就是蛋白质多肽的片段，数据非常大。如果把这个视频变成一张图，每一列就是前面的一帧，横过来可以看到非常多的信息。任意取一个小的区域放大，就可以看到像宇宙一样，有无数的像素点。一个 45 分钟的质谱文件，差不多有 100 亿个像素点。我们用此方法可以将 DIAT、DIAT Tensor 区别疾病的良性和恶性，现在很多相关项目都在进行当中。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(26)

人工智能研究院智源学者计划西湖大学特聘研究员郭天南(27)

最后一张 PPT，为大家介绍西湖欧米的愿景。我们希望跟医院及社区合作，只要有人类的活动，就有健康、亚健康、疾病，我们有大量样品可以产生血液、尿液、粪便、组织等等，欧米希望搭建图中生态圈，通过质谱仪等设备积累蛋白质组数据，结合多组学数据，通过数据中心的处理转化为 Tensor，通过 AI 反馈到社区，反馈到医院，也反馈到制药公司，有助于新药研发。感谢聆听。

人工智能研究院智源学者计划西湖大学特聘研究员郭天南

最新推荐

热门推荐

人工智能研究院智源学者计划 西湖大学特聘研究员郭天南

最新推荐

热门推荐

人工智能研究院智源学者计划西湖大学特聘研究员郭天南