癌症容易逆转吗(似乎没那么简单)(1)

新年伊始,《科学》上发表了一篇由 Tomasetti 和 Vogelstein 合著的论文[1],短短两页半的内容,在媒体上掀起了轩然大波。许多媒体报道的时候,都用了类似“大部分癌症其原因都是运气不好”的说法,有些更是把“大多数”给具体到了“三分之二”、“65%”,甚至列出一张表说哪些癌症是运气导致的等等[2、3])。因为平时就有大量“致癌”、“防癌”的说法和方法充斥于网络和其他媒体(其中大多自然是谣言),现在突然有一篇科研论文把单纯的“运气”提升到了相当重要的地位,无疑会吸引不少眼球。

这么重大的消息,本人自然也非常关心。然而,在研读论文之后发现,虽然其中确实有一个“65%”,但和媒体报道的不是一回事;而那个列表似乎还有些牵强。那么,我在此介绍一下论文的具体内容,说说媒体报道在哪些地方出了问题、论文哪里有些牵强,并给出我的理由及其他的专家意见,供诸位参考。

基础知识:细胞分裂、变异和癌症

(如果你已经熟悉这部分内容又嫌文章有点长的话,可以直接跳到下一部分)

大家都知道细胞非常之小,以至于要靠显微镜才能看到,于是很容易就可以推断出,每个人身上细胞的数量就会非常多。事实上,人体的细胞数估计有37万亿(37,000,000,000,000)之多;如果算上机体更新所需要的细胞数(比如红细胞的寿命就只有3~4个月,所以需要不断更新补充)的话,这个数字会更大。大家还知道,人最早是从一个细胞——受精卵——变来的,那么就必然需要一种能在不太长的时间里弄出这么多的细胞的手段,这手段就是细胞分裂。

细胞分裂过程课本上讲得很详细,网上也有很多介绍和视频,进一步了解可以自行搜索。简单说来,就是细胞复制自己的DNA,然后分裂成两个具有相同DNA的子细胞。细胞分裂能够使细胞数量呈指数型增长,所以不需要很多次就能弄出相当多数量的细胞来。理论上,只需要分裂几十批次就能从一个细胞得到整个人体的细胞数。

但是,细胞分裂也是有那么一点风险的。

这个风险,就发生在细胞复制染色质[4]的时候。染色质的一个主要成分是脱氧核糖核酸(DNA),它是遗传信息的载体。全部DNA(称为基因组)以及染色质中的一些其他分子(称为表观基因组)加在一起,就是指导细胞工作的图纸。而细胞分裂的风险,主要就发生在染色质的复制上——虽然人类的细胞在复制染色质的时候有各种纠错机制,但复制仍然不是完美的——人类DNA上的每对碱基(即DNA存储信息的最小单元)在每次复制的时候,有大约一百亿分之一的概率会出错(发生变异)。这个数字虽然非常小,但人类的基因组有33亿对碱基,也就是说,预计每个细胞每复制三次就可能有一个碱基出现错误,加上一些其他因素导致的变异(下文会提到),这个概率可能会更高一些。

这听上去有点吓人,但所幸的是,人类33亿对碱基中的大多数并不是非常重要,即使错了影响也没有那么大[5]。而且,也正因为此,人类每一代在继承双亲的遗传信息的同时,会有几十对到上百对碱基的变异,这微小的变动正是生物进化的重要驱动力之一(另一个就是大家也很熟悉的自然选择)。[6]

说到这里你可能会有一个问题:对于单个细胞而言变异落在重要位置上的概率固然不高,人可是有数十万亿细胞啊,难道不会有几个细胞变异就碰巧发生在重要位置上么?这确实是一个好问题,而人体对此也有几套对应方案。方案之一就是给细胞分工,让一小撮细胞(称作干细胞)专门用于分裂来补充数量,因为它们基本不需负责其他生理机能,所以有精力采取更多手段进一步减小自己复制时发生变异的可能性;剩下的大多数负责其他生理机能的、已经分裂了很多次的细胞,就不会继续分裂下去。这样,在一定程度上限制了每个细胞可能累积到的变异总数,减小了发生重要位置变异的可能;同时,也减小了先前每个变异可能的影响(不会因后续的分裂而扩大影响范围)。

如果这个细胞的变异真的影响很大,以至于细胞不能执行其应有功能,甚至可能产生负面影响的话,那么还有另一个办法:细胞内部有一套预先设定好的自杀机制,满足一定的条件(比如变异落到重要位置)就会启动,这个变异细胞就会自杀以阻止变异产生影响(称作细胞凋亡)。如此一来就排除了这个变异,而人体零零星星地少那么点细胞一般来讲也没什么问题。

然而,事情总是有例外。有的时候,变异偏偏会发生在掌管细胞分裂或者阻止细胞凋亡的一系列基因中的一个或者几个之上,导致本处于休眠或不活跃状态的它们被激活(这些基因激活后有时也被称为癌基因)。与此同时,如果又有其他的变异发生在一个或多个抑制细胞分裂或者促进细胞凋亡的基因上,就会使得它们失去作用或者效果大大减弱(这些基因有时又被称作抑癌基因)。二者综合的结果,就是原本不该分裂的细胞出现异常,不停地分裂而无法控制,同时又不能及时启动细胞凋亡机制来让这些细胞自杀。这样,分裂失控的细胞就越来越多——就变成了癌。这就是绝大多数癌症的发生原因。

上面这个过程说起来虽然很简单,但具体的变异细节非常复杂——哪些是癌基因,哪些是抑癌基因,它们之间如何互相作用,又如何跟其他基因、跟细胞的其他部分、跟外界环境相互作用,以及我们怎样通过调控外界环境对这些作用施加影响等等——有很多我们现在仍然不清楚,这也是众多与癌症相关的生物学家以及医学专家们所研究的课题。

癌症与运气

了解了上面的这些知识之后你大概就会发现,由于绝大多数癌症都是在相关位置上发生变异引起的,那么变异发生在哪里就很重要。这就好比从一副扑克牌中一次抽出两张王(大约万分之七左右的概率),“运气”必然是重要原因之一。有的人可能一辈子都只有无关位置上的变异(总也抽不到两张王),那就不容易得癌;有的人变异一开始就发生在关键位置(一抽就是两张王),于是年纪轻轻就得了癌。这些情况生物学家和医学专家们都十分清楚,所以当听到“癌症与运气不好有关”的时候,很多人并没有那么惊讶,因为把概率说成“运气”跟现有的理论并没有本质上的冲突。

虽然癌症的发生归根结底基本上都算“运气”不好,但这不等于说其他因素就完全没有影响,其中一个就是已知的致癌因素。世界卫生组织下属的国际癌症研究机构(International Agency for Research on Cancer,IARC)根据大量研究成果编制了一份有相当权威性的致癌物列表。其中的第一类致癌物包括电离辐射和酒精等,与癌症发生的关系大多已有很充分的实验证据。虽然有一些因素的具体机理尚不明确,但大多会通过各种途径最终提高变异发生的概率。就好比一次抽五张牌而不是两张,那么抽到两张王的概率自然会变高。

另外还有遗传因素。如果有人癌基因的活性比较强,或者抑癌基因的功能不是特别强,那么致癌所需要的突变数量就会较少。而有些情况下,即使本来不会造成癌变的基因组位置的突变,也可能在遗传条件下造成癌变。这相当于一副牌里多了几张王牌,那么一次抽中两张王的概率也会更高。此外,每个人都同时从父母那里各继承了一套基因,抑癌基因(比如乳腺癌相关基因 BRCA1)必须两套都出现异常(即至少两次变异)——两张牌都是王——才有可能产生癌变;如果其中有一套的抑癌基因天生就出了问题,那么另一套上只要发生一次变异,就会癌变。在这种状况下,相当于只抽到一张王就足够癌变,那么概率显然也会更高。

这些可能影响运气的因素跟纯粹的“运气”(细胞分裂固有的概率)相比,到底有多大的影响呢?答案可能会让人失望。对于很多癌症而言,影响似乎并不是特别大,即使是已有很多相关研究的乳腺癌,大部分病人也并没有家族史或其他高危因素。事实上,癌症原因的这三个大头:遗传、环境、“运气”在各种癌症的原因中到底各占多少,也是一个不太容易回答的问题。因为相对而言,用传统的方法找出已知的遗传与环境因素各占多少比例还比较容易,但剩下的那些也不能就一概归于“运气”,没准还可能有尚未发现的前两类因素。而直接测试“运气”占多少比例的办法到目前为止还没有找到,这也正是 Tomasetti 和 Vogelstein 想在这篇《科学》论文里试图探讨和说明的。

罪魁祸首是分裂?

这篇论文的主要目的,就在于给人们直接衡量“运气”本身所占的比例提供一条新思路。纯粹的“运气”主要取决于细胞分裂带来的变异,那么就有这样一个推论:如果细胞分裂带来的变异真的跟癌症发生有关系,那么分裂的次数越多,出现相关位置变异的几率自然就会越大。好比抽一次牌跟抽十次牌相比,当然是十次里面同时抽出两张王牌的概率要更大一些。即如果分裂带来的变异占了癌症原因的很大比例,那么分裂次数越多,癌症的发生率也就会更高。

确定了思路之后,下一步就是具体的研究方法。既然想看的是分裂次数与癌症发生率之间的关系,就需要观察不同分裂次数所对应的癌症发生率究竟有怎样的不同。人体各个器官组织由于功能结构和体积上的差异,所需要的分裂总次数也有所不同,所以研究其癌变率与分裂次数的关系,就成了研究这个问题较为理想的数据来源。

统计不同器官组织的癌症发生率相对容易一些,用终生累计发病率(又叫终生癌症风险,即在一生的时间里给定人群中诊断出这种癌症的比例)就比较合适。对于很多癌症而言,这样的流行病学数据相对还是比较充分的。然而,人体各器官组织的分裂次数不同,要找到它们在人一生中的具体分裂次数却不是特别容易。为此,研究者利用相当数量的基础数据,包括器官和组织所含有的细胞数量、细胞更新的频率、组织中存留的干细胞量等等,最后估算出一个器官或组织一生会发生的总分裂次数。

拿到这两组数据之后,研究者发现,癌症的发生率与组织和器官一生的分裂次数确实存在正相关,这可以从下面这张对数散点图上看出来。总体来说,分裂次数越多的组织或器官,其对应的癌症发生率也更高。对这两个数据的对数值做线性回归之后可以发现,其相关系数可达 0.804,系数平方为 0.65。在生物学研究中,这样的相关系数其实是相当高的。(见图1)

癌症容易逆转吗(似乎没那么简单)(2)

图1 各组织或器官的总分裂次数以及对应的癌症发生风险。本图根据论文原始数据重新绘制而成,虚线表示线性回归之后的结果。同一组织不同分组的数据用红色表示。FAP:家族性腺瘤息肉病,HCV:丙型肝炎病毒,HPV:人类乳头瘤病毒。[7]

可能有人会说“相关性不等于因果”,没错。但在这个例子中,细胞分裂导致变异、变异引发癌症,背后都已经有很多理论和实验证明了;所以,建立在这些证明基础上的相关性,用来进一步解释因果关系并没有太大的问题。在统计学上,存在因果关系的两个变量的相关系数的平方,就表示变量的变化中有多大比例可以用这种关系来解释。这个例子表示,如果细胞分裂真能导致癌症,那么分裂次数的不同就可以解释人体不同组织或器官癌症发生率之间 65% 左右的不同。通过计算,相关系数平方的 95% 置信区间为 0.39 到 0.81,也就是说,关于分裂次数不同对不同组织器官间癌症发生率不同的解释程度,其真实值有 95% 的可能会落在 39% 到 81% 之间。不论是这次分析得到的 65%,还是置信区间边界的 39% 或者 81%,可以说都是不小的一个比例。[8]

这里你可能会有些疑问,既然在分裂次数上有很多估计之处,如果估错了那结果不就不可靠了么?其实我们也有一些统计学手段,即使估计有偏差,也可以大致地推算出这个关系的可靠程度,也可以知道这个相关系数的真实值可能会在怎样的一个范围里。Tomasetti 和 Vogelstein 为了确认这种相关性是否可靠,故意把估计值上下浮动了两个数量级(即将每个数值随机变成估计值的 1/100 到 100 倍)之后重新计算了很多次,发现在这些人为添加误差的分析之中,这两组数据的相关性依然比较高。由此可以推论,估计值上如果真的有一些偏差,对结果的影响也并不会特别大。

但是,这里就出现第一个问题了。正如前文所说,这个 65% 并不是说“所有癌症中的 65%”,而是“人体不同组织或器官癌症发生率差异中的 65%”,这是两个非常不同的概念。很不幸的是,作者在应对媒体的时候大概没有强调(虽然论文的标题其实就是那么写的,所幸作者后来特地为此发表说明澄清这件事),而在报道中,这两者很多时候都被混淆了。当然了,后一种解释对于实际应用价值并不如前者那么大,也不如前者那么抓眼球,这一点我们可以理解。但作为科技报道,媒体这样做实在是显得不专业。

要见微知著,不要不拘小节

说到媒体不专业,但其实如果我们把目光回到论文本身,也会发现一些比较奇怪的细节。从散点图大家可以发现,有几个数据点重画的时候标成了红色,它们实际是某些癌症在特定人群中的发病率。也就是说,这些癌症在这张图里被分成了多个组,比如说肺癌就被分为了吸烟组和不吸烟组;而结直肠癌(又叫大肠癌)则被分成了三个组:普通人组、遗传性非息肉病性结直肠癌(又称 Lynch 综合症)患者组,以及家族性腺瘤息肉病(FAP)患者组;骨肉瘤则除了有一个总项之外,还按照手臂、头部、腿部和骨盆被分成了四项。

单纯用这些分组过后的数据来说明这些状况不会影响癌症发病率,倒也问题不大,但是,如果要用它们来计算相关性的话,问题就来了:在计算相关性的时候,通常每个数据点的权重都是一样的(我用相同权重验算相关性得到了跟这篇论文同样的结果,所以应该权重一样),而他们的分组就意味着几个癌症权重得到了增加,像骨肉瘤更是增加到了五倍之多。如果仅仅因为这几个癌症有已知的分组方式就增加它们的权重的话,我认为是不合适的。当然了,这些细节只是影响最终的那个比例,而如果去掉所有的其他分组,得到的比例也并没有相差那么多(依然在65%左右,事实上反而比原来的值更高了一点点)。

说完了图1中看上去略欠严谨的部分之后,我们再看看作者后面的结论。作者试图将不同的癌症予以归类,分成了 D 类(Deterministic,表示“(由外界因素)确定”)和 R 类(Replicative,表示“(由)细胞分裂导致”)两种(见图2)。分类的结果是,多数的癌症被分到了 R 类,也就是说,多数癌症主要是由细胞分裂导致。如果这个结论正确的话,倒确实可以影响人们之前对癌症的认识,也可能会改变大家的应对策略,而这也变成了很多新闻报道的重点。

但是,这个结论有多正确呢?这就需要仔细地分析一下了。仔细一看就会发现一件比较奇怪的事情:用来得到这个结论的,仍然是分组之后的数据。以肺癌为例,在结论里它仍然被按照吸烟者和非吸烟者分成了两组,而且吸烟者的肺癌被归入D类,非吸烟者的肺癌归入了 R 类。也就是说,图上表示的是:非烟民中的肺癌就主要由细胞分裂引起,烟民中的就主要是由其他外界因素引起的。这句话是什么意思呢?如果把肺癌分组之后再归类的话,因为每个组的类别跟其他组并没有直接的关系,这归类的依据自然就只能来自本组之内,而组内的人有没有吸烟其实是没有差别的(非吸烟组中的人自然都是没有吸过烟,吸烟组自然都是吸过);所以,吸烟这件事并不能算在 D 类所谓的外界因素之内,这也就是为什么之前说是“其他”外界因素的缘故。然而,目前已有很强的证据表示吸烟与否对肺癌的发生率有很大的影响,那么这种故意排除最大因素的分组方式就比较奇怪了。如果把肺癌归为一类,而且按照作者的定义被分到 D 类中的话,那么作为最大诱因之一的吸烟也在考虑范围之内,就比较容易解释的通。

当然,这里也有另一种可能,就是作者在归类前先分组,真的是想衡量“其他”因素,那么我们就来具体看看这个类到底是怎么归的。如果只是看新闻报道或者论文正文的话,会发现这里的归类依据是一个叫做“额外风险评分”(Extra risk score, ERS)的东西。如果某癌症的 ERS 比较高,就会被归到 D 类中去,反之则是 R 类(参见图2)。于是,问题的关键就变成了:这个 ERS 到底是什么呢?

癌症容易逆转吗(似乎没那么简单)(3)

图2 不同癌症的 ERS 以及分类,蓝色者为 D 类,绿色者为 R 类,本图来自原论文的图2。需要说明的是,论文中图上的 ERS 值已经统一减去了某个固定数值,称作“调整后的额外风险评分” ( aERS),以使得 D 类癌症全部都是正值,而 R 类全部都是负值。这个分类结果的问题将在下文说明。

癌症的外因,是两个对数值的乘积?

大多数新闻稿对这个 ERS 的解释都不是特别地清楚,而论文本身也只用一句话把它带过了:“我们把终生癌症风险的对数值与组织/器官中干细胞的分裂总次数的对数值的乘积定义为 ERS”。换句话说,把图1的每个点坐标的对数相乘,就是图2分类的依据。然后由于图1的坐标已经作了对数变换,这 ERS 就是以癌症所对应的点和 (1, 1) 作为对角线的矩形的面积。为了让大家有更清楚的认识,我们在图 1 加上几条线,每条线上的点,其 ERS 都是相同的,而 D 类与 R 类肿瘤,就是因为它们对应的点落在了某一条 ERS 线的两边[9](见图3)。

癌症容易逆转吗(似乎没那么简单)(4)

图3 ERS 的含义。本图在图1的基础上绘制而成,蓝线、黑线和绿线与分别表示三条对应不同 ERS 值的曲线;在同一条曲线上的点,其 ERS 值都相同。黑线为图2中 D 型癌症与 R 型癌症的分界线。它真的是一个很有说服力的划分办法么?我看未必。

首先,由于对数运算的特性,一般用加和或者差值的情形会比较多,很少有人会用到同一个底数的对数值乘积(数学上不容易解释通);其次,跟其他的变量构造方法比起来,同一个底数的对数值乘积在实际情况中更不容易找到对应的解释;最后,可能是因为思路比较新的缘故,我们也没有看到过这样做的先例,作者自己也没有列出可以支持的参考文献。所以,作者要说明构造这样一个 ERS 的数值就能衡量某些癌症的额外风险,显然需要给出相当充分的理由才行,而正文的那一句话就显得很单薄了。由于论文的篇幅都有限制,没法事无巨细地阐述,有些信息自然会在正文中被省略掉。从前要知道这些细节,可能就需要写信去询问原作者到底是怎么一回事;而现在有了互联网,可以相对轻松地提供篇幅比较长的内容,正文无法详述的内容会作为补充材料放在杂志的网站上。虽然我个人认为这样的理由绝对是有很大价值可以想方设法放在正文里面的,但现在看来,想知道为什么作者用了 ERS,只能上网去找补充材料[10]

补充材料里面关于为什么要用对数乘积做 ERS,篇幅给得稍微多了一点。大意是说如果不用乘积而改用二者的商数的话,结果显然会更糟糕。还打了一个比方:比如说,如果分裂次数只有一百万次(对数值为6)的甲器官癌变率高达千分之一(对数值为-3),而分裂次数有一万亿次(对数值为12)的乙器官癌变率低达百万分之一(对数值为-6),那么这两者的对数值商数是一致的。但甲器官显然受外界影响要比乙器官要多。

说实话,这个例子里面甲器官的影响更大是没错,但最大的问题是——为什么要拿对数值的商数作为对比呢?同样底数的对数值之商跟乘积类似,也是一个很少用到、很难找到实际情况的对应解释、也没有先例的构造方法;所以即便显得更合理,也完全不足以说明对数值乘积有多好。如同想说明一棵树可以用来挑大梁,拿它跟一段朽木比显然是远远不够的。(见图4)

事实上,有很多更简单的构造办法在上面的例子里也会有很合理的结果。比如用对数值之间的差值,甲器官的数值也明显比乙器官要小得多,更何况对数值的差值表示了取对数之前二者的比例。也就是说,可以解释成“干细胞每分裂若干次增加的癌症发生率数量”(见图5)。那么用乘积归类比用差值归类优越性在哪里呢?这些不管是正文还是补充材料里都没有回答。在这里,作者只是拿对数值乘积跟商数比较了一下就得到结论,说用乘积定义的 ERS 可以表示癌症受外界影响的大小,还直接用这个数值给癌症做了分类,实在是太过于随意且不负责任。

癌症容易逆转吗(似乎没那么简单)(5)

图4 用商值来分的意义。这显然是一种非常糟糕的分法。

癌症容易逆转吗(似乎没那么简单)(6)

图5 用差值来分的一个例子。为什么 ERS 比这么分要好呢?作者并没有说明。

除去以上的分析之外,要说这个归类办法不准确,还有一些其他的原因。比如说文中将黑色素瘤(一种皮肤癌)归入了 R 类,然而很多文献表明,对于不从事户外工作的人而言,间歇性的太阳直射会使得黑色素瘤的发病率比没接受直射的人高六到七成[11],英国的公益研究组织“英国癌症研究”(Cancer Research UK)更是有结论说英国 86% 的恶性黑色素瘤是可以避免的[12]。那么,单凭一个 ERS 把黑色素瘤归到 R 类,认为它主要是因为细胞分裂引起,就明显不符合事实了。

只有尽人事,才可听天命

说了那么多,你可能已经理解,虽然说从原理上讲癌症必然与“运气”相关,但这篇论文终究只是用计算结果说明,细胞分裂次数越多,相应的组织/器官发生癌变的风险就越高这个事实。实际上,论文既没有像媒体所说的那样,证明“大多数癌症只是单纯因为运气不好”(那个65%只是说细胞分裂能解释不同器官与组织间癌症发生率的区别程度),也没有特别有说服力的理由确定哪些癌症的“运气”成分更高(且不说某些癌症的分组问题,那个 ERS 理由实在是太过于牵强,而且结论也不是很正确)。前面说到,癌症原因的这三个大头——遗传、环境、“运气”在各种癌症的原因中到底各占多少,是一个不太容易回答的问题。可以说,这篇论文最有价值的地方就在于提出了这样一个能够验证“运气”成分大小的思路,并且也下功夫估算了很多癌症的数据,很可惜的是,这些价值被后文那个牵强的 ERS 以及媒体对图1的错误说法给掩盖了。

更大的问题是,论文虽然在学术方面有一定的价值,结论的实用性却不是特别大,而且后面那些牵强或错误的结论却会实际影响人们对癌症的应对策略。人们可能会因为某些癌症“纯粹是因为运气因素”而不在日常生活中采取一些可以降低癌变风险的办法。比如不再戒烟戒酒、不注意日晒防护、不注射某些病毒的疫苗,或者大量食用有致癌作用的食品、合成药品或中草药制剂等等;这些对于减小癌症的发生率以及促进身体健康而言都是有害的。论文发表之后,很多医生或生物学家都对论文或媒体的报道表示了一定的质疑[13、14、15],包括前面提到的 IARC 也在论文发表后一周公开发表声明表示不同意这篇论文的结论[16],恐怕也有这样的考量。当然了,如果相信某些江湖医生或者养生段子宣称的“所有癌症都必然能在你身上找到原因”,导致完全不承认“运气”成分的存在,以至于这不敢吃那不敢碰,反而花大价钱去买那些未经验证的“抗癌”药品,甚至不敢住在电线附近或者要求邻居关 Wi-Fi,进而反对核电、PX,就是另一个极端了。这就好比打牌,你固然没有办法控制自己抽到什么样的牌(号称能这么做的基本都是骗子老千),但因为抽牌要看运气就闭着眼睛乱打一气显然也是不明智的。

另一方面,这里也完全没有提到癌症的治疗和预后。即使某些癌症的发生真的纯属“运气”不好,也并不代表患上就完全没有办法。事实上,随着诊断和医疗技术的发展,很多几十年前非常凶险的癌症如今早发现早治疗,已经能够相对容易地控制病情,并且有较高的五年存活率(例如前列腺癌与乳腺癌等)[17]。也就是说,即使起手拿到一手烂牌,而且抽牌过程中运气也不好,但在很多情况下,如果接下来能够认真打的话,结果也不会特别糟。从这个角度上来讲,对于癌症也不应该轻易地把身家性命完全交给运气来处置,不能轻言放弃。

总的说来,如果你不相信癌症的“运气”成分的话,我希望看了本文或者读过论文的前半部分后,会有些新的想法。如果你已经知道癌症的“运气”成分,那最好不要因为论文后半以及媒体的报道,在“运气”的作用上走极端,改变自己对癌症的正确看法。对于癌症的应对策略,有句老话叫“尽人事,听天命”其实还挺切合的。就是说,即使尽了人事,有时仍然会因为运气不好而导致不想要的结果;但是,天命不济万万不是不尽人事的理由。同时,生物学家和医学专家们也在不断努力,了解并设法增加“人事”在这里的作用,当然这些都是题外话了。

注释

[1] C. Tomasetti and B. Vogelstein, Variation in cancer risk among tissues can be explained by the number of stem cell divisions, Science, Vol. 347 no. 6217 pp. 78-81

http://www.sciencemag.org/content/347/6217/78(全文下载需要付费或者图书馆订阅)。

Science 编辑撰写的介绍可参见http://www.sciencemag.org/content/347/6217/12.full(全文下载需要付费或者图书馆订阅)。

[2] http://www.telegraph.co.uk/news/science/science-news/11320497/Most-cancers-are-caused-by-bad-luck-not-genes-or-lifestyle-say-scientists.html

[3] http://www.cbc.ca/news/health/two-thirds-of-cancers-caused-by-bad-luck-not-heredity-environment-1.2888125

[4] 染色质在细胞分裂的时候会聚集起来,形成大家比较熟悉的染色体。

[5] http://sandwalk.blogspot.com/2013/03/estimating-human-mutation-rate-direct.html 和 http://sandwalk.blogspot.com/2013/03/estimating-human-human-mutatin-rate.html这是两篇讨论人类基因组变异速度估算方法及结果的文章,作者为加拿大多伦多大学生物化学教授 Laurence Moran。

[6] 人类的基因组中最重要的部分——基因的长度只占到了2%不到,还有一些调控这些基因的其他区域,剩下的地方发生变异通常影响不大。可以查阅遗传学,基因组学,以及表观基因组学方面的相关介绍。

[7] 论文的原图可以在这里 http://www.sciencebasedmedicine.org/wp-content/uploads/2015/01/Figure1Vogelstein2.jpg 找到,个人认为原图中坐标轴没有刻度,而且表示癌症终生累计发病率的 Y 轴范围上限超过了1,这是很不合适的。

[8] 关于置信区间的概念,可以阅读实验数据分析、概率论或者数理统计的相关介绍。

[9] 具体说来,作者是使用了 K-means 的方法来确定是哪条线。K-means 是统计学上常用的聚类方法,但这里作者对它的应用其实也有一些可以商榷的地方,如果有兴趣的话可以查阅统计学相关的文章。

[10] http://www.sciencemag.org/content/suppl/2014/12/31/347.6217.78.DC1/Tomasetti_SM_Rev.pdf

[11] http://www.cancer.gov/cancertopics/pdq/genetics/skin/HealthProfessional/page4

[12] http://www.cancerresearchuk.org/cancer-info/cancerstats/causes/preventable/#Sunlight

[13] http://www.sciencebasedmedicine.org/is-cancer-due-mostly-to-bad-luck/ 这是美国韦恩州立大学医学院教授肿瘤外科教授兼知名博主 David Gorski 所写的博客文章,对癌症的背景知识也有比较详细的介绍。

[14] http://ameyer.me/science/2015/01/02/vogel.html 这是美国麻省理工学院生物工程博士 Aaron Meyer 的批评,其中提到了统计学方法上的一些问题。

[15] http://www.riskscience.umich.edu/bad-luck-cancer-media-get-wrong/ 这是美国密歇根大学环境健康学教授 Andrew Maynard 对媒体报道的批评。

[16] http://www.iarc.fr/en/media-centre/pr/2015/pdfs/pr231_E.pdf

[17] 美国的癌症五年存活率可以参见美国癌症调查、流行病学分析以及最终结果数据项目(Surveillance, Epidemiology, and End Results, SEER 项目)的资料:http://seer.cancer.gov/csr/1975_2011/results_merged/topic_survival.pdf

,