临床试验常见问题分析 临床试验简史之(1)


开始的话

现在我们都知道,一个药物想上市,就必须能证明其有效且安全。那么如何才能准确的证明药物的有效性和安全性呢?这可是一条临床试验科学方法发展的智慧之路,这条路一走就是一千多年,走出一部波澜壮阔的史诗。


一、原始混沌

在东方,神农尝百草,主动寻药,以身试药,成为原始的药物临床试验的象征。但是这是完全主观、粗浅甚至有点愚昧的阶段,常见的联想类比来推断观察对象,有时候显得很荒谬。


临床试验常见问题分析 临床试验简史之(2)

神农氏



在西方,希波克拉底(Hippocrates)除了贡献了那篇传世的誓言,更将观察性研究引入了医学,通过对植物动物矿物药用价值的观察得出治疗作用的结论,他的观的更细致更完备更忠于事实。



临床试验常见问题分析 临床试验简史之(3)

希波克拉底


这个阶段,无论东西方,都是通过主观的观察和盲目的试验来发现药物,这种观察性研究先天的局限性在于观察者无法排除无处不在的各种干扰因素。



二、端倪初现

中世纪的“医学王子”阿维森纳(Avicenna)做了一个可以流芳百世的试验。他将两只体质相同、喂养方式相同的小羊放在两个完全不同的环境里圈养,一只生活环境平静安逸,另一只却邻狼而居。不久后,后者逐渐消瘦而死去。

这个试验的伟大之处就在于两点,一是设立了对照,二是注意了组间的均衡。现在看来此试验非常粗糙,结果不可靠,但是它包含的通过对照来求证干预措施效果的伟大思想简直光芒万丈。

与此同时,我国宋代苏颂所著的《本草图经》记载了一个类似的“对照试验”,教如何分辨上党人参的功效。试验选择了两个人,一人口含人参,另一人不含人参,分别步行三里地。结果发现,不含人参者大喘,口含人参者则呼吸自如。这也被认为是中国最早的含有朴素对照思想的临床试验。

临床试验常见问题分析 临床试验简史之(4)

人参的对照试验


遗憾的是,这种对照思维并没有引起关注,在之后的数百年间,再也没有得到发展。于是,万古如长夜,在等待一盏明灯。


三、西方渐明

16世纪的坏血病是远洋海员深深恐惧的“夺命瘟神”。

英国皇家海军的一名外科医生——詹姆斯·林德博学多才,富有怀疑精神。质疑大量关于坏血病的民间疗法,于是亲自设计试验,探究真正有效的治疗方法。

选择12个严重病例,分成6组,每组2人,所有人每天正餐都相同,辅食则不同,这些辅食正是当时流传的治疗坏血病的方法。分别是:醋;稀释的硫酸;苹果酒;海水;肉豆蔻 大蒜 辣根;两个橘子 一个柠檬。最终结果是吃了橘子和柠檬的2名海员症状逐渐好转康复。

此后,其实是40多年后,英国海军部下令所有船只只供应柠檬汁,效果立竿见影,到18世纪末,坏血病便基本从英国海军中消失了。

临床试验常见问题分析 临床试验简史之(5)

柑橘和柠檬治疗坏血病的试验


詹姆斯·林德的坏血病试验之所以伟大,不仅在于确证了坏血病的有效疗法,更在于其在临床试验方法学发展史上的跨时代地位。它是历史上第一次尝试用系统的对照试验方法检验药物的疗效。

也正是因为这一试验的非凡意义,每年的5月20日,也就是林德随船出海的那一天,被定为“国际临床试验日”。

从今天的标准看,这个试验方法还很粗糙,工作看起来也幼稚,但是这种系统的科学方法来检验药物疗效的思想,如一盏明灯,照亮了后人。


四、前赴后继

对照的思想逐渐为大家接受,但是,选什么作为对照呢?

首先想到的当然是与已有的旧治疗措施作为对照,也就是阳性对照。但是这种思路的缺陷在于:旧的治疗措施即使在过去已被证实有效,但是在与新的治疗措施比较的试验里,即使两组患者都痊愈,也不能说新疗法一定有效。因为存在这样一种可能,新旧两种疗法都没有体现出有效性,是两组患者自愈的。

另一个思路,设立不施加任何治疗措施的对照组,即空白对照。空白对照可以很好的排除疾病自愈的因素。如果治疗组患者痊愈,空白对照组未见好转,则可以证明治疗有效。但是,有没有可能,治疗组患者痊愈并不是治疗手段本身有效,而是一种神奇的效应发挥了功能呢?也就是安慰剂效应。

1799年,英国名医约翰·海加斯(John Haygarth)设计了一个对照试验。第一天他用木头仿制的金属棒给5位风湿病患者治疗,其中4位表示疼痛得到了缓解。第二天用铁铜合金的金属棒(一种昂贵的名为珀金斯牵引器的治疗仪)对这5为患者进行治疗,同样有4位表示病情有缓解。海加斯意识到:心灵的热情和由想象引起的期待可能会对身体状态和疾病进程产生神奇而强大的效应。这种安慰剂对照很好的解决了空白对照不能检验安慰剂效应的难题。

临床试验常见问题分析 临床试验简史之(6)

金属棍电磁作用试验


安慰剂效应被发现后,西方医学发展进程出现重大转折,药物临床试验的方法学也自对照思维确立以来,取得历史性的突破。


五、医患和睦

自从出现医和药的概念后,形成了一个坚信不疑的理念:生病就得就医,且进行治疗。但是安慰剂效应的发现,颠覆了这种理念。

西方医生开始关注到以往认为有确切治疗效果的药物或疗法,似乎和安慰剂的疗效相差无二。更惊奇的是,许多原本认为若不治疗则必死的疾病竟然可以自愈!一些医生逐渐对西方传统的权威医学理论以及在这些理论指导下产生的疗法产生怀疑,有些医生干脆放弃对患者的一切治疗,代之以基本的生理护理和心理安慰。

医学领域对安慰剂效应的无线痴恋,以至于在19世纪相当一段时间内,西方医生不再关心如何治疗患者,而是让自己变成一个安慰者、观察者和记录者。安慰迅速取代了治疗,医学从积极进取转向了消极无为。吊诡的是,这一段时期竟然成为西方历史上医患关系的“黄金时期”。


六、历史转折

直到近代西方科技革命开始以后,现代医药相关的基础学科如微生物学、免疫学、生理学、药理学等强势崛起、突飞猛进,彻底摧毁了西方传统医学的旧大厦,并建立起现代医学和现代药学的新大厦。

美国的比彻(Beecher)医生是二战战场上的一个麻醉师,一次战斗中,镇痛剂用完了,伤兵因痛哀嚎。比彻让护士给伤兵注射生理盐水,并说是强力镇痛剂。令比彻震惊的是,这些伤兵居然停止了哀嚎,止住了疼痛。

战后,比彻回到美国,致力于验证药物疗效的研究,并与1955年发表了著名的论文《The Powerful Placebo》,这篇论文里描述了数十个常规药物的效果其实来自安慰剂效应,并宣称35%的患者能从安慰剂治疗中获益。

其后,学者纷纷开始研究安慰剂效应的内在机制,随着神经生物学的发展,人们逐渐认识到,安慰剂之所以能产生生理效应,其根源不在于“安慰剂”本身,而是“安慰”二字的内涵。一旦失去了“安慰”内涵的实践,“安慰剂”就不能称之为安慰剂,也不能产生安慰剂效应。

而且,安慰剂效应并不是万能的,其作用大多集中在功能性疾病领域,比如镇痛。对于器质性疾病,安慰剂效应有心无力了,比如骨折、肠穿孔等。另外,安慰剂效应的机制也决定了其作用的发生是不稳定和无规律的,也就是说,有人觉得有效,有人觉得无效。

比彻明确指出,只有强于安慰剂效应的药物作用才能认定为有效药物。他的结论得到了FDA的认可,并推动FDA作出规定,在不违背伦理原则的前提下,任何临床试验都应该尽力排除安慰剂效应。此后,与安慰剂组对照成为新药临床试验的不二法则。


七、闭眼闭眼

安慰剂之所以能发挥效应,前提是患者视“假药”为“真药”,也就是说,患者处于被蒙蔽的状态。

临床试验中,通过一定的技术手段,达到让受试者不知道自己被施加的是安慰剂还是试验药物,受试者就好像被蒙上了眼睛,这就是盲法试验。准确的讲,是单盲试验。

那么是不是仅仅受试者蒙住眼睛就够了呢?

答案显然是不够。有研究者发现,如果医生知道谁使用试验药物,就可能不由自主地将更多注意力投射到这些患者身上,从而诱导出更强的安慰剂效应;反之,如果医生知道谁使用的是安慰剂,就很容易在态度和言语上有所流露,从而妨碍安慰剂效应的出现,甚至出现烦安慰剂效应,让患者病情超乎寻常恶化。

另外,历史的教训无数次证明,研究者在知道受试者真实治疗措施的情况下,违背原则地做出符合自己期待或利益的主观判断是完全可能的。

所以,为了评价治疗药物的真是疗效,与患者直接接触的医生也不宜知道患者使用的到底是试验药物还是安慰剂。也就是说,需要把被评价者和评价者的眼睛都蒙住,即双盲试验。

单盲的设置源于对安慰剂效应的认知和控制,双盲的设置是基于对研究者或医生的态度和选择偏倚的控制,也就是霍桑效应。

至此,在对照的基础上进行双盲试验,就排除了主观因素的干扰,向求得客观世界的真理进一步靠近。


八、再次闭眼

如果研究药物和阳性对照药物很难在外形上做到一模一样,怎么办?比如A和B两种药的外观或气味差异很大又无法改变。

然后就出现了“双盲双模拟”,首先制备外观和气味与A药和B药的A药安慰剂和B药安慰剂,在分组用药时,服用A药加B药安慰剂,服用B药加A药安慰剂。这样的处理就可以让两组受试者服用的药物在外观与气味均一样,达到患者和医生都无法区别的目的。

经过多年的种种双盲试验的实践和经验总结,1932年德国临床药理学家保罗·马提尼(Paul Martini)对其进行了系统阐述,总结出了包括无偏见地设置对照、分组、盲法、安慰剂等在今天看来仍然无比正确的临床试验基本原则。

那么,双盲试验的设计是否能够完全避免人为因素的主观干扰而确保结果评价的客观公正呢?未必。

进入当代,临床试验实施过程犹如一个流水线作业,从产生数据,到收集数据,再到分析数据。双盲试验的设计着眼与产生数据这个阶段。然而,产生客观可靠的数据并不一定意味着结论客观可靠,因为中间还要经历收集数据和分析数据两个阶段。如果数据收集相关人员没有设盲,那么就无法排除他们有意剔除某些不好的数据的嫌疑。同理,如果分析数据相关人员没有设盲,也不能排除他们现在有利于研究药物的分析方法。

因此,有必要对临床试验的数据收集者和统计分析师设盲,从而避免在数据收集和数据分析过程中的主观认为因素导致的倾向性偏倚。这样就产生了“三盲试验”的概念。


九、随机起源

那么,是不是到此为止,就解决了关于临床评价客观公正无偏倚的一切问题呢?NO!

临床试验是以人为研究对象,个体之间不管是先天还是后天都千差万别,如果研究者在分组时,有意或者无意把病情轻的年轻的个体都分在治疗组,而病情重或者年龄大的个体都分组对照组,那么即使试验结果表明治疗组的疗效远远好于对照组,仍然无法确定是因为研究药物导致还是两组之间个体差异导致,反之亦然。

这种组间的不均衡带来的便宜如何解决呢?自然是想尽一切办法让两组情况均衡化了。那么如何实现组间均衡化呢?

第一个思路是匹配。就是在分组前按照个体的基本特征进行组间匹配,从而实现两组间的均衡化。但是这种做法的有个问题,个体差异因素又很多,比如病情严重程度,年龄,性别,身体强弱等等,而在分组前往往不知道哪些特征对结果有决定性影响。而且当特征因素很多时,又很难做到对全部特征实现分组均衡。

第二个思路就是随机化。就是通过不参杂任何倾向性的随机化方法,让每个个体被随机的分配到任何一组,达到组间的均衡。正是随机化思想在临床试验中的应用,推动了临床试验方法学走向成熟。

英国著名统计学家罗纳德·艾尔默·费希尔(Ronald Aylmer Fisher)在1925年首次提出试验设计的随机化原则。1935年在《试验设计法》中对随机化做了系统阐述,并指出随机化是统计分析的前提条件。他在此书里更是提出了著名的“试验设计三原则”——随机化、区组控制和重复。1937年,费希尔在《医学统计学原则》中提出了严格遵守随机化是临床试验的必要条件,奠定了临床试验方法学的理论基础。

临床试验常见问题分析 临床试验简史之(7)

链霉素治疗结核病的试验


十、重复重复

是否引入了随机化就解决了临床试验评价方法学的所有问题呢?没有,还有一个大问题。

临床试验结果得到的是A组和B组患者的疗效差异的结论,但是我们需要的是A药和B药的疗效差异的结论。两者有区别吗?当然,大大的不同。A组和B组患者仅仅是服用A药和B药的患者的两组样本,而不等同于服用A药和B药的所有同类患者的总体。

通过随机对照双盲这样的严格的控制试验条件的方法,得到的结论也许是可靠的,但是仅从两组样本得到的结论是否可以推之于总体?这个结论有没有偶然性?换句话说,我们换一批样本或者改变每一组样本的数量是否还能够得到同样的结论?抑或结论会发生翻转?

那么如何避免或者降低结果的偶然性,从而真实的反映总体的真正效应呢?办法就是增大样本量。

样本量越大,结果可重复性越高,就越能反映总体的真实效应,这个判断有科学依据吗?这时候,伯努利的大数定律就出场了。大数定律告诉我们,在不确定性事件大量重复出现中,往往呈现几乎必然的规律。

临床试验常见问题分析 临床试验简史之(8)


换句话说,样本量太小就无法揭示迷雾中的真相,样本量越大,试验结果越接近真实值。但是,同时又产生一个问题,是不是样本量越大越好呢?一定数量的样本量是保证科学性的前提,但是显而易见,样本量太大则费时费力费钱,而且如果让不必要的受试者置于临床试验的风险之中,这是不符合伦理的,违背了“伤害最少”的原则。

那么,样本量到底多大才算可以保证实现结果可重复性的最小样本量呢?试验的结果不可能有百分百的可重复性。我们只能在试验之前考虑清楚,我们需要在什么标准下,以多大概率实现可重复性。

如果要证明A药的疗效优于B药,我们首先针对每一个研究案例进行明确的界定:优效的标准是什么?比如,治疗糖尿病的A药和B药,到底两者在降低血糖的效果上差距达到多少才算是优或者劣?这个疗效指标值的差距需要明确的量化,通常由临床专家来界定。

再则,重复试验的结果,仍然有一定犯错的可能。比如,本来A药和B药的疗效没有差异,而我们的试验结果却有差异,或者反之。因此,在每个具体的临床试验设计中,需要预先决定我们可以容忍的结果犯错的概率,这需要统计学家的参与。

在以上参数设定的基础上,就可以通过公式来计算样本量了,这个样本量就是在设定的参数前提条件下,临床试验中需要的最小样本量。


十一、返璞归真

到此为止,临床试验设计的四大原则——对照、双盲、随机以及重复,都已一一呈现。这四大基本原则,构成了随机对照临床试验(Randomized Controlled Trial, RCT)的基本要义,是目前药物临床试验设计的“金标准”

从詹姆斯·林德开始,人类用了200多年的时间,直到20世纪中叶,才建立起这样一套“金标准”,可以说是穷尽了一切可能的努力,最大限度地降低了干扰因素对试验结果评价的影响,增加了试验结果的可重复性,抵达了真理的彼岸。

然而,这里所追求的真理是经过对照、双盲、随机这样严格控制条件下得到的真理,是“理想世界”的真理。

而“真实世界”可能跟“理想世界”不太一样,在真实世界里,患者的情况是非常复杂而各异的,特殊人群同样可能是服药对象,患者也可能随时换药,抑或同时患有多种疾病,另外对治疗的依从性也不一定好。

临床试验常见问题分析 临床试验简史之(9)

更重要的是,理想世界和真实世界追求的目的其实有本质不同。前者是为了对药物疗效做出评价,为通过审批提供依据,无论从企业的成本限制还是患者的迫切需求来讲,都不允许试验做太长时间。因此,在有限的时间里,只能观察一些短期的、直接的疗效评价指标,而对于生存期的评价就比较难了。而生存期却正是患者所关注的。

真实世界研究(Real world study, RWS)应运而生。RWS有很多好处,但是也存在很多问题,由于数据来源于真实世界,数据的质量可能不高,形式也不标准……

为什么在讨论临床试验方法学发展的最后,要说到RWS呢?概括来说,RCT需要回答的问题是“药物是否有效和安全,并得到审批上市”;RWS所要回答的问题是“药物上市后,在临床实践中能否作为有效医疗手段”。因此,RCT和RWS两者不是相互取代,而是相互补充的关系,各有价值,缺一不可。

最后的话

回顾关于临床试验方法学发展的一路历程,从“神农尝百草”时代到RCT的产生、发展及成熟,是从“真实世界”进入“理想世界”的过程;而从RCT到RWS,人类又从“理想世界”回到了“真实世界”。

正所谓,看山是山,看山不是山,看山还是山。

来源:药云聘

临床试验常见问题分析 临床试验简史之(10)

,