情人节将至,小编掐指一算,从1月20号返乡大潮开始,各地的咖啡馆、茶室、火锅店的单身男女一定络绎不绝。
有几对能在这相亲潮过后“相忘于江湖”呢?
于是,好奇的小编没闲着,搞(开)了个研(脑)究(洞)。
各对相亲男女初次见面的时间不同,结局也各有不同:
有的在1月20号就被安排了相亲,比如Cathy和Mike,但相处一段时间后发现并不来电,最终只打算交个朋友。
Lisa和小王这对,Lisa发现介绍人明显对小王的颜值和人品夸大其词,遂决定与小王老死不相往来。
Amy和Louis没有见光死,郎才女貌,甚是般配,然而两人都没有去对方城市发展的规划,长痛不如割爱。
Kevin对Anna一见钟情,相处和谐,无奈小编太过八卦被屏蔽,再也联系不到这对姑娘小伙……
最幸运的估计是Jane和小李了,三观一致,家庭背景相似,也许结局不错,至少情人节还准备一起过了不是?
小编将他们的情况总结在下图,横线代表接触相处的时间,X表示“拜拜”的结局,O代表失联的男女。他们之间的故事,是不是一目了然?
前面三对,在小编的研究时间内,都发生了关注的结局事件。而后面两对,在研究时间内尚未发生或观察到事件的发生,相处时间也只能遗憾地被删失了。
分析此类与事件相结合的时间数据,就是通常说的“生存分析”。
这类数据,经常出现在肿瘤临床试验中,比如总体生存期(Overall Survival, OS),通常说的是病人自开始接受治疗至最后死亡的生存时间;还有无进展生存期(Progression Free Survival, PFS),指的是病人开始治疗到肿瘤进展或死亡的时间。为了能够收集这类数据,病人从进入试验开始就会被一直随访,直到发生终点事件或在试验结束时被删失。
所以,在生存分析的数据集中,每个观察对象都有对应的“生存”时间,并有另一个指标变量区分该对象是否发生终点事件,发生则为1,删失记为0。
相亲这个研究,数据就会长成下面这个样子:
表格数据看起来费劲,不如画个生存曲线(又称Kaplan-Meier曲线)吧?
研究刚开始时,男女相亲可能成功概率(生存率)是100%。随着后来的接触了解,也随着那些提前出局的男女,相亲男女的生存率不断下降。
所以,生存曲线是一条单调递减的曲线。当有男女决定彼此不合适而不再继续时,这条曲线就会阶梯下降。
图中可以看到,曲线的第一次大幅下降来自Lisa这对“见光死”,和他们类似的相亲男女约占到了本研究人群的25%;像Anna和Kevin这样低调处理的男女,因为小编无法判断他们最后的关系状态,于是用“ ”号标记在曲线上,表示在该时间存在删失数据。Jane和小李这对小情侣发展顺利,相处17天后研究结束,无法再得知状态,因此也用“ ”标记;从生存曲线中也可看出,在研究期间“确认存活”整整25天的幸运男女大概只占20%。
在这个研究中,相亲存活率在4.5天时降到了50%,所以中位生存时间为4.5天。说起相亲,大家自然的要和自由恋爱进行比较。若自由恋爱的中位生存时间无法观测,也就是50%的自由恋爱男女的恋爱时间能超过25天,这么一比,自由恋爱明显更靠谱嘛!
在肿瘤研究中,为比较两种治疗优劣,中位生存时间是常用指标,指的是50%的病人能够存活的时间。这个指标因其非常直观的含义而受到研究者的偏爱。中位生存期比较的是特定时间点上的生存时间。
但临床应用中,更值得关注的是两个治疗为试验人群带来的整体受益的区别。这么一说,生存曲线图就必不可少了,各生存曲线的位置和其之间的关系也显得尤为重要。
一个常用的指标叫风险比(Hazard Ratio,HR),指的是单位时间内治疗组和对照组之间的风险差别。比如对照组相对于治疗组的死亡风险比是2,说明每个单位时间点内,患者在对照组的死亡风险是治疗组患者的两倍。风险比反映了生存率的整体情况。
用生存曲线来比较治疗组和对照组,绝对是“距离产生美”。如果像上面的图中自由恋爱的曲线远远高于相亲一样,治疗组曲线远远高于对照组,那真是皆大欢喜了!
那么,在骨感的现实中,“网恋”的生存曲线又如何呢?
上图中,相亲与网恋的中位生存期非常接近,曲线还交叉了!随着时间增进,相亲相较于网恋的优势渐渐显现,可以预测网恋关系告吹的概率比相亲告吹的概率大的多,风险比大于1。虽然两者中位生存时间接近,小编更愿相信,相亲比网恋靠谱些(一脸严肃)!
小编认为,这些数据结果包含了很多信息,但前提是基于的试验设计是科学合理的。像小编这样的脑洞得来的数据……呵呵,那个,听说明儿情人节天气不错,大家还是准备准备去秀恩爱吧!
祝大家在爱情这一命题里,生存曲线高高在上,中位生存时间永远观测不到!
,