新智元报道
编辑:Aeneas 好困
【新智元导读】这个AI算法竟然可以听声辨新冠,而且准确率高达89%!
新冠病毒的出现,真算是打开了潘多拉的魔盒。
如今不断新出现的变种,打乱了整个地球人的生活。新冠之前那种不戴口罩的生活,也许再也回不去了。
最近,科学家们有了一个新发现,或许未来可以让我们告别捅嗓子眼儿的日子。
在西班牙巴塞罗那举行的欧洲呼吸学会国际会议上,一项研究显示,AI可通过手机应用程序收集到的声音,判断用户有没有感染新冠肺炎。
根据News Medical的报告,本研究中使用的AI模型比快速抗原检测更便宜、更快、更易于使用,非常适用于PCR检测昂贵的低收入国家。
此外,这个AI还有一个更厉害的地方——准确率更高。比起快速抗原测试,它的准确率能达到89%。
准确率达89%
研究团队使用了来自英国剑桥大学「新冠肺炎声音库」APP的数据,该应用程序包含来自4352名健康和非健康参与者的893个音频样本。
研究结果表明,简单的语音记录和AI算法可以精确确定哪些人感染新冠肺炎。
小编以为发现宝藏APP了,满心期待地下载之后发现,这款评分2.8的应用,目前只是用来收集数据的。
高情商:你为科学的发展出了一份力。
低情商:这软件暂时卵用没有。
荷兰马斯特里赫特大学数据科学研究所研究员Wafaa Aljbawi女士在大会上表示,AI模型在89%的情况下是准确的,而横向流动测试的准确度就因品牌而异了,而且,横向流动测试在检测无症状人群时,准确性要低得多。
这些有希望的结果表明,简单的录音和微调的 AI 算法可能会在确定哪些患者感染 COVID-19方面实现高精度。此类测试可以免费提供,并且易于解释。此外,它们支持远程虚拟测试,并且周转时间不到一分钟。例如,它们可以用于大型集会的入口点,从而能够快速筛查人群。”Wafaa Aljbawi,研究员,数据科学研究所,马斯特里赫特大学
这个结果太令人兴奋了。这意味着:通过基本语音记录和定制AI算法,我们就可以以很高的精度识别COVID-19感染患者。又免费,又好用。小编兴奋地搓手:这是不是意味着,三天一捅的日子可以结束了?
这个方法的原理是:感染COVID-19后,人的上呼吸道和声带会受到影响,从而改变声音。
为了验证这个方法的可行性,来自同一数据科学研究所的Visara Urovi博士和马斯特里赫特大学医学中心的肺病学家Sami Simons博士也进行了测试。
他们使用了来自剑桥大学的众包COVID-19Sounds 应用程序的信息,包括来自4,352名健康和不健康受试者的893个音频样本,这其中,有308人的COVID-19测试结果是阳性的。
测试时,用户将APP下载到手机后,就要开始记录呼吸音。这个过程中,要先咳嗽3次,再用嘴深呼吸3到5次,然后在屏幕上读一个简短的句子3次。
研究人员采用了一种称为梅尔谱图分析的语音分析方法,该技术可以识别不同的语音特征,例如响度、功率和随时间的变化。
「通过这种方式,我们可以分解被试声音的许多属性,」Aljbawi 女士说。「为了区分COVID-19患者和未患病者的声音,我们建立了不同的人工智能模型,并评估了哪一个模型最适合对COVID-19病例进行分类。」
他们发现,一种被称为长短期记忆(LSTM)的模型显著优于其他模型。LSTM基于神经网络,它会模仿人脑的运作方式,识别出数据中的潜在关系。因为适用于序列,所以它很适合对随时间收集的信号进行建模,比如从语音中收集的信号,因为它能够将数据存储在内存中。
其总体准确率为 89%,正确识别阳性病例的能力(真阳性率或「敏感性」)为 89%,正确识别阴性病例的能力(真阴性率或「特异性」)为 83%。
新冠患者和健康的人的咳嗽序列图
这些结果表明,与横向流动测试等最先进的测试相比,LSTM模型诊断 COVID-19 的准确性有了显着提高。
比较结果可以用一句话总结:LSTM模型对于阳性的识别率更高,但是也更容易把阴性误诊为阳性。
具体来说,横向流动测试的灵敏度仅为 56%,但特异性更高,为 99.5%,因此横向流动测试会更频繁地将阳性误测为阴性。使用LSTM模型可能会错过100个病例中的11个,而侧向流测试则会错过100个病例中的44个。
横向流动测试的高特异性,意味着只有1/10的阴性会被误诊为阳性,而LSTM测试的误诊率更高,会把100名阴性中的17个误诊为阳性。但是,由于该测试实际上是免费的,如果LSTM显示是阳性,可以再让人们进行PCR测试。所以后者的影响并不大。
目前,研究人员还在进一步验证他们的结果。他们使用了大量数据。自实验开始以来,他们已经收集了来自36,116个人的53,449个音频样本,可用于增强和验证模型的准确性。另外,他们还在进行其他研究,来确定还有哪些语音的因素会影响 AI 模型。
相关论文
2021年6月,研究人员开始探索使用AI模型用作COVID-19的自动筛选工具时,可以在多大程度上被信任。在这篇被INTERSPEECH 2021接收的论文中,他们试着将不确定性估计与深度学习模型结合,从声音中检测COVID-19。
论文地址:https://arxiv.org/pdf/2104.02005.pdf
在论文中,研究人员分析了330名阳性和919名阴性被试的子集。
他们提出了一个集成学习框架,该框架在训练阶段解决了数据不平衡的常见问题,并在推理期间提供了预测不确定性,具体化为模型集成产生的预测的方差。主干模型是一个名为 VGGish 1的预训练卷积网络,经过修改以接收三种声音的频谱图作为输入。
在这项工作中,10个深度学习模型被训练并聚合成一个集成模型,产生0.74的 AUC,灵敏度为0.68,特异性为0.69,优于每个模型。一方面,验证了深度学习对基于音频的COVID-19检测的手工制作特征的优越性。另一方面,展示了 SVM的集成进一步提高了单个SVM模型的性能,因为样本被更有效地利用。
错误的预测通常会产生更高的不确定性(参加左上图),因此能够利用经验不确定性阈值来建议用户在手机上重复音频测试或在数字诊断仍然失败时进行额外的临床测试(参见右上图)。通过将不确定性纳入自动诊断系统,可以实现更好的风险管理和更稳健的决策。
2021年11月,研究人员在NeurIPS 2021中发布了全面的大规模COVID-19音频数据集,由36,116 名参与者众包的53,449个音频样本(总共超过552小时)组成。相关论文已被NeurIPS 2021 Dataset Track接受发表。
在论文中,研究人员展示了ROC-AUC在呼吸道症状预测和COVID-19预测任务上超过0.7的性能,证实了基于这些类型数据集的机器学习方法的前景。
2022年6月,研究人员希望探索纵向音频样本随着时间的推移对COVID-19进展预测的潜力,尤其是使用顺序深度学习进行恢复趋势预测。论文发表在数字医学与健康领域的期刊JMIR上。这项研究可以说是探索COVID-19疾病进展预测的纵向音频动力学的第一项工作。
论文地址:https://www.jmir.org/2022/6/e37004
为了探索个人历史音频生物标志物的音频动态,研究人员开发并验证了一种使用门控循环单元 (GRU) 检测COVID-19疾病进展的深度学习方法。
所提出的模型包括一个名为VGGish的预训练卷积网络,用于提取高级音频信息,以及GRU用于捕获纵向音频样本的时间依赖性。
研究发现,所提出的系统在区分COVID-19阳性和阴性音频样本方面表现出色。
这一系列研究中,也出现了Ting Dang、Jing Han、Tong Xia等中国学者的身影。
也许,我们离用app就能检测新冠的日子已经不远了。
参考资料:
https://www.techtimes.com/articles/280123/20220905/new-ai-ai-model-detect-covid-19-persons-voice-mobile-phone-app.htm
https://www.cnbeta.com/articles/tech/1313093.htm
https://www.covid-19-sounds.org/en/blog.html
,