立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索
小桔灯网 门户 资讯中心 专栏文章 动力彩虹 查看内容

语音分析诊断早期帕金森病,无创、低成本、快速!

2025-5-7 13:39| 编辑: 归去来兮| 查看: 272| 评论: 0|来源: 小桔灯网 | 作者:动力彩虹

摘要: 本研究一个局限性是在现实世界的临床环境中使用这种模型的实用性。

帕金森病(PD)

是一种中枢神经系统疾病。它会导至无意识和无法控制的身体运动,如颤抖、僵硬或平衡困难。目前,还没有治愈PD的方法,最好是干预和预防PD的逐渐发作。传统的诊断方法通常依赖于侵入性和昂贵的临床评估和成像技术,并且需要专门的医疗专业知识。



近日,杂志Scientific reports上发表了一篇题为“Explainable artificial intelligence to diagnose early Parkinson’s disease via voice analysis”的文章。本文探讨了利用人工智能和机器学习通过分析声音特征来诊断早期PD。作者引入了一种新的混合深度学习管道(MLP + CNN + RNN + MKL)和数据可解释性框架(SHAP)来提高临床可解释性。模型分析了MFCCs、基频抖动(jitter)和振幅扰动(shimmer)等声学特征,准确率为91.11%,召回率为92.50%,精确度为89.84%,F1得分为91.13%,AUC为0.9125。这种人工智能驱动的方法为早期PD检测提供了一种无创、经济高效、快速的工具,通过声音生物标志物促进个性化治疗。


图片来源:Scientific reports


主要内容




不同模型性能评价

模型评价的主要指标是准确性和交叉熵损失(Cross-Entropy Loss)。准确性表示模型正确预测输入数据标签的程度。交叉熵损失衡量的是在训练过程中模型的预测与实际标签匹配的好坏。最优模型为MLP + CNN + RNN + MKL模型,在每个指标上都优于所有其他模型。其平均准确率为0.9111,表明使用该模型进行的所有预测中约有91.11%是正确的(图a)。最优模型MLP + CNN + RNN + MKL的交叉熵损失很低(图b),平均损失值为8.89%。准确率和交叉熵损失方面的一致性表明,此模型在预测未知数据方面出色。


不同模型的准确性和交叉熵损失。

图片来源:Scientific reports



不同模型对帕金森病患者的诊断结果

最优模型为MLP + CNN + RNN + MKL模型,其对音频文件分析结果(如下表)显示,41个HC音频文件中,平均36.8个被正确分类为HC, 4.2个被错误分类为PD。AI模型正确分类了40个PD文件中的37个,错误分类为HC的文件有3个。这使得PD预测的召回率为92.50%,表明很少有PD实例被遗漏。总的来说,最优模型的平均准确率为0.9111,召回率(recall)为0.9250,F1得分为91.13%。ROC曲线显示,最优模型的 AUC值为0.9125。


不同模型对帕金森病患者的诊断结果。

图片来源:Scientific reports



评分系统结果

此外,作者还开发了基于概率的评分系统,使PD患者和临床医生能够跟踪疾病进展。实施评分系统的结果表明,在81个分析音频样本中,PD的概率评估对HC文件和PD文件进行了明确的划分。41个HC文件中有40个得分在0到0.30之间,另有一个HC文件得分在0.39;而40个PD文件中有38个得分在0.70到0.90之间,另有两个PD文件得分为0.69和0.62。对评分为0.39和0.62的文件进行进一步分析,发现其声学特征与早期PD患者的声学特征非常相似,验证了系统的生物标记物与分配的分数准确对应。


基于概率的帕金森病诊断评分系统。

图片来源:Scientific reports



各种声学特征对模型输出的影响

SHAP总结图提供了最优模型用于区分HC和PD患者的最具影响力的特征(如下图)。阳性SHAP值表明预测PD的可能性较高,阴性SHAP值表明预测HC的可能性较高。其中影响最大的特征是MFCC。MFCCs包含了声音的频谱特性,已知PD患者由于该疾病对语音产生的神经退行性而改变了频谱特性。除此之外,基频抖动(jitter)和振幅扰动(shimmer)提供了对与PD相关的细微声音变化的更深入的了解,使模型能够识别振幅和频率变化的灵敏度,在模型的预测中也很重要。


SHAP图显示了各种声学特征对模型输出的影响。



总结与讨论

本研究强调了人工智能,特别是结合MLP、CNN、RNN和MKL的混合模型通过语音分析诊断早期PD的有效性。模型通过利用关键的声音生物标志物,如MFCCs、基频抖动(jitter)和振幅扰动(shimmer)等声学特征,显示出区分HC和PD患者的强大能力。最优模型准确率为91.11%,精密度为89.84%,召回率为92.50%,F1得分为91.13%,AUC为0.9125。这些评价指标均在90%左右,表明鉴别PD患者的一致性较高。通过识别这些关键的声音生物标志物,该算法可以通过基于个人声音特征的个性化PD治疗计划,显著推进精准医学方法。


本研究一个局限性是在现实世界的临床环境中使用这种模型的实用性。患者在尝试录制高质量的录音时可能会遇到挑战,从而影响模型有效分析录音的能力。另一个限制是模型在处理纵向数据方面的性能。模型在静态录音上进行了训练,尚不确定该模型是否能跟踪PD的进展。

声明:
1、凡本网注明“来源:小桔灯网”的所有作品,均为本网合法拥有版权或有权使用的作品,转载需联系授权。
2、凡本网注明“来源:XXX(非小桔灯网)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。其版权归原作者所有,如有侵权请联系删除。
3、所有再转载者需自行获得原作者授权并注明来源。

鲜花

握手

雷人

路过

鸡蛋

最新评论

关闭

官方推荐 上一条 /3 下一条

客服中心 搜索 官方QQ群 洽谈合作
返回顶部