在本文中,我们将仔细研究用于处理生理信号的算法的整体架构,并揭开其操作的神秘面纱。
第一波FDA批准的可穿戴数字健康监测器与智能手表等消费产品集成在一起,才刚刚问世。医疗传感器技术继续快速发展,使紧凑、经济高效且越来越精确的生理传感器能够进入现成的可穿戴设备。这种转变的真正驱动力之一是尖端机器学习和人工智能算法的可用性,这些算法可以从大量数据中提取和解释有意义的信息。这包括嘈杂的数据和不太完美的信号(例如来自智能手表的ECG数据),这些信号被各种伪影破坏,这些伪影很难使用传统算法进行处理,这些算法往往是确定性和基于规则的。
直到最近,解开来自这些传感器的生理信号中的秘密以形成监管提交可接受的合理准确的决策是一项挑战,而且通常是不可能的。机器学习和人工智能算法的进步现在使工程师和科学家能够克服其中的许多挑战。在本文中,我们将仔细研究用于处理生理信号的算法的整体架构,并揭开其操作的神秘面纱,将其转变为基于数十年研究的更真实的工程。
为了说明简单机器学习算法的强大功能,这里有一个在线视频,描述了活动跟踪器中加速度计的数据如何预测佩戴者的各种运动状态或休息状态。我们可以将这种方法扩展到更复杂的真实世界医疗信号,如ECG,并开发可以自动将ECG信号分类为正常或表现出心房颤动的算法。
开发机器学习算法包括两个主要步骤。此工作流的第一步是特征工程,其中从感兴趣的数据集中提取某些数字/数学特征并将其呈现给后续步骤。在第二步中,将提取的特征输入到众所周知的统计分类或回归算法中,例如支持向量机或传统神经网络,这些算法经过适当配置,以提出经过训练的模型,然后可用于新的数据集进行预测。一旦使用表示良好的标记数据集迭代训练此模型,直到达到令人满意的精度,就可以在新数据集上将其用作生产环境中的预测引擎。
那么,该工作流程如何查找ECG信号分类问题呢?对于本案例研究,我们转向2017年PhysioNet Challenge数据集,该数据集使用真实世界的单导联心电图数据。目的是将患者的心电图信号分为四类之一:正常、心房颤动、其他节律和太嘈杂。
预处理和特征工程
特征工程步骤可能是开发强大的机器学习算法中最困难的部分。这样的问题不能简单地被视为“数据科学”问题,因为在探索解决此问题的各种方法时,拥有生物医学工程领域的知识以了解不同类型的生理信号和数据非常重要。MATLAB 等工具为领域专家带来了数据分析和高级机器学习功能,使他们能够更轻松地将“数据科学”功能(如高级机器学习功能)应用于他们正在解决的问题,从而专注于特征工程。在此示例中,我们使用先进的小波技术进行信号处理,以消除数据集中的噪声和缓慢移动的趋势,例如呼吸伪影,并从信号中提取各种感兴趣的特征。
开发分类模型
统计和机器学习工具箱中的分类学习器应用程序对于刚接触机器学习的工程师和科学家来说是一个特别有效的起点。在我们的示例中,一旦从信号中提取了足够数量的有用和相关特征,我们使用此应用程序快速探索各种分类器及其性能,并缩小进一步优化的选项范围。这些分类器包括决策树、随机森林、支持向量机和 K 最近邻 (KNN)。这些分类算法使您能够尝试各种策略,并选择为特征集提供最佳分类性能的策略(通常使用混淆矩阵或 ROC 曲线下面积等指标进行评估)。在我们的案例中,我们很快就在所有课程中达到了~80%的总体准确率,只需遵循这种方法(本次比赛的获胜作品得分约为83%)。请注意,我们没有花太多时间在特征工程或分类器调优上,因为我们的重点是验证该方法。通常,花一些时间在特征工程和分类器调整上会导致分类准确性的显着进一步提高。更高级的技术(如深度学习)也可以应用于此类问题,其中特征工程和提取以及分类步骤组合在一个训练步骤中,尽管与传统的机器学习技术相比,这种方法通常需要更大的训练数据集才能正常工作。
挑战、法规和未来承诺
虽然许多常用的可穿戴设备还没有准备好取代FDA批准和医学验证的对应设备,但所有技术和消费趋势都强烈指向这个方向。FDA开始在简化法规和鼓励监管科学发展方面发挥积极作用,特别是通过数字健康软件预认证计划以及设备开发中的建模和仿真等举措。
从日常使用可穿戴设备中收集的人类生理信号成为新的数字生物标志物,可以提供我们健康状况的全面图景,现在比以往任何时候都更加真实,这在很大程度上是由于信号处理、机器学习和深度学习算法的进步。由 MATLAB 等工具支持的工作流使医疗设备的领域专家能够应用和利用机器学习等数据科学技术,而无需成为数据科学专家。
审核编辑:郭婷
全部0条评论
快来发表一下你的评论吧 !