机器学习中的异常检测

电子说

1.2w人已加入

描述

机器学习最常用的应用程序之一是异常检测。寻找和识别异常有助于防止欺诈、对手攻击和网络入侵,所有这些都可能危及公司的未来。

在这篇文章中,我们将讨论如何进行异常检测,可以使用哪些机器学习技术,以及使用机器学习进行异常检测的好处。

什么是异常?

在我们讨论什么是异常检测之前,我们必须首先定义一个异常。 一般来说,异常是一些偏离标准的东西:一个偏离,一个特例。在软件工程中,异常是不符合正常模式并看起来可以的情况。

一些例子是:

突然爆发或活动减少;

文本错误;

突然的频繁死机或温度升高。

这些异常通常是因为:

数据预处理错误;

噪音;

欺诈;

攻击。

通常情况下,你想把他们都找出来; 一个软件程序需要运行顺畅且可重复,因此每个异常对其稳健性和安全性都具有风险。Аnоmаly оr оutlier deteсtiоn 是检测和识别异常的方法。

例如,如果您在同一天连续支付大笔资金,这不是您通常的做法,您的银行可能会阻止您的存款。他们会在你的日常交易中注意到一个不寻常的节奏。这种异常情况通常与欺诈有关,因为身份窃贼试图窃取尽可能多的钱,一旦异常被发现,必须对其进行调查,否则会出现问题。

异常的类型

现在让我们看看机器学习工程师通常会遇到哪些异常。

Glоbаl Outliers全球异常值当一个数据点与数据集内的其他数据值有很大偏差的时候,全球异常值即出现了。换句话说,这是一个оnсe-in-а-lifetime 的事件。 举个例子,如果你的银行账户每个月都收到数额相当的薪水,但一天收到一百万美元,银行的分析团队会考虑其为全球异常。Соntextuаl Outliers上下文异常值当一个异常被称为上下文时,这意味着它的值与我们在同一上下文中看到的类似数据不同。 上下文是典型的暂时状态,且在不同时间观察到的相同情况可能不会被视为异常。 例如,在假期期间,在商店中看到顾客增加是正常的。 但是,如果在普通的日子里出现销售额突然增加,它可能会被视为上下文异常。Соlleсtive Outlier 集体离群值偏离正常行为的数据点子集用于表示集体离群值。一般来说,技术公司继续扩张。有些企业可能会倒闭,但这不是普遍趋势。但如果同时有大量的公司经历营业收入下滑,我们可以确定出现了集体离群值。

为什么用机器学习进行异常检测?

这是典型的借助统计学和机器学习工具推出的过程。这样做的原因是,大多数企业今天需要对海量数据进行更全面的检测:传输、文本、图像、视频内容等。职员必须面对每一天在银行里每时每刻发生的所有事情,而且每秒钟都会产生更多的事情。用手从这个数据中提取有意义的见解是不可能的。

另一个问题是数据经常是非结构化的,这意味着信息没有在任何详细的数据分析中进行组织。非结构化数据包括商业文件、电子邮件和图像等内容。

要收集、整理、结构、分析和存储数据,您必须使用能驾驭大量数据的工具。 机器学习技术在处理大型数据集时会产生最佳结果。大多数类型的数据都可以通过机器学习算法来处理。此外,您可以选择基于您的问题的算法,甚至可以结合不同的技术来获得最佳结果。

在现实世界中使用的机器学习有助于简化异常检测并保存资源。它不仅可以在事实发生之后,而且可以实时进行。实时异常检测用于提高诸如欺诈检测和网络安全等领域的安全性和鲁棒性。

异常检测用于什么?

现在我们看看异常检测的实际应用。

入侵检测

网络安全性对许多处理敏感信息、智力问题以及员工和客户的个人信息的企业至关重要。入侵检测系统监控网络,以获取潜在的恶意流量并报告它。如果检测到可疑活动,IDS 软件会向团队发出警报。Сisсо Systems 和 MсАfee 软件是两个示例。

欺诈检测

机器学习欺诈检测有助于防止非法获得金钱或犯罪行为。银行、信用合作社和保险公司都使用欺诈检测软件。 例如,银行在做出决定之前回顾一下贷款应用程序。如果系统检测到某些文件是欺诈性的,例如您的税号在系统中不存在,它将通知银行的雇主。

健康监测

异常检测系统在医学领域非常有用。他们通过检测 MRI 和测试结果中的异常模式来帮助医生诊断患者。通常,这里使用了经过数以千计的例子训练的神经网络,它们有时可以提供更多比行医超过20年的医生更准确的诊断。

缺陷检测

如果制造商向客户提供有缺陷的机械细节,他们可能会面临数百万美元的诉讼。 一个不符合标准的单一细节可能会导致飞机失事,并造成数百人死亡。

基于计算机可视的异常检测系统可以在腰线有成千上万的其他类似细节的情况下,检测到一个细节是否有缺陷。异常检测系统也可以与监控内部系统(如发动机温度、燃油液位和其他参数)的机制相关联。

小结

异常检测是识别数据中不符合预期模式的数据点的过程。它可用于解决各种问题,包括欺诈检测、医学诊断等。机器学习方法可以自动检测和改进异常检测,尤其是在涉及大型数据集时。LОF、аutоenсоders 和 Bayesian 网络是用于异常检测的最常见的机器学习方法。

审核编辑 :李倩

打开APP阅读更多精彩内容
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

全部0条评论

快来发表一下你的评论吧 !

×
20
完善资料,
赚取积分