月亮链 月亮链
Ctrl+D收藏月亮链
首页 > AVAX > 正文

PRE:什么是数据异常检测?_REG

作者:

时间:1900/1/1 0:00:00

上面的图像是由一个人工智能绘制的,当时我们让它为“异常检测”这个词创作艺术品。

据《华盛顿邮报》报道,2009年至2010年间,英国有1.7万名男性报告怀孕。这些英国男性寻求与怀孕相关的护理,如产科检查和产妇护理服务。然而,这并不是因为现代医学的突破!有人在国家的医疗系统中输入了错误的医疗代码。简单地说,数据记录得很糟糕,而且没有质量检查来发现错误!

这很难归咎于英国的医疗服务。质量,顾名思义,是主观的。为各种可能的错误数据创建质量检查是一项巨大的壮举。即使是数据最成熟的公司也很难预料到每一个错误。然而,如果有一种方法可以使用AI/ML,这些解决方案可以独立地从我们的数据集中学习。他们可以发现这样的错误,而不需要我们明确地说,“如果入境的是男性,那么就不要提供孕产护理。”

事实上,有。

CPDA数据分析师都知道这叫做异常检测。

什么是数据质量检查?

在我们进入异常检测的奇迹之前,我们必须了解什么是数据质量检查(以及它是如何工作的)。

苹果CEO库克:我还不确定普通人能说清楚元宇宙到底是什么:金色财经报道,最近苹果首席执行官蒂姆 · 库克(Tim Cook)在接受采访时表示,我还不确定普通人能说清楚元宇宙到底是什么。在谈到 Facebook 的 \"元宇宙 \" 时,库克表示,人们对产品的理解非常重要。我真的不确定普通人能告诉你到底什么是元宇宙,他补充道。元宇宙这个词出现在 Facebook 创立之前,最早出现在 1992 年的科幻小说《雪崩》 ( Snow Crash ) 中,但 Facebook 显然已经全盘接纳了这个词,甚至把公司更名为 Meta。[2022/10/2 18:37:39]

数据质量检查指定了数据维度的标准,即数据的完整性、有效性、及时性、唯一性、准确性和一致性。数据要么不符合这些标准,要么满足这些标准,这揭示了有关其质量的信息(是高质量还是低质量)。您可以在这里了解更多关于数据质量及其重要性的信息。

数据质量规则将指定用户定义为高质量数据的内容。例如,医院可能将老年患者定义为年龄超过60岁。一个简单的数据质量规则可以有以下形式:

规则:老年患者年龄>60岁

实际上,每家医院可能都有不同的老年患者定义标准。因此,他们可能以不同的方式定义这些规则。通过这种方式,公司可以定义各种规则来识别有问题的数据。然后将这些规则添加到“规则库”中,并在数据质量监控期间用于识别低质量条目。

周小川谈比特币:要搞清楚对实体经济的好处是什么:中国人民银行前行长周小川表示,不管数字货币还是数字资产,都要为实体服务。“我们经历过2008年的全球金融危机,发现金融脱离了实体,比如影子银行、衍生品这些纯粹变成了金融机构之间的投机交易,和实体没有联系了,就容易出问题,以至当是一些国际大行的领导、交易员们看不懂,很难做好内部控制。“

周小川表示,要区分数字货币和数字资产,对于比特币这类数字资产,并非现在要下结论,但是”要提醒,要小心“,在中国,金融创新的东西都要说清楚它对实体经济的好处”。[2021/4/19 20:34:00]

一旦您的公司填充了这个规则库,您将开发一个您希望数据遵守的标准或“常规行为”。不符合这些标准的数据是无效的、不完整的、不准确的。

例如,在我们上面的高级患者规则中,如果一个申请人的年龄是35岁,而用户将其标记为“高级患者”,则此数据点将无效。

什么是异常检测?

然而,还有一种方法可以在不需要编写DQ规则的情况下找到与通常行为不同的数据点。这叫做异常检测。它使用ML/AI来扫描数据,而不是DQ规则,以发现数据集特有的模式和期望值。一旦它了解了您的数据系统是如何工作的,它就可以自动找到不符合规范(或不符合这些模式)的数据,并标记条目以提醒相关方。不符合这些标准的值被称为“异常值”。

播客主持人:当下的孩子们或许知道比特币是什么:播客节目“Magic Internet Money”主持人Brad Mills发推称:“我在万圣节糖果盒里放了一些价值100美元的Rise Wallet比特币卡,捕捉到了一些随机的‘不给糖就捣蛋’的人发现它们的瞬间。‘嘿哥们,我发现了比特币!’我想这些孩子们或许确实知道比特币是什么。”[2020/11/1 11:22:05]

一旦收到关于异常的警报,您将发现关于异常检测服务为什么将该条目标记为异常的信息。例如,假设一家医院在2月份记录了10,000名患者,医疗保健系统收到一个警报,将此条目标记为异常。它可以通过数据集中的上下文解释:这家医院通常每月有大约1000名患者。这种突然的跳跃是出乎意料的(或者显示为传达此信息的图形)。

然后,您可以获取这些信息,并确定它是一个异常数据点还是一个正常数据点。也许是因为新冠肺炎,那家医院的病人激增了。根据您的响应方式,一些异常检测算法可以从这种反馈中学习,并在未来更加准确地检测异常。

在我们上面介绍医院的例子中,假设所有申请怀孕相关服务的人都被贴上了“PREG”的标签。如果绝大多数使用这些服务的患者在性别栏中有“F”(女性),异常检测就会立即注意到“M”(男性)患者是否接受了“PREG”标签。你不需要写规则“PREG必须是F”来防止这种错误发生。

投票上币被质疑 何一回复“不是什么都需要区块链+”:微拍创始人胡震生与何一就“数字货币交易所投票上币”话题展开讨论。胡震生认为“投票上币”交易所没有公开投票地址,同时也未公布投票算法,他表示“作为参与方认为平台有修改数据的驱动力和可能性”,认为这“就不是一个优秀的区块链项目”。何一回复称币安的投票项目都会经过审核,且投票数据每次都会清洗;交易所本来就是中心化平台,每个组织有自己的规则,而她一直的观点是“不是什么都需要‘区块链+’”。[2018/2/28]

不同类型的异常

不同的业务角色有不同的方法来定义数据中的异常。

营销团队可能会收到异常数量的网络研讨会注册,从一个公司的域名收到比平时更多的入站请求,或者从一个国家收到太多的请求(超过正常)。这些异常会影响他们的工作表现,并被标记为关键。

数据工程师可能对两个不同系统中关于同一实体(如客户)的冲突信息更感兴趣。

数据科学家可能会看到2月份某个随机周四的平均销售数据。然而,周四是公共假日,预计销售额将增长两倍。这肯定也是一个关键的异常!

因此,您可以说异常定义和异常检测是相当主观的。需要记住的重要部分是异常检测服务必须能够检测所有形式的异常。在Ataccama,我们喜欢根据异常与数据的接近程度来定义异常。从高层(远离实际数据,关于数据本身的更一般的信息)到低层(数据列中的异常,逐行,特定值/数据点),我们可以在三个类别中定义异常:元数据、事务数据和记录数据。

用户提交的韩币退款申请一周还未到账,Bithumb表示由于内部问题,但不知道什么时候处理:1月11日,一韩国用户向韩国最大的虚拟货币交易所Bithumb提交韩币退款申请,但是已经过了1周都未到账。对于这个问题Bithumb交易所表示 :“是由于内部问题导致延迟,但是什么时候会处理还不知道”。 现在有很多用户都提交了韩币退款申请,但都得不到处理。[2018/1/17]

元数据异常

元数据是使用度量来描述实际底层数据的数据。例如,数据质量元数据指的是关于数据资源(数据库、数据湖等)质量的信息。元数据允许您以对用例有独特意义的方式组织和理解数据,同时保持数据的一致性和准确性。

这一级别的异常处理“一般”数据,是最接近数据本身的异常。这些是关于数据的异常,而不是数据中的异常(然而,它们仍然可以表示数据中的问题)。当数据质量出现意外下降时,就会出现这种情况;当一个数据集/点通常以一种方式标记,但已经以另一种方式标记;或者在提取关于您所存储的数据的数据时,缺少一定数量的记录、记录太少或记录太多,以及发生任何其他意外情况。

事务性数据异常

从元数据转向更接近特定数据的地方,我们到达了中间层——事务性数据。我们称之为中间层,因为您正在处理来自实际数据的值,但通过聚合的镜头(即,每五天或每五分钟一次)。交易数据通常包含某种形式的货币交易,因为分析此类数据的能力非常有用。例如,如果您有每五分钟的销售汇总,您可以使用它来确定最繁忙的时间,是否值得在晚上8点后营业等等。

在这一水平上出现的异常情况可能是在一年中销售较慢的某周出现了意外的销售增长,购物假期的销售额与一周中正常日子的销售额相似,或者一个分支机构的业绩在繁忙的月份下降得异常低,等等。

记录级别的异常

在记录级别,异常检测标记数据集中可疑的特定值。如果其中一个数据点缺失、不完整、不一致或不正确,则可以将这些值标记为异常。

我们的介绍是记录级异常的一个很好的例子。数据集中的一个值(性别)是意外的,并且与系统中的其他值不协调。这只是一行信息,是包含患者年龄、既往病史、身高、体重等更大信息集的一部分。

记录级别的异常检测逐行探索每个表和列中的数据集,寻找任何不一致之处。它可以揭示数据收集、聚合或处理中的问题。

异常检测类型

现在我们了解了不同类型的异常,我们可以进入不同的方法来检测它们。一种方法侧重于将时间作为数据的主要上下文,而另一种方法侧重于在正常行为的上下文中发现异常。这两种类型的异常检测被称为时间相关和时间无关。

时变异常检测

依赖于时间的数据会随着时间的推移而演变(考虑一下我们的事务性数据示例),因此了解何时捕获值、何时输入值、多个条目以何种顺序到达等非常重要。通常,用户将这些数据分组(聚合)在一起(例如,每小时或每天),并在组级别上寻找异常或趋势,根据上下文发现异常值。

例如,当您有每日数据(即每天记录一次)时,您可以预期一些季节性。换句话说,周一的期望值可能与周二不同。因此,不同的值在不同的日子可能是异常的。此外,这些数据经常在较长时期内发生变化。这可以用数据的趋势或数据的漂移变化来表示。所有这些模式都需要时变异常检测算法来捕获。

非时变异常检测

任何没有时间维度的数据都可以被认为是“时间无关的”。换句话说,数据是什么时候创建的,输入到系统中,数据到达的顺序等等都不重要。只有实际值才重要。因此,算法只需要了解期望值是什么,或者更好的是,将它们放入“正态聚类”中。

这些异常与主数据(相对于事务数据)更相关:客户记录、产品数据、参考数据和其他“静态数据”。

结论

总之,异常检测算法允许您发现数据中不需要或意外的值,而无需指定规则和标准。它对您的数据集进行快照,并通过将新数据与过去关于相同或类似数据集发现的模式进行比较来识别异常。

至于对异常检测工具可以做什么的期望:

无论这些异常发生在较高的级别(如元数据)还是接近实际数据本身(如记录级别异常),您的异常检测服务都需要能够发现它们。

要应用于所有类型的数据,既需要时变异常检测,也需要时变异常检测。

您的服务还必须能够处理不同的数据类型,易于使用和适应,并在将值标记为异常时提供可用的解释。

异常检测领域持续增长和发展。AI/ML正在数据管理领域得到更广泛的采用和实现。我们可以预期异常检测将变得越来越主动,而不是被动。这些工具将能够在数据进入下游系统之前发现有问题的数据,从而造成损害。

异常检测很有价值,因为它通常会揭示数据之外的潜在问题,例如物联网设备中的缺陷机器、网络中的黑客企图、数据合并中的基础设施故障或不准确的医疗检查。这些问题通常很难预测,因此很难编写DQ规则。因此,基于AI/ml的异常检测是发现这些异常的最佳方法。

标签:PREREGCPDPRE价格PRE币REG价格REG币CPD币CPD价格

AVAX热门资讯
GMAT:名校MBA还能白嫖?关于MBA你一定要了解这些?_MAT币是什么币

mba可以白嫖,非全mba虽然不可以白嫖,但是十几万的奖学金还真不用拿出一半的存款去读。估计很多人要说了,不可能,很多人花了30、40万,到你这里白嫖,完全就是人.

1900/1/1 0:00:00
比特币:比特币(BTC)和以太坊(ETH)K线走势图价格分析_btc短线交易局ETH钱包地址

2022年已经过去,新的一年对加密货币市场有利吗?加密货币巨头比特币(BTC)和以太坊(ETH)是否即将出现看涨行动?让我们一起检查图形动态 | WisdomTree推出比特币ETP.

1900/1/1 0:00:00
:又是第一!2022 年中国—东盟贸易合作全景_

中国—东盟建立对话关系31年来,双边贸易额年年攀升,从始至终保持着强劲增长,即使在新冠肺炎疫情的3年之中,也实现了贸易逆势上扬.

1900/1/1 0:00:00
数字人:试点正酣 互联网巨头逐鹿数字人民币_数字人民币推广一天能挣多少钱

自数字人民币试点再度扩围以来,一直消息不断,而其中覆盖了各色场景的互联网平台,亦承担着举足轻重的角色.

1900/1/1 0:00:00
FTX:创始人可能坐牢115年?2230亿局 迎来终结_加密货币市场还有未来吗知乎

百亿富豪十天消失 如何在短短10天内,把一家320亿美元估值的公司搞垮?一位30岁身价百亿的青年才俊,居然因为一篇报道成为阶下囚?你没听错.

1900/1/1 0:00:00
:全新蔚来ES6申报图曝光 或将于2023年发布_

  中国网汽车1月17日讯记者日前从工信部发布的第367批《道路机动车辆生产企业及产品公告》中获悉到一组全新蔚来ES6车型的申报信息.

1900/1/1 0:00:00