本文主要来介绍NLP中的命名实体识别。命名实体识别与中文分词、词性标注一样,也是NLP的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等多种NLP技术不可或缺的一部分。其目的是:识别语料中的人名、地名、组织机构名等命名实体。
随着命名实体数量的不断增加,一般不可能在词典中全部列出,由于命名实体的构成方法具有规律性,通常把对这些词的识别在任务中进行独立处理,称之为命名实体识别。NER一般分为3大类和7小类。
1.中文命名实体识别的难点
各类命名实体的数量众多。命名实体的构成规律复杂。比如人名的构成规则各有不同,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;再比如机构名的组成方式,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。嵌套情况复杂。一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。长度不确定。与其他类型的命名实体相比,长度和边界难以确定,使得机构名更难识别。中国人名一般二到四字,常用地名一般二到四字,但是机构名长度变化范围极大,少的只有两个字简称,多的达到几十个字的全称。2命名实体识别方式
NuriFlex与AhnLab签署NuriTopia项目谅解备忘录:金色财经报道,NuriFlex Holdings Inc.宣布已与AhnLab Blockchain Company, Inc.签署了一份谅解备忘录。两家公司将在多个地区就NuriTopia项目和Web3钱包展开合作。
NuriFlex Holdings参与设计和开发基于区块链的虚拟世界生态系统,为不同的服务提供各种虚拟世界和数字体验。该公司目前正在投资“元宇宙”项目,该项目预计将于今年启动。[2023/5/19 15:12:38]
中文分词中,主要有基于规则方法、基于统计方法和基于二者的混合方法。命名实体识别主要也包含这三种方法。
基于规则的命名实体识别:规则加词典是早期命名实体识别中最行之有效的方式。依赖手工规则,结合命名实体库,对每条规则进行权重赋值,然后通过实体与规则的相符情况来进行类型判断。基于统计的命名实体识别:与分词类似,目前主流的基于统计的命名实体识别方法有:隐马尔可夫模型、最大熵模型、条件随机场等。其主要思想是:基于人工标注的语料,将命名实体识别任务作为序列标注问题来解决。基于混合的命名实体识别:NLP并不完全是一个随机过程,单独使用基于统计的方法使状态搜索空间非常庞大,必须借助规则知识提前进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在很多情况下是使用混合方法,结合规则和统计方法。序列标注方式是目前命名实体识别中的主流方法,下面重点介绍基于CRF条件随机场的方法。
Chainlink的总保护价值已超过750亿美元:金色财经报道,区块链预言机解决方案Chainlink的总保护价值(TVS)已超过750亿美元,去年年底仅为70亿美元。据悉,Chainlink的预言机将外部来源的数据,如天气和体育结果等提供给以太坊和Avalanche等区块链。这些数据允许DeFi应用程序在满足条件时触发其智能合约。[2021/11/5 6:32:22]
3基于CRF的命名实体识别
条件随机场的主要思想来源于HMM,也是一种用来标记和切分序列化数据的统计模型。不同的是,条件随机场是在给定观察的标记序列下,计算整个标记序列的联合概率,而HMM是在给定当前状态下,定义下一个状态的分布。
条件随机场的定义为:假设X=(X1,X2,X3,…,Xn)和Y=(Y1,Y2,Y3,…,Ym)是联合随机变量,若随机变量Y构成一个无向图G=(V,E)表示的马尔可夫模型,则其条件概率分布P(Y|X)称为条件随机场,即:
流动性提供平台Wootrade将集成Chainlink预言机服务:12月7日,流动性提供平台Wootrade (WOO)官方宣布将集成Chainlink预言机服务,让机构和专业交易员可以验证其在不同区块链上的交易历史。[2020/12/8 14:31:05]
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v)
其中w~v表示无向图G=(V,E)中与结点v有边连接的所有节点,w≠v表示结点v以外的所有节点。
例如:对句子“我来到陶家村”进行标注,正确标注后的结果为:我/O来/O到/O陶/B家/M村/E。采用线性链CRF来进行解决,那么是其一种标注序列,也是是其一种标注选择,类似的可选择的标注序列有很多,在NER任务中就是在这么多的可选标注序列中,找出最靠谱的作为句子的标注。
Chainlink联合创始人:Chainlink以及从预言机获取喂价的DeFi合约均未受到影响:去中心化预言机Chainlink联合创始人SergeyNazarov针对Compound大规模清算事件回应称,一年前就预测到会发生这样的攻击,在多个公开会议上提到了这个攻击向量,并公开劝告了开发者社区。在这次攻击中,Chainlink网络由于在节点和数据源层面都实现了高度的去中心化,因此没有受到任何影响,并持续为资产返回准确的全球市场价格。这次事件中,即使Gas价格居高不下,从Chainlink预言机网络获取喂价的DeFi智能合约也没有受到任何影响,仍然获取到准确的价格数据,保证协议正常运行。过去一个月中发生了多次预言机攻击事件,智能合约开发者必须关注预言机的安全问题。接入中心化预言机的DeFi协议往往只依靠一家或少数几家链下或去中心化交易所获取价格数据,因此用户资金面临巨大风险。相信这类攻击事件会让越来越多的用户都转移到接入去中心化预言机的DeFi协议,以保证预言机的安全性和可验证性,这就像现在的用户对链下交易所的私钥安全性更敏感了。[2020/11/27 22:18:16]
那么我们要解决的问题就是要判断标注序列是否靠谱。就刚才的两种标注方法,显然第一种比第二种更为准确,因为第二种将“陶”和“家”都作为地名首字标成了“B”,一个地名两个首字符,显然不合理。假如给每个标注序列打分,分值代表标注序列的靠谱程度,越高代表越靠谱,那么可以定一个规则,若在标注中出现连续两个“B”结构的标注序列,则给它低分。连续“B”结构打低分就对应一条特征函数。在CRF中,定义一个特征函数集合,然后使用这个特征函数集合为标注序列进行打分,据此选出最靠谱的标注序列,该序列的分值是通过特征函数集合得出的。
公告 | OpenLedger正调查用户提交的赔偿申请:OpenLedger发布公告称,支持团队目前正在调查用户直至6月22日提交的赔偿单。已确认账户遭到黑客入侵并且资金被盗的用户将成为2018年7月2日开始的偿付计划的一部分。[2018/6/27]
在CRF中有两种特征函数,分别为:转移函数tk(yi-1,yi,i)和状态函数sl(yi,X,i)。tk(yi-1,yi,i)依赖于当前和前一个位置,表示从标注序列中位置i-1的标记yi-1转移到位置i上的标记yi的概率。sl(yi,X,i)依赖当前位置,表示标记序列在位置i上为标记yi的概率。通常特征函数取值为1或0,表示符不符合该条规则约束。
4日期识别代码示例
应用场景:
现有一个智能外呼系统,由机器人拨打电话给客户,通知客户新股中签情况,客户与机器人进行对话。对话机器人根据用户的语音进行解析,发觉用户的需求,比如:新股中签的时间,新股买入的时间等。通过asr技术将用户的语音转换成中文文本,然后由于asr的识别准确度问题,许多日期类的数据并不是严格的数字,比如会出现“十一月12日”“2019年11月”“20191112”“后天下午”等形式。
现在的需求是识别出每个请求文本中可能的日期信息,并将其转换成统一的格式进行输出。比如:“我打算今天或明天买入新股”,那么通过日期解析后,应该输出为“2019-11-12”和“2019-11-13”。
通过结果分析可以看到,text1text2text3text4结果还是相对较好的,对于text5这种规则覆盖之外的场景,方法效果大大降低。
作者:KevinTao
知乎号:Kevin陶民泽
备注:转载请注明出处。
如发现错误,欢迎留言指正。
来源:北京青年报 相关人士表示打着区块链旗号关于虚拟货币的推广宣传活动都是违法违规随着区块链技术成为社会关注热点,被监管部门严厉打击的虚拟货币出现死灰复燃势头.
1900/1/1 0:00:00天塌下来也有高个子顶着。但是在币圈,却恰恰反了过来。币圈里的天要是塌下来,那都是矮个子在顶着。矮个子被砸得越惨,高个子赚得越开心。今天我们介绍的李笑来便是众多高个子之一.
1900/1/1 0:00:00文|衣柜 前段时间特斯拉申请了一项“电磁雨刮”的专利,名字听起来很高大上,让我一度以为这又将是马斯克第N个“本世纪以来最伟大的发明”.
1900/1/1 0:00:0001:29设计师这个职业你一定不陌生,但是你了解钞票设计师吗?作为“中国名片”的设计师,他们的工作极具挑战,设计的“产品”受众面最广、使用率最大、关注度最高.
1900/1/1 0:00:00原标题:从JPMCoin到反摩根大通的区块链布局再下一城来源:金色财经近日,摩根大通执行董事DaizaburoSanai表示.
1900/1/1 0:00:00据公开资料显示:曾经任职新东方国外部高级教师的李笑来,如今已经成为北京一家名为“情非得已科技有限公司”的CEO,可以说是坐拥万贯家财.
1900/1/1 0:00:00