博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
词汇与分词技术
阅读量:6569 次
发布时间:2019-06-24

本文共 1154 字,大约阅读时间需要 3 分钟。

中文分词主要分为三个流派:

机械式分词法(基于词典):

简单来说就是建立一个巨大的词典,然后将词典中的词语和文章中的词语相匹配,找到这个词语就算匹配成功,但是词典的完备性得不到保证。也就是文章中的有的词语在词典中找不到。

基于语法和规则的分词法:

分词的同时在句法语义方面进行分析,利用句法信息和语义信息进行词性标注,解决分词的歧义。
因为现在的语法句法还十分复杂,所以精度还不高。

基于统计的分词法

根据字符串在语料库中出现的统计频率来决定这是否是一个词语。

本文主要介绍ICTCLAS中文分词的来源与现状。

什么是词语和分词规范

有人做过一个测试,被测试的有三个人来自内地 三个人来自台湾,分词结果差异最大0.69最小0.89平均认同率0.76说明同是汉语使用者的分词标准有分歧
本书涉及的分词规范有两类:

第一类包括《北大(中科院)词性标注》、《现代汉语语料库加工规范---词语切分与词性标注》、《北京大学现代汉语语料库基本加工规范》三篇文章。

第二类为《宾州树库中文分词规范》,

将汉语的词类主要分为13种:名词、动词、代词、形容词、数词、量词、副词、介词、连词、助词、语气词、叹词和象声词。

两种分词标准:

例如:浙江大学坐落在西湖旁边
粗粒度:浙江大学、坐落、在、西湖、旁边
细粒度:浙江、大学、坐落、在、西湖、旁边

粗粒度主要应用在自然语言处理的应用

细粒度主要应用在搜索引擎

机械分词方法采用自动分词词典中的词语从前往后匹配和从后往前匹配,这个方法没有考虑词汇上下文的相关性,准确度不高,不能满足高精度文本处理的需求。

这个机械分词的缺陷揭示一个重要规律:

也就是每个词语的出现是和前后上下文有关系的,但是上下文依赖关系不能考虑太远的词语,如果假设每个词语只和相邻的一个词语有关系,就提出了二元模型,一阶Markov链:
词汇与分词技术

感觉51CTO要提供一个公式编辑器,不然这个还能不能好好写下去:

下面有个python实现二元模型的代码,代码我就不抄了,简单来说,几元模型就是和相邻的几个词语有关系。

分词中还要解决一个问题就是词语是不断更新的,词库里面是没有的,这个问题叫做未登录词识别:

基于半监督的条件随机场(semi-CRF)算法 对于处理不同领域的专名识别具有较低的成本和较好的效果。

词汇与分词技术

ICRCLAS汉语分词系统是由张华平博士于2002年设计开发的。。。。。历史我就不说了还是感谢作者张华平博士提供了这么好的系统,现在很多知名互联网公司都以这个算法为分词系统的核心算法。

hanLP分词模块的流程:词汇与分词技术

词汇与分词技术

Nshort算法原理

1、从此图中构建处节点和权重排序数组
2、从此图中过滤掉排序数组中权重较高的路径
词汇与分词技术

转载于:https://blog.51cto.com/yixianwei/2107120

你可能感兴趣的文章
named let 递归和闭包的利器
查看>>
OWIN与Katana详解
查看>>
系统设计之 海量数据的设计
查看>>
Paint House II
查看>>
201803201651
查看>>
html标签的显示模式(块级标签,行内标签,行内块标签)(转)
查看>>
maven项目无法查看方法
查看>>
7个你可能不认识的CSS单位:rem vh vw vmin vmax ex ch
查看>>
stark组件(1):动态生成URL
查看>>
汕头市队赛 SRM 09 B 撕书
查看>>
javascript常用的内置对象实用操作
查看>>
KVC+Runtime获取类/对象的属性/成员变量/方法/协议并实现字典转模型
查看>>
169. Majority Element
查看>>
Django Form表单学习总结
查看>>
大整数加法
查看>>
Vue 爬坑之路(四)—— 与 Vuex 的第一次接触
查看>>
深入理解OOP(三):多态和继承(动态绑定和运行时多态)
查看>>
下拉菜单
查看>>
C/C++中extern关键字详解
查看>>
证书吊销
查看>>