[摘要]分词凭据字符串从事婚配,最常见的有三种分词婚配法,分别为:正向最大婚配法,反向最大婚配法和最短路径分词法。
分词凭据字符串从事婚配,最常见的有三种分词婚配法,分别为:正向最大婚配法,反向最大婚配法和最短路径分词法。
1,甚么是正向最大婚配法呢?
简单点说便是从左到右从事分词,比方baidu:武林别传说,武林别传与传说是两个不一样的词,凭据用户索习惯与词库分析baidu会前往一个正向最大的婚配,也便是分词为:武林别传 说。
2,甚么是反向最大婚配法
反向分词固名思义便是从右向左从事分词了。回到刚刚的例子,baidu:郑智化学,若是遵循正向分词那么我们应该获得的分词成果是:郑智化 学。那么baidu索的成果为甚么却不是如此呢?而是分成了郑智 化学。
3,正反向同时分词婚配
而有一种非同普通的现象,便是关词前后组合内容被认为粘性相差不大,而索成果辊也同时括这两组词的话,baidu会从事正反向同时从事分词婚配,
4,甚么是分词起码化
指:分出来的词数应该是寻求起码化,以索:武林别传说 为例,理论能够分成:武林 外 传说,但是baidu只分成了 武林别传 说 ,即能尽可能将分组数降低,能分成两组的尽可能不分成三组!