百度算法中怎么进行中文切词分词?

来源:学生作业学帮网 编辑:学帮网 时间:2024/04/29 01:16:29

百度算法中怎么进行中文切词分词?

导读:百度作为中文搜索引擎的先驱,它的核心地位可以说在短时期是没有任何搜索引擎可以超越的,百度的卓越成就在于它对博大精深的中国文化的领悟和对中文分词的的超强功底.百度受欢迎的主要原因除了用户习惯的原因,在较大程度上得益于百度算法的精准率,搜索结果值更贴近用户的想获得的资讯.用一句广告词 “正是我想要的”来形容百度最恰当不过了.
正因为百度对中国搜索引擎市场的统治地位,企业想在网上赚取大量的钞票,就不得不依靠百度.所以做搜索引擎的优化实际上就是百度优化.但百度强大的反优化能力和人工干预机制,使得众多的优化者以失败以失败告终.对于大多数优化者来说,百度成了洪水猛兽.果真如此吗?网络行销大师邓友成认为不尽然.只要是搜索引擎就离不开算法,任何算法都是有规律可循的.下面我们深入浅出的探讨一下百度的算法吧.
一. 搜索信息响应
当用户向百度提出搜索请求后百度会迅速根据用户的请求提供比较精准的结果值.
1. 比喻当用户提交“搜索引擎 优化 技术”这个查询文字串.百度会将文字串分割成若干子文字串,用空格,标点符等做细分处理.那么这个文字串就可以分成“搜索引擎,优化,技术”.
2. 如果用户提交的请求有重复的文字符,例如”优化 技术 优化”,百度会将重复的文字符看成一个.而字符的出现顺序就忽略.
3. 当用户提交请求中出现英文字符,百度一般会将英文字符当作一个整体来看,并和中文词分割开来,如果中文出现数字也是这样处理的.
百度通过切割、重组、归并、减负等手段对用户请求进行精准响应,使搜索结果符合用户的想法,以节省用户的查询时间,提高查询效率.
二. 中文核心分词
中文分词是百度算法的核心要素.按中文语法习惯,三个字(含三个字)以下的文字符是独立精准的词汇,没有重组的必要,所以百度对三个字(含三个字)以下的文字符不考虑细分.这也是百度核心算法的第一层,也是响应数量最多的部分.一般这些文字符更新的时间比较慢一些,一周或两周的时间.属于大更新的范畴.
四个字符的百度就会毫不客气的大卸十八块比如,网络工具这个文字串,当用户发出搜索请求后,会发现在搜索结果里面出现了红色的标记,已经把这个文字符分成了“网络,工具”.当然如果是四个字以上的文字串就更不用说了.会分成更多的分词.
三、字词匹配
大概了解了百度的分词原理后,我们要了解的一个重要方面就是字词的匹配问题.如果不知道字词的匹配,做优化就是空谈了.
最大匹配法
最大匹配法亦称MM法.假设自动分词词典(或词库)中的最长词条是y个字,则取被处理材料当前字符串序列中的前y个字作为匹配字段,查找词典,若词典中存在这样的一个y字词,则匹配成功,匹配字段被作为一个词切分出来;如果在词典中找不到这样一个y字词,则匹配失败,匹配字段去掉最后一个字,剩下的字段重新进行匹配,如此进行下去,直到匹配成功,也就是完成一轮匹配,切分出一个词为止.
正向最大匹配算法
正向最大匹配法(由左到右的方向).首先粗分,按照句子把文本切成一个一个句子.然后把每个句子切成单字.字典按照树形结构存储,比如这句话“春天还会远吗”首先查找“春”字开头的词,然后按照字典树形结构往下走一个节点,查找“春”后面一个字是“天”的词,然后又下沉一个节点,找“还”下面是“会”的词,找不到了,查找就结束.
反向最大匹配算法
逆向最大匹配法(由右到左的方向);就是朝相反的方向发掘可以匹配的文字,比如网上商城这个文字串,那么会向左延伸在王上的前面会出现的结果是区域性的文字,不如上海或者北京等,在商城的前面会出现更精准的定义文字符,不如爱家,女人等专属性强的文字符.
双向最大匹配算法
正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法.就是向左右纵深挖掘比较匹配的结果值.
熟悉了百度分词的方法后,我们就要在优化的过程充分的考虑相关联的因素,合理的对你所要向用户推荐的文字串做合理的规范和谋划.软优化欢迎优化者们和我们一道加强交流共同进步.