当前位置:首页 > 服务端 > jieba(杰巴)分词的三种模式

jieba(杰巴)分词的三种模式

2022年12月08日 18:07:51服务端69

jieba(结巴)是一个强大的分词库,完美支持中文分词,做为最好的Python中文分词组件。

安装:pip install jieba

特点

支持三种分词模式:

  1.精确模式,试图将句子最精确地切开,适合文本分析;

     import jieba

    strings = '今天天气真好'
    seg = jieba.cut(strings,cut_all=False)
    print(','.join(seg))

        output :   今天天气,真,好

     cut_all参数默认为False,所有使用cut方法时默认为精确模式


  2.全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;

    

      import jieba

    strings = '今天天气真好'
    seg = jieba.cut(strings,cut_all=True)
    print(','.join(seg))

        output :   今天,今天天气,天天,天气,真好


  3.搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

    

    import jieba

   strings = '今天天气真好'
   seg = jieba.cut_for_search(strings)
   print(','.join(seg))

      output : 今天,天天,天气,今天天气,真,好

作者:Computer_geek
来源链接:https://www.cnblogs.com/han20180705/p/9470622.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/85224.html

标签: jieba分词
分享给朋友: