当前位置:首页 > 服务端 > jieba库的使用

jieba库的使用

2022年11月06日 17:05:49服务端15
  • jieba是python的第三方库,使用jieba库需要先安装。jieba是一个中文分词库,可以根据所给的中文句子,提取出可能的词组
  • jieba库分词依靠词库。利用中文词库,确定汉字之间的关联概率。概率大的组成词组,形成分词效果。除了分词,用户还可以添加自定义的词组
  • jieba提供了三种分词模式,精确模式、全模式和搜索引擎模式

安装jieba库,在命令行中输入以下语句就可以安装,前提是安装了python和pip

pip install jieba

jieba库常用函数有四个,分别对应三种分词模式和一种向词库添加新词的功能

1、lcut(s)
精确模式,返回一个列表类型的分词结果,不存在冗余词

import jieba
str="世界那么大,我想去看看"
s=jieba.lcut(str)
print(s)

运行结果:

['世界', '那么', '大', ',', '我', '想', '去', '看看']

2、lcut(s,cut_all=True)
全模式,返回一个列表类型分词结果,存在冗余。

import jieba
str="世界那么大,我想去看看"
s=jieba.lcut(str,cut_all=True)
print(s)

运行结果:

['世界', '那么', '大', ',', '我', '想去', '看看']

3、lcut_for_search(s)
搜索引擎模式,返回一个列表类型的分词结果,存在肉哦能够与。是在精确模式的基础上,对长词再次划分

import jieba
str="世界那么大,我想去看看"
s=jieba.lcut_for_search(str)
print(s)

运行结果:

['世界', '那么', '大', ',', '我', '想', '去', '看看']

4、add_word(w)
向分词词典中添加新词w

import jieba
str="世界那么大,我想去看看"
s1=jieba.lcut(str)
print(s1)                            #添加分词前的分词效果
jieba.add_word('世界那么')
s2=jieba.lcut(str)               
print(s2)                            #添加分词的后的分词效果

运行结果:

['世界',‘那么', '大', ',', '我', '想', '去', '看看']
['世界那么', '大', ',', '我','想','去', '看看']

作者:xjfyt
来源链接:https://www.cnblogs.com/xjfyt0129/p/13019980.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/68194.html

标签: jieba
分享给朋友:

“jieba库的使用” 的相关文章

python中lcut啥意思

python学习笔记——jieba库入门 python学习笔记——jieba库入门 一、查找官方文档 https://pypi.org/project/jieba/ 二、介绍 jieba(中文意思是“结巴”)中...

jieba分词的几种形式

1、精确模式:试图将句子最精确地分开,适合文本分析 seg_list = jieba.cut(test_text, cut_all=False) seg_list = " ".join(seg_list) print("cut_all=F...

jieba分词的基本用法和词性标注

jieba分词的基本用法和词性标注 一、jieba 分词基本概述 二、添加自定义词典 3、关键词提取 四、词性标注 * 五、并行分词 六、T...

python入门之jieba库的使用

python入门之jieba库的使用

  对于一段英文,如果希望提取其中的的单词,只需要使用字符串处理的split()方法即可,例如“China is a great country”。      然而对于中文文本,中文单词之间缺少分隔符,这是中文及类似语言独有的“分词问题”...

NLP-jieba篇

和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中...

jieba中文处理 python

一、Jieba中文分词 本文使用jieba进行文本进行分词处理,它有3种模式,精确模式,全模式模式,搜索引擎模式: · 精确模式:试图将句子最精确地切开,适合文本分析; · 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; · 搜...

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene....

简单粗暴认识jieba(结巴)

转载:https://blog.csdn.net/comeonyangzi/article/details/80500509 jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结...

Python中文分词 jieba

Python中文分词 jieba

三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) #jieba.c...

jupyter怎么安装jieba

最近用到 jieba ,在anaconda 怎么也安装补上,在网上找了一下,发现有几篇文章写得很好,但是为了怕自己以后再浪费时间,这里还是做个记录。 通常安装模块直接用pip install jieba,或者conda install jieba,但是有一些模块...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。