当前位置:首页 > 服务端 > jieba模块基本介绍

jieba模块基本介绍

2022年11月06日 13:41:55服务端10

一.jieba模块基本介绍

1.1 jieba模块的作用

jieba是优秀的第三方中文词库

中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程

1.2 jieba模块的安装
pip install jieba  #cmd命令行

二.jieba库的使用说明

2.1 jieba分词的三种模式

精确模式:将句子最精确的分开,适合文本分析(无冗余)

全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义(有冗余)

搜索引擎模式:在精确的基础上,对长词再次切分,提高召回率(有冗余)

三.jieba分词的使用方法

3.1 三种模式的使用方法
#调用jieba词库 import jieba
#精确模式
jieba.cut(文件/文本等内容) #获取可迭代对象
jieba.lcut()
#全模式
jieba.cut(cut_all=True) #获取可迭代对象
jieba.lcut(cut_all=True)
#搜索引擎模式
jieba.cut_for_search() # 获取可迭代对象
jieba.lcut_for_search()
3.2 jieba.cut与jieba.lcut的区别

jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。

import jieba
txt = '狗比胡晨阳'
print(jieba.cut(txt))
#打印的内容
<generator object Tokenizer.cut at 0x000002004F5B8348>

jieba.lcut 直接生成的就是一个list

import jieba
txt = '狗比胡晨阳'
print(jieba.lcut(txt))
#打印的内容
runfile('E:/python项目/test.py', wdir='E:/python项目')
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache
Loading model cost 1.374 seconds.
Prefix dict has been built succesfully.
['狗', '比', '胡晨阳']

 

 

 

作者:bing丶
来源链接:https://www.cnblogs.com/a736659557/p/11778320.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/68183.html

标签: jieba
分享给朋友:

“jieba模块基本介绍” 的相关文章

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。 .NET平台上常见的分词组件...

python入门之jieba库的使用

python入门之jieba库的使用

  对于一段英文,如果希望提取其中的的单词,只需要使用字符串处理的split()方法即可,例如“China is a great country”。      然而对于中文文本,中文单词之间缺少分隔符,这是中文及类似语言独有的“分词问题”...

jieba的一些使用

最近处理中文数据集经常用到jieba,记录一下遇到的问题。 1.分词 最常用的就是jieba.cut(text) 一般还会使用jieba.posseg进行词性过滤 词性表: Ag 形语素...

Python 中文分词 jieba(小白进)

Python 中文分词 jieba(小白进)

文章目录 0、安装 1、分词 1.1、CUT函数简介 1.2、分词模式 1.3、词性标注 1.4、词语出现的位置 2、...

jieba中文处理 python

一、Jieba中文分词 本文使用jieba进行文本进行分词处理,它有3种模式,精确模式,全模式模式,搜索引擎模式: · 精确模式:试图将句子最精确地切开,适合文本分析; · 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; · 搜...

Lucene.net(4.8.0) 学习问题记录五: JIEba分词和Lucene的结合,以及对分词器的思考

前言:目前自己在做使用Lucene.net和PanGu分词实现全文检索的工作,不过自己是把别人做好的项目进行迁移。因为项目整体要迁移到ASP.NET Core 2.0版本,而Lucene使用的版本是3.6.0 ,PanGu分词也是对应Lucene3.6.0版本的。不过好在Lucene....

jieba库红楼梦

import jieba with open ("E:/下载/红楼梦.txt",encoding="utf-8") as file: f = file.read()del_list ={"什么","一个","我们","那里","如今","你们","说道","起来","姑娘","这...

简单粗暴认识jieba(结巴)

转载:https://blog.csdn.net/comeonyangzi/article/details/80500509 jieba(结巴)是一个强大的分词库,完美支持中文分词,本文对其基本用法做一个简要总结...

Python中文分词 jieba

Python中文分词 jieba

三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) #jieba.c...

jupyter怎么安装jieba

最近用到 jieba ,在anaconda 怎么也安装补上,在网上找了一下,发现有几篇文章写得很好,但是为了怕自己以后再浪费时间,这里还是做个记录。 通常安装模块直接用pip install jieba,或者conda install jieba,但是有一些模块...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。