当前位置:首页 > 服务端 > jieba笔记

jieba笔记

2022年11月24日 23:26:46服务端7

功能 1):分词

  • jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2)cut_all参数用来控制是否采用全模式

  • jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细

  • 注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicode

  • jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每一个词语(unicode),也可以用list(jieba.cut(...))转化为list

 1 #encoding=utf-8
 2 import jieba
 3 
 4 seg_list = jieba.cut("我来到北京清华大学",cut_all=True)
 5 print "Full Mode:", "/ ".join(seg_list) #全模式
 6 
 7 seg_list = jieba.cut("我来到北京清华大学",cut_all=False)
 8 print "Default Mode:", "/ ".join(seg_list) #精确模式
 9 
10 seg_list = jieba.cut("他来到了网易杭研大厦") #默认是精确模式
11 print ", ".join(seg_list)
12 
13 seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") #搜索引擎模式
14 print ", ".join(seg_li

output

 

【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学

【精确模式】: 我/ 来到/ 北京/ 清华大学

【新词识别】:他, 来到, 了, 网易, 杭研, 大厦    (此处,“杭研”并没有在词典中,但是也被Viterbi算法识别出来了)

【搜索引擎模式】: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 

 

功能 2) :添加自定义词典

 

作者:小_龟
来源链接:https://www.cnblogs.com/cppb/p/5974070.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/78040.html

标签: jieba
分享给朋友:

“jieba笔记” 的相关文章

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。 .NET平台上常见的分词组件...

python中lcut啥意思

python学习笔记——jieba库入门 python学习笔记——jieba库入门 一、查找官方文档 https://pypi.org/project/jieba/ 二、介绍 jieba(中文意思是“结巴”)中...

jieba分词的几种形式

1、精确模式:试图将句子最精确地分开,适合文本分析 seg_list = jieba.cut(test_text, cut_all=False) seg_list = " ".join(seg_list) print("cut_all=F...

python入门之jieba库的使用

python入门之jieba库的使用

  对于一段英文,如果希望提取其中的的单词,只需要使用字符串处理的split()方法即可,例如“China is a great country”。      然而对于中文文本,中文单词之间缺少分隔符,这是中文及类似语言独有的“分词问题”...

jieba中文处理 python

一、Jieba中文分词 本文使用jieba进行文本进行分词处理,它有3种模式,精确模式,全模式模式,搜索引擎模式: · 精确模式:试图将句子最精确地切开,适合文本分析; · 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; · 搜...

Python笔记 之 jieba模块

更详细的解释及举例请查看官方文本:jieba参考文档 jieba分词 支持四种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确...

jieba库红楼梦

import jieba with open ("E:/下载/红楼梦.txt",encoding="utf-8") as file: f = file.read()del_list ={"什么","一个","我们","那里","如今","你们","说道","起来","姑娘","这...

Python中文分词 jieba

Python中文分词 jieba

三种分词模式与一个参数 以下代码主要来自于jieba的github,你可以在github下载该源码 import jieba seg_list = jieba.cut("我来到北京清华大学", cut_all=True, HMM=False) #jieba.c...

jupyter怎么安装jieba

最近用到 jieba ,在anaconda 怎么也安装补上,在网上找了一下,发现有几篇文章写得很好,但是为了怕自己以后再浪费时间,这里还是做个记录。 通常安装模块直接用pip install jieba,或者conda install jieba,但是有一些模块...

python jieba模块基本命令讲解

1、分词精确模式: import jieba s="fdsfdsfsdfds" s_cut_jq=jieba.cut(s) #可见分词结果返回的是一个生成器,可实现拼接 cut_jq=','.join(s_cut_jq)全模式: s_cut_qms=jieba.cut(s,cut...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。