当前位置:首页 > 服务端 > python jieba库的使用说明

python jieba库的使用说明

2022年11月09日 11:26:02服务端6

1、jieba库基本介绍

  (1)、jieba库概述 

         jieba是优秀的中文分词第三方库 

         中文文本需要通过分词获得单个的词语
         - jieba是优秀的中文分词第三方库,需要额外安装

         - jieba库提供三种分词模式,最简单只需掌握一个函数

  (2)、jieba分词的原理

         Jieba分词依靠中文词库 

         利用一个中文词库,确定汉字之间的关联概率
         - 汉字间概率大的组成词组,形成分词结果

         - 除了分词,用户还可以添加自定义的词组

 

2、jieba库使用说明

  (1)、jieba分词的三种模式 

         精确模式、全模式、搜索引擎模式 

         精确模式:把文本精确的切分开,不存在冗余单词
         - 全模式:把文本中所有可能的词语都扫描出来,有冗余

         - 搜索引擎模式:在精确模式基础上,对长词再次切分

  (2)、jieba库常用函数


python jieba库的使用说明 _ JavaClub全栈架构师技术笔记

 

3.jieba应用实例

python jieba库的使用说明 _ JavaClub全栈架构师技术笔记

 

4.利用jieba库统计三国演义中任务的出场次数

 

python jieba库的使用说明 _ JavaClub全栈架构师技术笔记
import  jieba

txt = open("D:\\三国演义.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if  len(word) == 1:    # 单个词语不计算在内
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍历所有词语,每出现一次其对应的值加 1
        
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

for i in range(15):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))
python jieba库的使用说明 _ JavaClub全栈架构师技术笔记

python jieba库的使用说明 _ JavaClub全栈架构师技术笔记

 

统计了次数对多前十五个名词,曹操不愧是一代枭雄,第一名当之无愧,但是我们会发现得到的数据还是需要进一步处理,比如一些无用的词语,一些重复意思的词语。

 

本文为转载,原文链接:https://www.cnblogs.com/wkfvawl/p/9487165.html

作者:马秀昆
来源链接:https://www.cnblogs.com/mxk123/p/11789328.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/68651.html

标签: jiebaPython
分享给朋友:

“python jieba库的使用说明” 的相关文章

Python  一网打尽<排序算法>之堆排序算法中的树

Python 一网打尽<排序算法>之堆排序算法中的树

本文从树数据结构说到二叉堆数据结构,再使用二叉堆的有序性对无序数列排序。 1. 树 树是最基本的数据结构,可以用树映射现实世界中一对多的群体关系。如公司的组织结构、网页中标签之间的关系、操作系统中文件与目录结构……都可以用树结构描述。 树是由结点以及结点之间的关系所构...

Python快速学习06:词典

Python快速学习06:词典

系列文章:[传送门]   上面讲的,特别是对象和类,大家好好体会。   Python对象是Python语言的核心部分。今天介绍一个新类:词典(dicrionary)   基本概念   字典是Python 中的映射数据类型,工作原...

python配置环境变量

例:cmd中输入 Python环境变量 path=%path%;C:\Python27 pip环境变量 path=%path%;C:\Python27\Scripts   作者:Mydrizzle 来源链...

Windows平台Python指定版本安装模块包

Windows平台Python指定版本安装模块包

此文转载自:https://blog.csdn.net/Ginomica_xyx/article/details/110221826 Windows平台Python指定版本安装模块包 当电脑中存在多个版本的Pyt...

win10安装python  3.7后(正确配置了环境变量)使用pip命令失败 :Unknown or unsupported command 'list',原因是卸载loadrunner 11没卸载干净

win10安装python 3.7后(正确配置了环境变量)使用pip命令失败 :Unknown or unsupported command 'list',原因是卸载loadrunner 11没卸载干净

问题:安装python 3.7后,正确配置环境变量,使用pip命令报错:Unknown or unsupported command 'list' 搜索问题原因:卸载loadrunner 11没卸载干净 解决方法:删除C盘下的C:\strawberry文件夹 &nbs...

Python安装Windows的pip包

1.到https://www.python.org/downloads/ 下载python包安装python 2.到https://pypi.python.org/pypi/pip#downloads 下载pip的安装包,解压到当前文件夹 3.在DOS命令窗口下输入安装,进...

Python环境准备(安装python解释器)

Python环境准备(安装python解释器)

上篇文章介绍了Python的相关知识,本章就开始着手操作,创建第一个Python程序,在这之前,首先需要配置Python的运行环境,也就是安装python解释器 ------------- 完美的分割线 --------------- 1.python环境准备 ...

[Python Study Notes] Python的安装

Windows:   1.下载安装包: 转到Python官网https://www.python.org/downloads/  ,下载最新版本的Python。   2.安装 安装到自定义的安装路径下。  ...

'pip' 不是内部或外部命令,也不是可运行的程序 或批处理文件 — 处理办法

'pip' 不是内部或外部命令,也不是可运行的程序 或批处理文件 — 处理办法

今天在DOW中使用pip命令安装 requests库时,报错:'pip' 不是内部或外部命令,也不是可运行的程序 或批处理文件。   一般安装python时就会自动把pip安装好,所以要先明确自己是否安装了python。 如果确定自己安装了python,那就...

[100_Python学习笔记]001_Python环境安装配置(Windows 7)

[100_Python学习笔记]001_Python环境安装配置(Windows 7)

1. 到官网下载最新的Python安装程序   2. 双击安装包程序"python-2.7.3.msi"        3. 一路"Next>"到底,不过如果你需要更改安装目录的话,需要自己配...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。