当前位置:首页 > 服务端 > 【python】利用jieba中文分词进行词频统计及生成词云

【python】利用jieba中文分词进行词频统计及生成词云

2022年11月09日 22:10:12服务端8

以下代码对鲁迅的《祝福》进行了词频统计:

 1 import io
 2 import jieba
 3 txt = io.open("zhufu.txt", "r", encoding='utf-8').read()
 4 words  = jieba.lcut(txt)
 5 counts = {}
 6 for word in words:
 7     if len(word) == 1:
 8         continue
 9     else:
10         counts[word] = counts.get(word,0) + 1
11 items = list(counts.items())
12 items.sort(key=lambda x:x[1], reverse=True) 
13 for i in range(15):
14     word, count = items[i]
15     print (u"{0:<10}{1:>5}".format(word, count))

结果如下:

【python】利用jieba中文分词进行词频统计及生成词云 _ JavaClub全栈架构师技术笔记

并把它生成词云

 1 from wordcloud import WordCloud
 2 import PIL.Image as image
 3 import numpy as np
 4 import jieba
 5  
 6 # 分词
 7 def trans_CN(text):
 8     # 接收分词的字符串
 9     word_list = jieba.cut(text)
10     # 分词后在单独个体之间加上空格
11     result = " ".join(word_list)
12     return result
13  
14 with open("zhufu.txt") as fp:
15     text = fp.read()
16     # print(text)
17     # 将读取的中文文档进行分词
18     text = trans_CN(text)
19     mask = np.array(image.open("xinxing.jpg"))
20     wordcloud = WordCloud(
21         # 添加遮罩层
22         mask=mask,
23         font_path = "msyh.ttc"
24     ).generate(text)
25     image_produce = wordcloud.to_image()
26     image_produce.show()

效果如下:

【python】利用jieba中文分词进行词频统计及生成词云 _ JavaClub全栈架构师技术笔记

作者:litchi31
来源链接:https://www.cnblogs.com/litchi666/p/12703836.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/68960.html

分享给朋友:

“【python】利用jieba中文分词进行词频统计及生成词云” 的相关文章

Python "爬虫"出发前的装备之一正则表达式

1. 正则表达式 正则表达式是一种模板表达式语言 通过定义规则去匹配、查找、替换、分割一个长字符串中特定的子字符信息。 如在一篇文章中查找出所有合法的电子邮箱地址,则可以先用正则表达式定义一个电子邮箱规则,然后再使用这个规则在整个字符串中查找。 爬虫程序一般都会...

Python 散列表查询

Python 散列表查询

1. 前言 哈希表或称为散列表,是一种常见的、使用频率非常高的数据存储方案。 哈希表属于抽象数据结构,需要开发者按哈希表数据结构的存储要求进行 API 定制,对于大部分高级语言而言,都会提供已经实现好的、可直接使用的 API,如 JAVA 中有 MAP 集合、C++ 中的...

Python执行.sh脚本cataline环境变量配置

Python执行.sh脚本cataline环境变量配置

注:参考文档:https://blog.csdn.net/weixin_38322156/article/details/72852607;https://blog.csdn.net/johnnysun2015/article/details/78414684 一:问题,最近在用...

关于环境变量的配置

环境变量配置 java要配置到bin目录和jre的bin目录 python要配置到pythonProject的Scripts目录 作者:花痴dy 来源链接:https://www.cnblogs.co...

numpy的安装和使用

numpy的安装和使用

           自定义安装Python(记得勾选环境变量)后,首次使用IDLE或者DOC执行python使用numpy时会报如下错误:   这说明安装python过程中并未安装numpy,此时需要手...

2.安装Spark与Python练习

2.安装Spark与Python练习

一、安装Spark 检查基础环境hadoop,jdk   下载spark 解压,文件夹重命名、权限 配置文件                 ...

关于anaconda的opencv环境的配置问题

我本身电脑安装采取的是已有Python的环境配置下,然后安装了anaconda的配置,并在环境中配置了anaconda的环境变量,在此情况下安装opencv变量,我尝试了两种安装方法 1.直接安装pip install opencv-python 2.下载相关文件,然后直接...

Anaconda安装之环境变量配置

Anaconda安装之环境变量配置

1.在此之前先把python安装完成,并配置好环境变量。Anaconda默认大家都已经安装完成,没安装的可以直接去Anaconda官网下载(网速较慢,不建议),这里可以去清华大学开源软件镜像站下载。 2.记住Anaconda安装的目录:   (1)Anaconda安装路径(...

win10安装python  3.7后(正确配置了环境变量)使用pip命令失败 :Unknown or unsupported command 'list',原因是卸载loadrunner 11没卸载干净

win10安装python 3.7后(正确配置了环境变量)使用pip命令失败 :Unknown or unsupported command 'list',原因是卸载loadrunner 11没卸载干净

问题:安装python 3.7后,正确配置环境变量,使用pip命令报错:Unknown or unsupported command 'list' 搜索问题原因:卸载loadrunner 11没卸载干净 解决方法:删除C盘下的C:\strawberry文件夹 &nbs...

Python环境准备(安装python解释器)

Python环境准备(安装python解释器)

上篇文章介绍了Python的相关知识,本章就开始着手操作,创建第一个Python程序,在这之前,首先需要配置Python的运行环境,也就是安装python解释器 ------------- 完美的分割线 --------------- 1.python环境准备 ...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。