当前位置:首页 > 服务端 > python jieba词频统计

python jieba词频统计

2022年11月09日 20:44:45服务端6

要实现中文分词功能,大家基本上都是在使用 jieba 这个库来实现,下面就看看怎样实现一个简单文本分词功能。

安装

python的工具,安装当然是使用pip安装了。

pip install jieba

使用

先看一个小例子,下面的代码是从一个文本文件中分词并统计出现频率最高的10个单词,并打印到控制台。

#!/usr/bin/env python

# -*- coding: utf-8 -*-

import jieba

import jieba.analyse

import codecs

import re

from collections import Counter

class WordCounter(object):

def count_from_file(self, file, top_limit=0):

with codecs.open(file, 'r', 'utf-8') as f:

content = f.read()

content = re.sub(r'\s+', r' ', content)

content = re.sub(r'\.+', r' ', content)

return self.count_from_str(content, top_limit=top_limit)

def count_from_str(self, content, top_limit=0):

if top_limit <= 0:

top_limit = 100

tags = jieba.analyse.extract_tags(content, topK=100)

words = jieba.cut(content)

counter = Counter()

for word in words:

if word in tags:

counter[word] += 1

return counter.most_common(top_limit)

if __name__ == '__main__':

counter = WordCounter()

result = counter.count_from_file(r'/tmp/abc.txt', top_limit=10)

for k, v in result:

print k, v

代码说明:

代码首先从一个文本文件读入文本,并作了一些简单的替换,比如替换多个空格为单空格等。

使用关键词提取功能,提取权重最高的10个关键词。

使用精确模式对文件内容分词。

根据关键词和分词结果,统计词频。

排序并返回词频最高的单词和出现次数。

多说两句

分词模式

jieba 分词有三种模式:精确模式、全模式和搜索引擎模式,且分词结果返回的是一个生成器。:

精确模式: jieba.cut(str) 默认实现。

全模式: jieba.cut(str, cut_all=True) 全模式是把文本分成尽可能多的词。

搜索引擎模式: jieba.cut_for_search(str, cut_all=True)

关键词提取功能

jieba提供了关键词提取功能,使用方法如下:

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

sentence 为待提取的文本

topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20

withWeight 为是否一并返回关键词权重值,默认值为 False

allowPOS 仅包括指定词性的词,默认值为空,即不筛选

使用并行分词模式

# 开启并行分词模式,参数为并发执行的进程数

jieba.enable_parallel(5)

# 关闭并行分词模式

jieba.disable_parallel()

使用用户字典分词

jieba.load_userdict('user_dict.txt')

作者:weixin_39871378
来源链接:https://blog.csdn.net/weixin_39871378/article/details/110697869

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/69166.html

标签: jiebaPython
分享给朋友:

“python jieba词频统计” 的相关文章

【python】函数用法详解(一)

【python】函数用法详解(一)

✅作者简介:大家好我是姐姐划船吗?让我们一起共同进步吧!🏆 📃个人主页:姐姐划船吗? 🔥系列专栏:学会python,逆天改命 💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞 💬格言:静坐要辨己过,闲谈莫论人非🔥 学习目标:   &nbs...

Python 一网打尽<排序算法>之从希尔排序算法的分治哲学开始

Python 一网打尽<排序算法>之从希尔排序算法的分治哲学开始

1. 前言 本文将介绍希尔排序、归并排序、基数排序(桶排序)。 在所有的排序算法中,冒泡、插入、选择属于相类似的排序算法,这类算法的共同点:通过不停地比较,再使用交换逻辑重新确定数据的位置。 希尔、归并、快速排序算法也可归为同一类,它们的共同点都是建立在分治思想之上。...

Python-os模块和sys模块

Python-os模块和sys模块

一、os模块 os模块是Python中一个非常重要的模块,完成对操作系统的一些操作,使用时,直接import os即可。 下面是os模块中常用的。 还有一个很重要的,是os.walk,可以列出指定路径下的所有路径,文件,文件夹。 &nbs...

Windows下python环境变量配置

默认情况下,在windows下安装python之后,系统并不会自动添加相应的环境变量。此时不能在命令行直接使用python命令。   1. 首先需要在系统中注册python环境变量:假设python的安装路径为c:\python2.6,则修改我的电脑->属性...

Selenium学习第一章:搭建测试环境

Selenium学习第一章:搭建测试环境

一:下载python,官网地址:https://www.python.org/,傻瓜式安装(最好不要装在C盘)   二:配置环境变量 右击“计算机”—“属性”—“环境变量”,在系统变量“Path”中添加你安装python的这两个地址(中间隔开用英文分号)...

python解释器安装教程以及环境变量的配置

python解释器安装教程以及环境变量的配置

一‘’Python是一门强大的语言,目前已支持所有主流操作系统,在Windows7,Windows10系统上需要安装一下: 打开官网 https://www.python.org/downloads/windows/ 下载中心 最上边是两个最新的版本,长期计划...

python与pycharm的安装及环境变量配置

python与pycharm的安装及环境变量配置

python安装步骤 python2.7 进入python官网 选择操作系统 选择版本号 按提示进行安装 一路next,直至安装完成! python3.6...

如何在idea中加载本地中已有的python

如何在idea中加载本地中已有的python

本地上安装好了python, 在IDEA中new Project的时候,new Python,选择SDK选择本地的python(本地的python已经配置好了环境变量才行) 另外,默认是不会导入Python中已安装的模块的,你需要勾选   &n...

在Windows系统下设置Python的环境变量,以及安装BeautifulSoup

默认情况下,在windows下安装python之后,系统并不会自动添加相应的环境变量。此时不能在命令行直接使用python命令。   1. 首先需要在系统中注册python环境变量:假设python的安装路径为c:\python2.6,则修改我的电脑->属性...

二、安装Spark与Python练习

二、安装Spark与Python练习

一.安装spark 1.检查基本环境Hadoop、jdk 2.配置文件,环境变量       3.试运行python代码     &n...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。