当前位置:首页 > 服务端 > jieba分词

jieba分词

2022年11月07日 21:13:45服务端8

import jieba

txt = open("《西游记》.txt", "r", encoding='utf-8').read()
words = jieba.lcut(txt) # 使用精确模式对文本进行分词
counts = {} # 通过键值对的形式存储词语及其出现的次数

for word in words:
if len(word) == 1:
continue

elif word == "大圣" or word == "老孙" or word == "行者" or word == "孙大圣" or word == "孙行者" or word == "猴王" or word == "悟空" or word == "齐天大圣" or word == "猴子":
rword = "孙悟空"
elif word == "师父" or word == "三藏" or word == "圣僧":
rword = "唐僧"
elif word == "呆子" or word == "八戒" or word == "老猪":
rword = "猪八戒"
elif word == "沙和尚":
rword = "沙僧"
elif word == "妖精" or word == "妖魔" or word == "妖道":
rword = "妖怪"
elif word == "佛祖":
rword = "如来"
elif word == "三太子":
rword = "白马"
else:
rword = word
counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items()) # 将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序

for i in range(20):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))

jieba分词 _ JavaClub全栈架构师技术笔记

作者:LianGiQ
来源链接:https://www.cnblogs.com/LianGiQ/p/15551240.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/68381.html

标签: jieba分词
分享给朋友:

“jieba分词” 的相关文章

springboot整合IK分词器

核心代码: private static Set segment(String text) throws Exception{  //text 为你要搜索的内容 Set<String> set = new HashSet<>();...

ElasticSearch安装中文分词插件ik导致elasticsearch容器反复重启

问题:在docker容器的elasticsearch容器的plugin安装并解压了ik压缩包重启后查看elasticsearch状态一直是Restarting 解决办法:注意在解压ik的时候要在一个文件夹中,不能直接解压到plugin下面否则docker logs...

ElasticSearch安装步骤、分词器安装

docker安装 ES安装 拉取镜像 # 版本已比较老 可使用较新的7.17.0 或8.0.0 docker pull elasticsearch:7.4.0 配置分词器 ik/pinyin #切换目录 mkdir /us...

Solr IK分词器配置

下载地址:https://search.maven.org/search?q=com.github.magese   分词器配置: 参考:https://www.cnblogs.com/mengjinluohua/p/8439546.html &nbs...

ElasticSearch搜索引擎安装配置中文分词器IK插件

ElasticSearch搜索引擎安装配置中文分词器IK插件

ElasticSearch默认的分词器是标准分词器Standard,如果直接使用在处理中文内容的搜索时,中文词语被分成了一个一个的汉字,因此引入中文分词器IK就能解决这个问题,同时用户可以配置自己的扩展字典、远程扩展字典等。 近几篇ElasticSearch系列:...

Solr配置中文的分词器-简单配置

Solr配置中文的分词器-简单配置

Solr配置中文的分词器 文章目录 Solr配置中文的分词器 英文分词 中...

docker安装的ES,安装插件ik分词器

docker安装的ES,安装插件ik分词器

一、进入ES容器 docker exec -it es的容器编号 /bin/bash 二、下载并安装ik分词器,版本要与ES一致 ./bin/elasticsearch-plugin install https://github.co...

docker安装elasticsearch7.10.1总是自动退出问题解决、以及kibana和ik分词器、pinyin分词器的安装

docker安装es7.10.1 以下为自己遇到该问题后的解决方式,记录一下。 首先确认是否是单节点启动。如果是单节点,请按照该命令启动 docker run --name elasticsearch -p 9200:9...

Elasticsearch安装中文分词插件IK

Elasticsearch安装中文分词插件IK

        Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,比如我们更希望 “中国人”,“中国”,“我”这样的分词,因此需要安装中文分词插件IK来实现此功...

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。 .NET平台上常见的分词组件...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。