当前位置:首页 > 服务端 > jieba 分词

jieba 分词

2022年11月05日 20:24:55服务端12
import jieba
excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己",
            "一面","只见","怎么","两个","没有","不是","不知","这个","听见","这样","进来","咱们","告诉","就是",
            "东西","袭人","回来","只是","大家","只得","老爷","丫头","这些","不敢","出去","所以","不过","的话","不好",
            "姐姐","探春","鸳鸯","一时","不能","过来","心里","如此","今日","银子","几个","答应","二人","还有","只管",
            "这么","说话","一回","那边","这话","外头","打发","自然","今儿","罢了","屋里","那些","听说","小丫头","不用","如何"}

txt = open("红楼梦.txt","r",encoding='utf-8').read()
'''
不写明路径的话,默认和保存的python文件在同一目录下 注意打开格式是utf-8,这个可以打开txt文件,选择另存为,注意界面右下角的格式
'''
words = jieba.lcut(txt)
'''
利用jieba库将红楼梦的所有语句分成词汇
'''
counts = {}
'''
创建的一个空的字典
'''
for word in words:
    if len(word) == 1:      #如果长度是一,可能是语气词之类的,应该删除掉
        continue
    else:
        counts[word] = counts.get(word,0) + 1
'''
    如果字典中没有这个健(名字)则创建,如果有这个健那么就给他的计数加一
    [姓名:数量],这里是数量加一
'''
for word in excludes:
    del(counts[word
'''
    #这一步:如果列出的干扰词汇在分完词后的所有词汇中那么删除
'''
items = list(counts.items())
'''
把保存[姓名:个数]的字典转换成列表
'''
items.sort(key=lambda x:x[1],reverse = True)
'''
对上述列表进行排序,'True'是降序排列
'''
for i in range(20):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

jieba 分词 _ JavaClub全栈架构师技术笔记
 
  

  

作者:chengyi92
来源链接:https://www.cnblogs.com/520620asd/p/13974576.html

版权声明:
1、JavaClub(https://www.javaclub.cn)以学习交流为目的,由作者投稿、网友推荐和小编整理收藏优秀的IT技术及相关内容,包括但不限于文字、图片、音频、视频、软件、程序等,其均来自互联网,本站不享有版权,版权归原作者所有。

2、本站提供的内容仅用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律的规定,不得侵犯相关权利人及本网站的合法权利。
3、本网站内容原作者如不愿意在本网站刊登内容,请及时通知本站(javaclubcn@163.com),我们将第一时间核实后及时予以删除。


本文链接:https://www.javaclub.cn/server/68045.html

标签: jieba分词
分享给朋友:

“jieba 分词” 的相关文章

ElasticSearch安装中文分词插件ik导致elasticsearch容器反复重启

问题:在docker容器的elasticsearch容器的plugin安装并解压了ik压缩包重启后查看elasticsearch状态一直是Restarting 解决办法:注意在解压ik的时候要在一个文件夹中,不能直接解压到plugin下面否则docker logs...

ElasticSearch安装分词器

ElasticSearch安装分词器

ElasticSearch安装分词器 问题 在学习es的查询语句的过程中,对于中文的一些模糊搜索经常出现查询结果与预期不符的查询结果,经查阅资料得知 es默认的分词器会将中文按每个字符进行分割, 例如 中国,美国 当我们查询中国的时候,他会将...

Solr IK分词器配置

下载地址:https://search.maven.org/search?q=com.github.magese   分词器配置: 参考:https://www.cnblogs.com/mengjinluohua/p/8439546.html &nbs...

Solr配置中文的分词器-简单配置

Solr配置中文的分词器-简单配置

Solr配置中文的分词器 文章目录 Solr配置中文的分词器 英文分词 中...

Elasticsearch安装与分词插件、用户词典、同义词配置等

Elasticsearch安装与分词插件、用户词典、同义词配置等

简介 本文介绍了全文搜索引擎Elasticsearch的安装过程,以及ik中文分词插件、用户词典、同义词的配置。 Elasticsearch安装 值得注意的是,Elasticsearch运行需要Java环境。因此安装前需要提前配置好Ja...

Elasticsearch安装中文分词插件IK

Elasticsearch安装中文分词插件IK

        Elasticsearch默认提供的分词器,会把每个汉字分开,而不是我们想要的根据关键词来分词,比如我们更希望 “中国人”,“中国”,“我”这样的分词,因此需要安装中文分词插件IK来实现此功...

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

.net 的一个分词系统(jieba中文分词的.NET版本:jieba.NET)

简介 平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词,于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单,同时分词的结果也令人印象深刻,有兴趣的可以到它的在线演示站点体验下(注意第三行文字)。 .NET平台上常见的分词组件...

python中lcut啥意思

python学习笔记——jieba库入门 python学习笔记——jieba库入门 一、查找官方文档 https://pypi.org/project/jieba/ 二、介绍 jieba(中文意思是“结巴”)中...

jieba分词的基本用法和词性标注

jieba分词的基本用法和词性标注 一、jieba 分词基本概述 二、添加自定义词典 3、关键词提取 四、词性标注 * 五、并行分词 六、T...

ElasticSearch中分词器组件配置详解

ElasticSearch中分词器组件配置详解

首先要明确一点,ElasticSearch是基于Lucene的,它的很多基础性组件,都是由Apache Lucene提供的,而es则提供了更高层次的封装以及分布式方面的增强与扩展。 所以要想熟练的掌握的关于es中分词方面的知识,一定得先从Lucene抓起,否则只会是丈二和尚摸...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。