当前位置:首页 > 分词

jieba 分词 生成词云

2023年03月27日 21:07:46服务端
jieba 分词 生成词云
今天我们要做的事情是使用动态爬虫来爬取QQ空间的说说,并把这些内容存在txt中,然后读取出来生成云图,这样可以清晰的看出朋友的状况。 这是好友的QQ空间10年说说内容,基本有一个大致的印象了。 爬取动态内容 因为动态页面的内容是动态加载出来的,所以我们需要不断下滑,加载页面 切换到当前内容的fram...

jieba分词-红楼梦

2023年03月27日 13:36:43服务端
jieba分词-红楼梦
import jieba excludes = {"什么","一个","我们","那里","你们","如今","说道","知道","起来","姑娘","这里","出来","他们","众人","自己", "一面","只见","怎么","两个","没有","不是","不知","这个","听见","这样"...

中文分词库jieba的三种模式介绍

2023年03月26日 20:34:50服务端
中文分词库jieba的三种模式介绍
jieba分词的三种模式 精准模式 jieba.cut(test_text, cut_all=False): 试图将句子最精确地分开,适合文本分析 全模式 jieba.cut(test_text, cut_all=True): 把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义 搜...

Jieba分词词性标注以及词性说明

2023年03月24日 08:17:46服务端
1 import jieba 2 3 import jieba.analyse 4 5 import jieba.posseg 6 7 8 9 def dosegment_all(sentence): 10 11 ''' 12 13 带词性标注,对句子...

python jieba分词及中文词频统计

2023年03月23日 22:15:22服务端
python jieba分词及中文词频统计
这篇博客用来记录一下自己学习用python做词频统计的过程,接上篇的英文词频统计 上篇:python词频统计并按词频排序 参考资料:jieba参考文档 目录 一、jieba库简介 二、一些准备工作 三、中文词频统计 四、jieba自定义分词、词性分析 一、jieba库简介 jieba是Python中...

中文分词jieba的简单使用

2023年03月22日 17:43:45服务端
中文分词jieba的简单使用
import jieba jieba.lcut("你好世界") 输出:...

结巴分词有前空格

2023年03月22日 10:20:52服务端
1.对于关键词存在空格或者特殊符号的情况下,jieba无法分出该词 2.在github上找到了一个解决方案,修改jieba源码 __init__.py 免费分享,造损免责。 打开默认词典(根目录)或自定义词典,把所有用来间隔词频和词性的空格间隔符改成@@ (选用@@是因为一般关键词里遇到这个分隔符的...

Jieba分词控制分词粒度

2023年03月20日 20:24:48服务端
Jieba分词控制分词粒度
目录 前言 一、jiaba分词 二、jieba分词粒度的控制 方法一:动态控制 方法二:自定义词典 前言 Jieba分词的时候会出现我们需要的词被切分开来,如“机器学习”会被切分为“机器”和“学习”,“人工智能”可能被切分为“人工”和“智能”,“深度学习”会被切分为“深度”和“学习”,这样在我们构建...

jieba分词

2023年03月18日 22:24:56服务端
jieba分词 导入的包 import jieba import jieba.posseg import jieba.analyse 两种分词模式 jieba.cut() jieba.cut_for_search() 自定义词典 jieba.load_userdict('user.txt') 调整词...

中文分词实战——基于jieba动态加载字典和调整词频的电子病历分词

2023年03月18日 15:58:27服务端
中文分词实战——基于jieba动态加载字典和调整词频的电子病历分词
分词是自然语言处理中最基本的一个任务,这篇小文章不介绍相关的理论,而是介绍一个电子病历分词的小实践。 开源的分词工具中,我用过的有jieba、hnlp和stanfordnlp,感觉jieba无论安装和使用都比较便捷,拓展性也比较好。是不是直接调用开源的分词工具,就可以得到比较好的分词效果呢?答案当然...