官方文档
jieba-Github:https://github.com/fxsjy/jieba
安装pip install jieba
import jieba
import paddle
试图将句子最精确地切开,适合文本分析
jieba.cut(
sentence: Any,
cut_all: bool = False,
HMM: bool = True,
use_paddle: bool = False)
-> Generator[Any | str, None, None]
jieba.cut 方法接受四个输入参数:
需要分词的字符串;
cut_all 参数用来控制是否采用全模式;
HMM 参数用来控制是否使用 HMM 模型;默认开启
use_paddle 参数用来控制是否使用paddle模式下的分词模式,
paddle模式采用延迟加载方式,
paddle.enable_static(),
并且import相关代码;
把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义设置 cut_all=True
jieba.cut(
sentence: Any,
cut_all: bool = True,
HMM: bool = True,
use_paddle: bool = False)
-> Generator[Any | str, None, None]
在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。在搜索引擎中,要求输入词语的一部分也能检索到整个词语相关的文档,所以该模式适用于搜索引擎分词。
jieba.cut_for_search(
sentence: Any,
HMM: bool = True)
-> Generator[Any | str, None, None]
jieba.cut 以及 jieba.cut_for_search返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)。或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
04 Paddle模式安装 paddlepaddle:pip install paddlepaddle==2.3.2如果安装很慢,使用如下命令:python -m pip install paddlepaddle==2.3.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
import paddle
paddle.enable_static()
seg_list = jieba.cut(strs, use_paddle=True)
示例代码:
# 全模式
strs = "我来到北京清华大学,乒乓球拍卖完了,中国科学技术大学"
seg_list = jieba.cut(strs, cut_all=True)
print('全模式分词结果:', '/'.join(seg_list)) # / 拼接列表元素
# 精确模式
seg_list = jieba.cut(strs, cut_all=False) # 使用精确模式进行分词
print('精确模式分词结果:', '/'.join(seg_list))
# cut_all参数不给定时,默认为false,即精确分词
seg_list = jieba.cut(strs)
print('默认模式分词结果:', '/'.join(seg_list))
# 搜索引擎模式
seg_list = jieba.cut_for_search(strs)
print('搜索引擎模式分词结果:', '/'.join(seg_list))
# use_paddle参数可以设置开启paddle模式
paddle.enable_static()
seg_list = jieba.cut(strs, use_paddle=True) # 使用paddle模式进行分词
print('Paddle模式分词结果:', '/'.join(seg_list))
# 以上输出结果如下
# 全模式分词结果: 我/来到/北京/清华/清华大学/华大/大学/,/乒乓/乒乓球/乒乓球拍/球拍/拍卖/卖完/了/,/中国/科学/科学技术/技术/大学
# 精确模式分词结果: 我/来到/北京/清华大学/,/乒乓球/拍卖/完/了/,/中国/科学技术/大学
# 默认模式分词结果: 我/来到/北京/清华大学/,/乒乓球/拍卖/完/了/,/中国/科学技术/大学
# 搜索引擎模式分词结果: 我/来到/北京/清华/华大/大学/清华大学/,/乒乓/乒乓球/拍卖/完/了/,/中国/科学/技术/科学技术/大学
# Paddle模式分词结果: 我/来到/北京/清华大学/,/乒乓球/拍卖/完/了/,/中国/科学技术/大学
paddle模式词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。
import jieba.posseg as pseg
seg_list = pseg.cut(strs, use_paddle=True) #使用posseg进行分词
for seg, flag in seg_list:
print(seg, flag)
结果:
我 r
来到 v
北京 ns
清华大学 nt
, x
乒乓球 n
拍卖 v
完 v
了 ul
, x
中国 ns
科学技术 n
大学 n
jieba.load_userdict('我的词典.txt')
seg_list = jieba.cut(strs, cut_all=False) # 使用精确模式进行分词
print('自定义词典精确模式分词结果:', '/'.join(seg_list))
- 使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。
- 使用 suggest_freq(segment, tune=True) 可调节单个词语的词频,使其能(或不能)被分出来。
- 注意:自动计算的词频在使用 HMM 新词发现功能时可能无效。
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
# 如果/放到/post/中将/出错/。
jieba.suggest_freq(('中', '将'), True)
# 494
print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False)))
# 如果/放到/post/中/将/出错/。
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
# 「/台/中/」/正确/应该/不会/被/切开
jieba.suggest_freq('台中', True)
# 69
print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False)))
# 「/台中/」/正确/应该/不会/被/切开
import jieba.analyse
01 基于 TF-IDF 算法的关键词抽取
jieba.analyse.extract_tags(
sentence,
topK=20,
withWeight=False,
allowPOS=())
sentence 为待提取的文本
topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20
withWeight 为是否一并返回关键词权重值,默认值为 False
allowPOS 仅包括指定词性的词,默认值为空,即不筛选
示例代码:
# 基于 TF-IDF 算法的关键词抽取
keywords = jieba.analyse.extract_tags(
strs, topK=10, withWeight=True,
allowPOS=('n', 'v'))
print(keywords)
# [('乒乓球', 2.0058953282200003), ('拍卖', 1.5225638183619998),
# ('科学技术', 1.437058853128), ('大学', 1.14284264451),
# ('来到', 1.077137376822)]
jieba.analyse.textrank(
sentence,
topK=20,
withWeight=False,
allowPOS=('ns', 'n', 'vn', 'v'))
直接使用,接口相同,注意默认过滤词性。
示例代码:
# 基于 TextRank 算法的关键词抽取
keywords2 = jieba.analyse.textrank(
strs, topK=10, withWeight=True,
allowPOS=('n', 'v'))
print(keywords2)
# [('乒乓球', 1.0), ('科学技术', 0.6709833181054047),
# ('大学', 0.6668772164263553), ('来到', 0.5052773641683843),
# ('拍卖', 0.5052773641683843)]