python中jieba库的功能(Pythonjieba中文分词使用指南)(1)

官方文档

jieba-Github:https://github.com/fxsjy/jieba

安装

pip install jieba

import jieba import paddle

四种模式01 精确模式

试图将句子最精确地切开,适合文本分析

jieba.cut( sentence: Any, cut_all: bool = False, HMM: bool = True, use_paddle: bool = False) -> Generator[Any | str, None, None]

jieba.cut 方法接受四个输入参数: 需要分词的字符串; cut_all 参数用来控制是否采用全模式; HMM 参数用来控制是否使用 HMM 模型;默认开启 use_paddle 参数用来控制是否使用paddle模式下的分词模式, paddle模式采用延迟加载方式, paddle.enable_static(), 并且import相关代码;

02 全模式

把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义设置 cut_all=True

jieba.cut( sentence: Any, cut_all: bool = True, HMM: bool = True, use_paddle: bool = False) -> Generator[Any | str, None, None]

03 搜索引擎模式

在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。在搜索引擎中,要求输入词语的一部分也能检索到整个词语相关的文档,所以该模式适用于搜索引擎分词。

jieba.cut_for_search( sentence: Any, HMM: bool = True) -> Generator[Any | str, None, None]

jieba.cut 以及 jieba.cut_for_search返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode)。或者用 jieba.lcut 以及 jieba.lcut_for_search 直接返回 list

04 Paddle模式

安装 paddlepaddle:pip install paddlepaddle==2.3.2如果安装很慢,使用如下命令:python -m pip install paddlepaddle==2.3.2 -i https://pypi.tuna.tsinghua.edu.cn/simple

import paddle paddle.enable_static() seg_list = jieba.cut(strs, use_paddle=True)

示例代码:

# 全模式 strs = "我来到北京清华大学,乒乓球拍卖完了,中国科学技术大学" seg_list = jieba.cut(strs, cut_all=True) print('全模式分词结果:', '/'.join(seg_list)) # / 拼接列表元素 # 精确模式 seg_list = jieba.cut(strs, cut_all=False) # 使用精确模式进行分词 print('精确模式分词结果:', '/'.join(seg_list)) # cut_all参数不给定时,默认为false,即精确分词 seg_list = jieba.cut(strs) print('默认模式分词结果:', '/'.join(seg_list)) # 搜索引擎模式 seg_list = jieba.cut_for_search(strs) print('搜索引擎模式分词结果:', '/'.join(seg_list)) # use_paddle参数可以设置开启paddle模式 paddle.enable_static() seg_list = jieba.cut(strs, use_paddle=True) # 使用paddle模式进行分词 print('Paddle模式分词结果:', '/'.join(seg_list)) # 以上输出结果如下 # 全模式分词结果: 我/来到/北京/清华/清华大学/华大/大学/,/乒乓/乒乓球/乒乓球拍/球拍/拍卖/卖完/了/,/中国/科学/科学技术/技术/大学 # 精确模式分词结果: 我/来到/北京/清华大学/,/乒乓球/拍卖/完/了/,/中国/科学技术/大学 # 默认模式分词结果: 我/来到/北京/清华大学/,/乒乓球/拍卖/完/了/,/中国/科学技术/大学 # 搜索引擎模式分词结果: 我/来到/北京/清华/华大/大学/清华大学/,/乒乓/乒乓球/拍卖/完/了/,/中国/科学/技术/科学技术/大学 # Paddle模式分词结果: 我/来到/北京/清华大学/,/乒乓球/拍卖/完/了/,/中国/科学技术/大学

词性标注

paddle模式词性和专名类别标签集合如下表,其中词性标签 24 个(小写字母),专名类别标签 4 个(大写字母)。

python中jieba库的功能(Pythonjieba中文分词使用指南)(2)

import jieba.posseg as pseg seg_list = pseg.cut(strs, use_paddle=True) #使用posseg进行分词 for seg, flag in seg_list: print(seg, flag)

结果:

我 r 来到 v 北京 ns 清华大学 nt , x 乒乓球 n 拍卖 v 完 v 了 ul , x 中国 ns 科学技术 n 大学 n

自定义词典01 使用自定义词典

jieba.load_userdict('我的词典.txt') seg_list = jieba.cut(strs, cut_all=False) # 使用精确模式进行分词 print('自定义词典精确模式分词结果:', '/'.join(seg_list))

02 修改词典

print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False))) # 如果/放到/post/中将/出错/。 jieba.suggest_freq(('中', '将'), True) # 494 print('/'.join(jieba.cut('如果放到post中将出错。', HMM=False))) # 如果/放到/post/中/将/出错/。 print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False))) # 「/台/中/」/正确/应该/不会/被/切开 jieba.suggest_freq('台中', True) # 69 print('/'.join(jieba.cut('「台中」正确应该不会被切开', HMM=False))) # 「/台中/」/正确/应该/不会/被/切开

关键词提取

import jieba.analyse

01 基于 TF-IDF 算法的关键词抽取

jieba.analyse.extract_tags( sentence, topK=20, withWeight=False, allowPOS=()) sentence 为待提取的文本 topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 withWeight 为是否一并返回关键词权重值,默认值为 False allowPOS 仅包括指定词性的词,默认值为空,即不筛选

示例代码:

# 基于 TF-IDF 算法的关键词抽取 keywords = jieba.analyse.extract_tags( strs, topK=10, withWeight=True, allowPOS=('n', 'v')) print(keywords) # [('乒乓球', 2.0058953282200003), ('拍卖', 1.5225638183619998), # ('科学技术', 1.437058853128), ('大学', 1.14284264451), # ('来到', 1.077137376822)]

02 基于 TextRank 算法的关键词抽取

jieba.analyse.textrank( sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 直接使用,接口相同,注意默认过滤词性。

示例代码:

# 基于 TextRank 算法的关键词抽取 keywords2 = jieba.analyse.textrank( strs, topK=10, withWeight=True, allowPOS=('n', 'v')) print(keywords2) # [('乒乓球', 1.0), ('科学技术', 0.6709833181054047), # ('大学', 0.6668772164263553), ('来到', 0.5052773641683843), # ('拍卖', 0.5052773641683843)]

,