更新时间:2022年11月08日10时11分 来源:传智教育 浏览次数:
NLTK全称为Natural Language Toolkit,它是一套基于Python的自然语言处理工具包,可以方便地完成自然语言处理的任务,包括分词、词性标注、命名实体识别(NER)及句法分析等。
NLTK是一个免费的、开源的、社区驱动的项目,它为超过50个语料库和词汇资源(如WordNet)提供了易于使用的接口,以及一套用于分类、标记化、词干化、解析和语义推理的文本处理库。接下来,通过一张表来列举NLTK中用于语言处理任务的一些常用模块,具体如表8-1所示。
表8-1 NLTK中的常用模块
GitHub上有一段描述Jieba的句子:
“jieba”(Chinese for “to stutter”)Chinese text segmentation:built to be the best Python Chinese word segmentation module.
翻译:“Jieba”中文分词:最好的Python中文分词组件。
由此可见,jieba最适合做中文分词,这离不开它拥有的一些特点:
(1)支持三种分词模式:
◆精确模式:视图将句子最精确地切开,适合文本分析。
◆全模式:把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
◆搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
(2)支持繁体分词。
(3)支持自定义词典。
(4)MIT授权协议。
jieba库中主要的功能包括分词、添加自定义词典、关键词提取、词性标注、并行分词等,大家可以参考https://github.com/fxsjy/jieba网址进行全面学习。后期在使用到jieba库的某些功能时,会再另行单独介绍。