博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
结巴-关键词提取
阅读量:6003 次
发布时间:2019-06-20

本文共 830 字,大约阅读时间需要 2 分钟。

无监督学习算法: 先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。 根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法 from jieba import analyse ''' sentence:  待提取关键词的文本 topK:      返回关键词的数量,重要性从高到低排序 withWeight:是否同时返回每个关键词的权重 allowPOS:  词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词             默认为('ns', 'n', 'vn', 'v'),即仅提取地名、名词、动名词、动词 ''' # 原始文本 text = "线程是程序执行时的最小单位,它是进程的一个执行流,\         是CPU调度和分派的基本单位,一个进程可以由很多个线程组成,\         线程间共享进程的所有资源,每个线程有自己的堆栈和局部变量。\         线程由CPU独立调度执行,在多CPU环境下就允许多个线程同时运行。\         同样多线程也可以实现并发操作,每个请求分配一个线程来处理。" # 基于TF-IDF算法进行关键词抽取 tfidf = analyse.extract_tags keywords = tfidf(text,topK=20, withWeight=True, allowPOS=())#list # 基于TextRank算法进行关键词抽取 textrank=analyse.textrank keywords=textrank(text)#list # 输出抽取出的关键词 for keyword in keywords:     print(keyword[0],keyword[1])#分别为关键词和相应的权重

转载于:https://www.cnblogs.com/hapyygril/p/9897764.html

你可能感兴趣的文章
入门级----黑盒测试、白盒测试、手工测试、自动化测试、探索性测试、单元测试、性能测试、数据库性能、压力测试、安全性测试、SQL注入、缓冲区溢出、环境测试...
查看>>
composer 安装 ubuntu 12.04
查看>>
微服务(二)hystrix
查看>>
Performing a thread dump in Linux or Windows--reference
查看>>
推荐系统中常用算法 以及优点缺点对比
查看>>
cocos2d-x v3.2环境配置(现在3.x版本号可以配置该)
查看>>
Go语言标准库之JSON编解码
查看>>
winpcap 发送数据包
查看>>
linux上架设l2tp+ipsec ***服务器
查看>>
可能是最简单的面向对象入门教程(二)为什么要有类型
查看>>
js常用的函数库
查看>>
Sqlserver 数据库安全
查看>>
netstat命令简单使用
查看>>
Python标示符命名规则
查看>>
SSL certificate problem unable to get local issuer certificate解决办法
查看>>
node.js中使用http模块创建服务器和客户端
查看>>
11.表达式语言
查看>>
3.数据校验和SpringEL
查看>>
面向对象编程-何为对象
查看>>
android以json形式提交信息到服务器
查看>>