基于 TextRank 的中文文章概要

前言

最近参加华五的比赛,我们队伍打算做一个聚合类的阅读软件,需要用到中文文章概要,选择使用抽取式的 TextRank 算法

原理

  • 先把所有文章整合为文本数据,并将文本分割成单个句子
  • 将句子中的每个词向量相加取均值,获取句向量
  • 通过计算余弦相似度得到句子间的相似度,得到相似度矩阵
  • 相似度矩阵化为以句子为节点,相似度得分为边的图结构
  • 对句子的得分进行排序,取排名靠前的 n 个句子为概要

基于 Text_Rank 的中文文章概要

参考文章:

项目地址:

本项目已在 Github 上开源:Github 地址

Tips: