一个简单的文章推荐系统

前言

接上，这次实现的是一个简单的文章推荐系统，采用的仍然还是 TF-IDF 算法（~~因为这种最好写~~），对我们这个项目够用了吧应该（doge

本项目已在 Github 上开源：Github 地址

article_dictionary

数据量尽量大，不然有些文章生成向量为空（找不到分词的话会变成零向量）

user

存放用户数据的表

article

代码中是 article_category_data，用了测试时的数据）

存放文章基本信息的表

sql = “select id, weight from article_category_data where id not in {} limit 5000”.format(tuple(user_dictionary[1].split(’,’))) 的 limit 5000 是用来限制文章数量的，可以修改成通过时间进行限制
dictionary 的数据量一定要够大，如果一篇文章的关键字都在 dictionary 中找不到的话则会变成零向量，可以和分类系统中通过构建得到词库的 dictionary 是同一张表
article 中的 weight 最好在爬取文章的时候就算出来

就推荐的结果而言还是比较符合模型的，但仍然存在两个缺点：

其他的个性化推荐算法

一些其他的推荐算法