乾明 发自 凹非寺 量子位 报道 | 公众号 QbitAI

收录5.5万首唐诗,超过28万首宋词 ,还囊括了诗经、论语 、蒙学等……

这个名为“chinese-poetry”、号称“最全中文诗歌古典文集数据库”的项目,今日登顶GitHub热榜第一。

今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词

截止发稿 ,这一项目已获得近2.5万标星,Fork超过4600,受欢迎度可见一斑。

项目发起者名为Jackey ,在Teambition从事运维自动化工作 。他解释了为什么要做这个仓库:

从某种意义上来说,这些庞大的文集离我们是有一定距离的。而电子版方便拷贝,所以此开源数据库诞生了。此数据库通过 JSON 格式分发 ,可以让你很方便的开始你的项目 。

10大数据集

整个项目最核心的内容,就是数据集了。

目前,仓库中一共有10个数据集 ,分别是:全唐诗、全宋诗 、全宋词、五代·花间集、五代·南唐二主词 、论语、诗经、幽梦影 、四书五经、蒙学。

今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词

这些数据,都来自互联网 。如何采集的?项目发起者也分享了全宋词爬取过程及数据分析。

为什么没有古诗?他也给出了解释,古诗采集没有记录过程 ,因为古诗数据庞大,目标网站有限制,采集过程经常中断超过了一个星期。

围绕着数据库 ,他也进行了一个初步的词频分析:

今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词

但这些数据集的应用,远远不止于此 。

8大案例展示

在项目中 ,作者也放上了使用数据集的应用案例。

有基于浏览器的诗词网站,有安卓版的应用“离线全唐诗 ”,有简体唐诗生成(char-RNN) ,也诗词桌面和相关小程序等等。

今日GitHub热榜第一:最全中华古诗词数据库,收录30多万诗词

而且这些项目,也大都在GitHub上开源了 。

如果你有兴趣 ,可以收好传送门:

https://github.com/chinese-poetry/chinese-poetry

— 完 —

量子位 QbitAI · 头条号签约

关注我们 ,第一时间获知前沿科技动态

本文版权归趣快排SEO www.SeogurUblog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▶61910465