📖 项目简介
中国古典文献全文检索引擎是一个专门用于检索中华传统典籍的现代化搜索平台。我们致力于让古代智慧在数字时代焕发新的光彩,为研究者、学者和传统文化爱好者提供便捷、精准的文献检索服务。
重要提示
2024 年 6 月,原「殆知阁」域名已过期且未续费。2025 年 8 月域名再次过期,「西市独柳」工作室竞拍域名成功,本站得以在原址新建,致力于修改原始数据集中的错误信息,弘扬中华文化。本站服务器位于中国大陆境外,与原「殆知阁」站及「喵」站 Mastodon 实例原站长无关。
本站收录的文本均为简体中文。
🔧 错误修正
原「殆知阁」数据集已被大量研究机构用于 AI 训练。然而,我们发现该数据集中存在相当数量的错误,并且可能已经污染了中文古文语料。为避免以讹传讹,本站致力于系统性解决数据错误的问题:
📝 主要修正内容
- 繁简转换错误:在古文献中发现了相当数量的「记忆体」(实际应为「内存」)、「香港脚」(实际应为「脚气」)、「利瓦伊」(实际应为「李维」)等,这些是某些繁简转换工具造成的错误。
- 非文献内容:原始文本部分来自现已关闭的论坛;在复制过程中,部分文本被贴上了论坛的内容及链接。
- HTML及脚本:某些文本中存在 HTML 及脚本代码,数据清洗不够精确。
🎯 修正进展
- 持续改进:我们正在努力查找和修正数据集中的错误内容。如果您发现任何新的错误或有改进建议,欢迎通过 GitHub Issues 提交反馈,或者直接提交 pull requests,帮助我们提升数据质量。
- 使用 AI 技术:有时修复不能通过简单的全文替换实现。我们会尝试使用 AI 技术查找一些 out of place 的内容,并将其更正。
- 与维基文库比对:我们会与「维基文库」中收录的同样文本及古籍影印本进行比对,确保修改均有依据。
📊 数据统计
我们的数据库持续更新,为用户提供丰富的古典文献资源:
📚 数据来源
本站的文献数据来源自 GitHub 项目中国古典文献 TXT 大全集(修正版)。文献分类由原「殆知阁」站长仿照《四库全书》的分类方法创立。
本站收录的所有文本,均属于公有领域。
📖 分类介绍
- 儒藏:儒家经典著作,四书五经及相关注疏
- 史藏:历史类著作,正史、编年史、纪事本末等
- 子藏:诸子百家及各种学术流派著作
- 集藏:文学作品集,诗词、散文、小说等
- 诗藏:专门的诗歌作品集
- 艺藏:技艺类著作,琴棋书画、工艺技术
- 易藏:《周易》及相关易学著作
- 医藏:中医药学著作
- 佛藏:佛教典籍
- 道藏:道教典籍
💾 下载原始文本
如需获取完整的文本文件,可通过以下方式:
- GitHub repo 克隆:可使用
git clone https://github.com/frankslin/daizhigev20/
命令将整个仓库克隆到本地。
- GitHub pages 打包下载:访问 GitHub repo Actions 页面找到最新的 deployment,下载 artifacts 的压缩包。截至 2025 年 9 月,此压缩文件的总体积是 2.14GB。