字节跳动人工智能训练（北大携字节跳动推出古籍数字化平台）

（北京时间记者熊维熙报道）

近日，由“北京大学—字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。目前，该平台涵盖390部经典古籍，主要来自《四部丛刊》，共计3000多万字，并在当日向公众免费开放。据了解，上述实验室系今年3月北京大学与字节跳动合作成立，将人工智能技术应用于古籍资源的智能化整理。“识典古籍”平台上线，是双方合作的最新进展。

当前，我国的古籍数字化还处于初级阶段，面临技术难度高、资金缺口大、人才紧张等难点。相关资料显示，现存的20多万种古籍中，只有8万种完成影像数字化扫描，近4万种完成文本数字化。据专家统计，从1949年到2019年，国内共修复整理出版古籍近3.8万种，要将现存古籍全部修复整理出来，可能需要300年时间；若利用人工智能技术辅助修复整理，大概二三十年就能完成。

字节跳动人工智能训练（北大携字节跳动推出古籍数字化平台）(1)

“识典古籍”项目负责人现场讲解

据“识典古籍”项目负责人介绍，平台当前主要使用了三种技术，包括文字识别、自动标点和命名实体识别。文字识别技术，是对古籍的影印版文字进行单个切分，再进行文字识别和顺序识别；自动标点技术，是通过序列标注的方式对古籍自动进行标点划分；命名实体识别技术，则是通过序列标注识别文本中的人名、地名、书籍、时间、官职等信息。据悉，目前行业内OCR识别准确率平均为93%至94%，“识典古籍”的准确率为96%至97%。

字节跳动人工智能训练（北大携字节跳动推出古籍数字化平台）(2)

未来，“识典古籍”将向全社会开放古籍阅读检索研究能力，还将实现全自动整理校对，更高效地实现存量古籍全部数字化。同时，平台也鼓励拥有文献的学者自行上传文献，用户甚至可参与再创作和再阐释，助力古籍文化传承和研究。

在活化方面，抖音平台推出“寻找古籍守护人”计划，旨在激励创作者通过音乐、说书、绘画、复原美食等形式，普及古籍知识、演绎古籍内容，让古籍鲜活起来。未来三年，“识典古籍”将陆续完成一万种古籍的智能化整理工作，基本覆盖儒家、道家和佛学的核心典籍目录，届时将全部免费开放。

字节跳动人工智能训练（北大携字节跳动推出古籍数字化平台）

最新推荐

热门推荐