人工智能，助考古学者识别古文字体

电子工程师 2018-07-12 4714

人工智能

621人已加入

描述

这个 AI 认识中世纪手写拉丁文

“以后青铜铭文也交给 AI 来识别好了！”

AI 识别文字已经不算是什么难事，但是如果字体是手写，而且还是古文呢？

这似乎听起来具有相当的难度！

梵蒂冈秘密档案馆（Vatican Secret Archives）可谓全球最伟大的历史藏品之一，但其珍藏的许多文件从未转录。一个名为 Codice Ratio 项目，利用人工智能与光学字符识别（简称 OCR）软件的组合重现这些被忽视的文本，并将其重新呈现在世人面前。

这座恢宏的建筑坐落在梵蒂冈城墙之内，毗邻使徒图书馆、位于西斯廷大教堂北侧，拥有着可追溯于1200年之前的总长达53英里的书架。除了将Martin Luther逐出教会的《教皇诏书》之外，其中还包括苏格兰玛丽女王被处决之前发给教皇西克斯五世的函件。在规模与范围方面，其中的收藏几乎著称无与伦比。

然而，梵蒂冈秘密档案馆对现代学者却没多大现实意义。因为在这长达53英里的书架当中，只有极少数书页经过扫描以提供在线版本，这当中的一小部分转录为计算机文本以供内容搜索。如果我们打算阅读其它任何内容，则必须申请特殊的访问权限，一路前往罗马，并亲自动手翻开这些古籍。

传统 OCR 技术只适用于经过严格排版的文字，而对于字母之间缺少间隔空间（即脏分割）的手写卷宗形式则无法识别。对此， Codice Ratio 项目利用拼图分割法将单词理解为一种单笔笔划，软件只需要知晓哪些组块代表真实的字母，而哪些只是连笔造成的假象即可。该软件的手写字母判断准确率已经高达96％。如果成功，这项技术还将被用于处理世界各地其它历史档案库当中数不胜数的其它记录文件。

利用拼图分割法让 OCR 识别连体字

由于传统OCR技术是把单词分割成一个个字母来识别的，所以对于这类连体字，OCR无法识别字母。有人想出了一个方案，直接让OCR去识别一个个的单词，但是，如何让OCR掌握成千上万的拉丁文单词呢？大概需要一个排的中世纪拉丁文专家来辨认不同单词的图形。

除了请专家辨认单词外，还有更简单的方法帮助OCR识别手写字母，只要找实习生就可以搞定了。

我们知道，无论中文还是英文，连体字中粗的部分是笔画，细的部分是笔尖移动造成的虚线，并不是笔画的一部分。根据这个原则，In Codice Ratio的专家们发明了新的方法——拼图分割法。拼图分割法改变了传统OCR把单词分成字母的传统方式，而是是把连在一起的单词按照笔画分隔开，在此之后，该软件会进一步进行字母绘制，并最终生成以下一系列拼图碎片：

这些拼图碎片本身作用不大，但该软件能够将其通过多种方式组合起来以生成可能的字母。具体来讲，软件只需要知晓哪些组块代表真实的字母，而哪些只是连笔造成的假象即可。

为了教会软件这项能力，研究人员们选择了不同寻常的导师——高中生。该团队在意大利的24所学校当中招募了一批高中生用于建立项目的记忆库。学生们在登录相关网站后，会看到如下图所示的三分屏幕界面：

之后，就要让识别系统判断对错：识别出的字母，哪些是真正的字母，哪些是虚线的误判。

打开APP阅读更多精彩内容