预测过去？DeepMind用AI复原古希腊铭文，登Nature封面

用深度神经网络（DNN）修复受损的古希腊铭文，DeepMind 探索 AI 与古文字学的融合。

人类文字的诞生标志着历史的曙光，对于我们了解过去的文明和今天生活的世界至关重要。例如，2500 多年前，古希腊人开始在石头、陶器和金属上书写，记录下了包括租约、法律、日历、神谕在内的所有内容，从而令后人详细了解地中海地区。遗憾的是，这种记录是不完整的。

几个世纪以来，许多遗留下来的铭文已被损坏或从原来的位置移走。同时，放射性碳测年法等现代测年技术不能用于这些材料，导致解释铭文变得困难且耗时。

DeepMind 一直探索如何利用 AI 修复古老的语言。2019 年 10 月，DeepMind 联合牛津大学共同打造了 AI 工具 Pythia，它可以通过训练神经网络来修复古希腊铭文中缺失的字符或单词。

近日，在最新一期 Nature 封面文章中，DeepMind 联合威尼斯大学人类学系、牛津大学经典学院的研究者，探索利用机器学习来帮助历史学家更好地解释这些铭文，从而让人们更深入地了解古代历史，并释放 AI 和历史学家之间合作的潜力。

他们提出了首个可以恢复受损铭文缺失文本、识别原始位置并帮助确定创建日期的深度神经网络 —— Ithaca，它是以荷马史诗《奥德赛》中的希腊伊萨卡岛命名，在之前的 Pythia 工具上构建并进行了扩展。

论文地址：

https://www.nature.com/articles/s41586-022-04448-z

GitHub 地址：

https://github.com/deepmind/ithaca

研究结果表明，当单独使用时，Ithaca 在恢复受损铭文文本方面的准确率达到了 62%。相比之下，参与的历史学家的准确率为 25%，不过他们使用 Ithaca 可以将这一数字提升到 72%。

同时，Ithaca 在识别铭文原始位置方面的准确率达到了 71%，鉴定它们的年代只与真实日期范围相差不到 30 年。历史学家已经使用 Ithaca 重新评估了希腊历史上的重要时期。

此外，为了让广大研究人员、教育工作者、博物馆职员及其他人使用他们的研究成果，DeepMind 与谷歌云、谷歌艺术与文化合作推出了 Ithaca 的免费交互版本。并且，DeepMind 还开源代码、预训练模型和交互 Colab 笔记本。

Ithaca 交互版本： https://ithaca.deepmind.com/

下图 1 中修复的铭文（IG I3 4B）记录了一项关于雅典卫城（Acropolis of Athens）的法令，日期为公元前 485/4 年。

下图 2 为 Ithaca 的架构。文本受损部分用符号「-」表示，并人为损坏了字符。提供输入后，Ithaca 恢复了文本，并识别出文本编写的时间和地点。

研究者相信，这只是 Ithaca 这类工具应用的开始。他们目前正在研究针对其他古语言训练的 Ithaca 版本，历史学家也已经可以在当前架构中使用他们的数据集来研究其他古书写系统，比如阿卡德语、古埃及世俗体、希伯来语和玛雅语言。

Ithaca

该研究使用机器学习进行铭文识别，他们提出了 Ithaca，这是一种经过训练的深度神经网络架构，可以同时执行文本恢复、地理归因和时间归因任务。

Ithaca 是在最大的希腊铭文数字数据集上训练完成，该数据集由帕卡德人文学院 (PHI）提供，这是一个非营利基金会，成立于 1987 年，该机构旨在为基础研究创建工具人文学。通常来讲，自然语言处理模型使用单词进行训练，它们在句子中出现的顺序以及单词之间的关系可以提供额外的上下文和含义。然而 Ithaca 的铭文损坏严重，丢失了大部分文本块。为了确保模型有效，该研究使用单词和单个字符作为输入。模型核心为稀疏自注意力机制，用来并行计算这两个输入（单词和单个字符）。

图 3：Ithaca 的输出

为了最大限度地发挥 Ithaca 作为研究工具的价值，该研究还创建了许多视觉辅助工具，以确保 Ithaca 的研究结果易于被历史学家解读：

恢复假设：Ithaca 为文本修复任务生成几个预测假设，供历史学家利用自身专业知识进行选择；

地理归属：Ithaca 通过为历史学家提供所有可能预测的概率分布来显示其不确定性，而不仅仅是单个输出。因此，Ithaca 返回代表其确定性水平的 84 个不同古代区域的概率。可以在地图上将这些结果可视化，以阐明古代世界可能存在的潜在地理联系；

时间归属：当需要确定一篇文献的年代时，Ithaca 会产生从公元前 800 年到公元 800 年预测日期分布，这可以使历史学家了解模型对特定日期范围的可信度，提供有价值的历史见解；

显着图：为了将结果传达给历史学家，Ithaca 使用计算机视觉中常用的一种技术来识别哪些输入序列对预测的贡献最大，输出以不同颜色强度突出 Ithaca 预测缺失文本、地点和日期的单词。

数据集与模型

为了训练 Ithaca，该研究开发了一个 pipeline 来检索未处理的 PHI 数据集，该数据集由 178,551 个铭文转录文本组成。每个 PHI 铭文都被分配了一个唯一的数字 ID，并标有与写作地点和时间相关的元数据。PHI 共列出了 84 个古代区域，而年代信息以多种格式记录，从历史时代到精确的年份间隔，用多种语言编写。PHI 数据集在经过处理和过滤后，该研究得到新数据集 I.PHI，据了解这是最大的机器可操作铭文多任务数据集，包含 78,608 个铭文。

由于部分铭文文字丢失，该研究将字符和单词作为输入，用特殊符号 [unk] 表示损坏、丢失或未知的单词。接下来，为了实现大规模处理，Ithaca 的主干是基于 transformer 的神经网络架构，它使用注意力机制来衡量输入的不同部分（如字符、单词）对模型决策的影响过程。通过将输入字符和单词表示与它们的顺序位置信息连接起来，注意力机制得到输入文本的每个部分的位置。

Ithaca 的主干由堆叠的 transformer 块组成：每个块输出一系列处理后的表示，其长度等于输入字符的数量，每个块的输出成为下一个块的输入。主干的最终输出被传递给三个不同的任务头，分别处理恢复、地理归属和时间归属。每个头都由一个浅层前馈神经网络组成，专门针对每个任务进行训练。在图 2 所示的例子中，恢复头预测了三个丢失的字符；地理归属头将铭文分为 84 个区域，并且按时间顺序的归属头将其追溯到公元前 800 年至公元 800 年之间。

该短语的前三个字符被隐藏，Ithaca 提出了修复建议，同时，Ithaca 还预测了铭文的地区和日期

评估

如下表所示，对于恢复任务，Ithaca 始终优于竞争方法，获得 26.3% 的 CER 和 61.8% 的 top 1 准确率。具体来说，与人类专家相比，Ithaca 实现了 2.2 倍（即更好）的 CER，而与 Pythia 相比，Ithaca 的 top 20 预测实现了 1.5 倍的性能提升，准确率为 78.3%。

值得注意的是，将历史学家与 Ithaca 组合时，借助 Ithaca 辅助的人类专家的 CER 为 18.3%，top 1 准确率为 71.7%，与原始人类专家 CER 和 top 1 相比，提高了 3.2 倍和 2.8 倍。

关于区域归属，Ithaca 的 top 1 预测准确率为 70.8%，top 3 的预测准确率为 82.1%。最后，对于时间归属，从真实日期间隔到人类基线预测的平均时间是 144.4 年，中位数是 94.5 年，但 Ithaca 中位距离仅为 30 年。

推荐内容

预测过去？DeepMind用AI复原古希腊铭文，登Nature封面

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源

黑客大神用什么杀毒？Windows自带的就够，只是加了亿点微小的强化

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

虎扑网友又闯祸，只因一句口嗨？女主播：裙子我自己撩的！

马云预言将要实现？未来20年，50%工作逐渐消失，你是否在其中呢

互联网新生态战争的第一战：从改名打响

数字时代 把水稻种到“云端”

马斯克“响应”梁建章

最年轻图灵奖得主：计算机是数学好的女性的完美学科

这部豆瓣8.3分的美剧，讲出了元宇宙一些不怎么靠谱的地方 | 葡萄视点

微博强制显示所在地，真的能抓“五十万”吗？

资讯战场，卷向聚合

喜报 | 广东粤省事智能科技有限公司荣获“2021年度金融科技领域最具影响力奖”

会员喜报 | 上海域乎信息技术有限公司荣获2021数字经济科技创新应用颁奖盛典两项大奖！

EDP加入VertiGIS，打开北欧市场

电信5G视频彩铃体验，能否带我们重回“彩铃时代”？

营收强劲、机构密集调研，中科创达定增31亿加码物联网赛道

太阳系邂逅数字藏品，括苍天文尝试打造天文圈数字新业态

特朗普自己设计了个社交媒体APP！网友：还以为是推特···

酷开科技联合工信安全中心 推动OTT行业可持续健康发展

社交软件上，我们都有脱单需求

两会聚焦数字经济，数据智能如何成为发展驱动力？

微软推出 Azure Arc 混合云与多云管理解决方案

ADAMoracle预言机与区块链相辅相成突出数据安全等问题

赶超谷歌！世界最大时间晶体刷新破纪录，量子计算机再创奇迹

平台化，“强链补链”的一个支点

历史上的今天:马云创建阿里巴巴

微博推出服饰店主专项扶持计划，助力腰尾部博主GMV增长

“东数西算”真的太“拼”了！

成功并购消化铁通的中移动，未来会收购广电吗？

路由器每天该不该关？值得一看！

回忆杀！运营商“互掐”六大招式，最后一张图笑死我了！

【市场情报】“东数西算”工程解读

蚂蚁集团开源最大规模视频侵权 AI 数据集 相关论文再被国际顶会收录

David Wajsgras将出任Intelsat首席执行官

安华金和当选首批CITIVD信创政务产品安全漏洞专业库“技术支撑单位”

弹窗广告的“毒瘤”能彻底根治吗？

租100万台电脑仍亏损，易点云赴港IPO，包装成“办公云”？

Marteker 日报：(2022.3.10)

新华三中标！中国广电5G核心网IT云资源池项目

1亿美元软银投资，智齿科技龙中武：组织能力是我们的核心竞争力

云弹性是什么？它为何如此重要？

VR公司“自杀式”营销背后，国内消费VR大幕将启 | VR陀螺

曾振波谈技术趋势

APENFT & TRON GameFi 黑客松大赛成功落幕

基于联邦学习的联合反欺诈金融应用场景

瑞萨电子推出SIL3认证解决方案，扩大其在功能安全领域的优势地位

买地链游印度大火，GameFi又崛起了

摩托罗拉系统收购云视频安全服务提供商Ava Security，持续推进云基础视频安全

年轻女孩怎么都去开杂货铺了？

预测过去？DeepMind用AI复原古希腊铭文，登Nature封面

元宇宙+教育③丨基于元宇宙的智能在线学习环境构建

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源

马云预言将要实现？未来20年，50%工作逐渐消失，你是否在其中呢

虎扑网友又闯祸，只因一句口嗨？女主播：裙子我自己撩的！

跃赛生物完成近2亿元Pre-A轮融资，昆仑资本持续加码

黑客大神用什么杀毒？Windows自带的就够，只是加了亿点微小的强化

这部豆瓣8.3分的美剧，讲出了元宇宙一些不怎么靠谱的地方 | 葡萄视点

大厂疯狂拉新，带火月入10万的地推生意

融资丨「翼菲自动化」获数亿元D轮融资，向世界级机器人品牌加速迈进

我在“主播工厂”9个月，倒赔公司50万

马斯克“响应”梁建章

互联网新生态战争的第一战：从改名打响

最年轻图灵奖得主：计算机是数学好的女性的完美学科

数字时代 把水稻种到“云端”

咖啡市场如此火爆，种咖啡是一门好生意吗？

精品咖啡在县城中的风味人间

韩系汽车，在泥潭中等待“救世主”

调薪、跨境、补金融，字节电商再出击

49块包邮、579块平替戴森，国货小家电围猎洋品牌

微博强制显示所在地，真的能抓“五十万”吗？

你的智能音箱为什么这么傻？

冷静的星巴克

佣金下调，能拯救餐饮老板、打车司机吗？

年入3亿的王一博不如薇娅一年赚得多，“造星”教母生意不好做

没资源，不专业，小白能靠测评做好短视频吗？

优秀员工跳槽怎么办？

从1到100，连锁企业必过的“坎”是啥？

数字时代把水稻种到“云端”

酷开科技联合工信安全中心推动OTT行业可持续健康发展

蚂蚁集团开源最大规模视频侵权 AI 数据集相关论文再被国际顶会收录

数字时代把水稻种到“云端”

一年营收近13亿，“王一博概念股”启动港股上市；3500万粉丝网红“浪胃仙”遭前老板声讨；游族因虚假宣传被罚44万元丨文娱周报

酷开科技联合工信安全中心推动OTT行业可持续健康发展

蚂蚁集团开源最大规模视频侵权 AI 数据集相关论文再被国际顶会收录