搜索
热搜: 罗马 希腊

6971

主题

3万

帖子

6万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
67301
发表于 2019-7-8 22:03:43 | 显示全部楼层 |阅读模式
文章信息
原作者: 郭一璞
文章来源: 量子位
来源地址: -
发布时间:
漫漫尘埃下,掩藏了许多曾经辉煌灿烂古代文明,但我们现在却无法清晰地知道,这些地方究竟发生了什么。
搞懂这些历史的最佳方式,就是找到他们的文字记载。However,记载文字的石碑可以被考古学家们挖出来,但这些古文字究竟啥意思,现代的人们看不懂,需要语言学家们耗尽青春来推测。
现在,MIT CSAIL和谷歌大脑的研究者出手了,他们用机器学习破译了乌加里特文线性文字B
E0444A9E-AB45-4277-89BA-3A03BA1940DC.jpeg
乌加里特王宫
乌加里特文,Ugaritic,是一种楔形文字,属于闪米特语族。从字面上来看,就知道它是一个叫做乌加里特(Ugarit)的文明使用的语言,这个文明位于当今地中海沿岸的叙利亚,在公元前6000年前后就初现踪迹,在公元前1190年前后灭亡。
A6CFF578-A27B-4497-A621-89323B3B2D83.jpeg
乌加里特文
线性文字B,Linear B,由一种人类还没有破译出来的线性文字A演化而来,主要存活于公元前1500年到公元前1200年的克里特岛和希腊南部,是希腊语的一种古代书写形式。
698C4E29-6C3D-4737-90B7-D8672AADEC00.jpeg
线性文字B
研究者们利用同一语族内不同语言之间的联系,用机器学习的方法来破译这两种失传的语言,这是破译古代语言的新方法,也将对罗曼语族的语言学研究有巨大的影响和提升。
这个方法让许多人惊叹:
7C751905-418B-40CC-8998-833D53F539D3.png
简直是现代版的罗塞塔石碑!
PS,罗塞塔石碑是一块用3种语言写了同一个内容的石碑,帮助语言学家们读懂古文字。
E5BB8B90-51FB-4999-8EC9-F3FCF65CD4EC.png
希望能先把动物和植物的语言破译了,可以发现打开新世界的大门。
人类语言总相通
这项研究的核心方法,是借助人类语言的相似性。
比如,知乎用户@拉队短 在介绍欧洲语言相似性的时候,举了这么个栗子:
句子“那是六月末潮湿阴沉的一个夏日。”
英语:It was a humid, grey summer day at the end of June.
丹麦语:Det var en fugtig, grå sommerdag i slutningen af juni.
瑞典语:Det var en fuktig, grå sommardag i slutet av juni.
挪威语:Det var en fuktig, grå sommerdag i slutten av juni.
冰岛语:Tae var rakur, grár sumardagur í lok júní.
看,长得差不多嘛,毕竟同属印欧语系日耳曼语族,单词的分布位置、句子的结构都很相似,如果你能看懂一种语言,就能大致猜测和它“血缘”关系近的另一种语言。
模型训练
为了破解这两种文字,研究者们提出了一个基于字符的seq2seq模型。
A56444D7-3FD0-404D-9314-7E85D78AD485.png
模型主要包含通用字符嵌入、剩余连接、单调排列正则化几个部分。
其中,线性文字B的字母和希腊文需要进行对应。
F3621D6D-694F-469C-AA31-E254A6F68876.png
之后,借助神经解密算法,在具有不同语言特征的多种语言中提供强大的性能。
26D8E0A4-EB73-40FE-93AD-2DE4A7D57A79.png
你懂的语言,和你不懂的语言
在算法模型的基础之下,需要的语料库除了待破解的乌加里特文和线性文字B,还需要一些现在的人类能看懂的语言。
研究团队选择了罗曼语族的数据库,包含意大利语、西班牙语和葡萄牙语三种语言的同源语音转录,需要对它们进行同源检测。
BC6D4DD7-BE34-4996-A2CD-396A7E7EA855.png
因此,数据集就用到上面这些,Symbols指的是语言中的字符,Token则是语言学中类似于单词的存在。
准确率
运行成果还不错,乌加里特文在无噪声条件下优于现有方法3.1%,在有噪声条件下优于现在的贝叶斯方法5.5%。
C21D63A9-E73B-4460-8B6F-0C4E787F887E.png
而线性文字B,在无噪声条件下准确率高达84.7%,在更具挑战性的LinearB名称数据集中达到67.3%的准确度。
112F35FD-970C-4802-9912-F9D77A393E2F.png
在罗曼语族同源识别任务中,西班牙语准确度提升3.4%,葡萄牙语提升1.6%。
55072936-1049-4869-967C-07B8E4FE6188.png
线性文字B的祖先,线性文字A还没有被人类破译,它被誉为考古界圣杯。
未来,在这项研究起作用的情况下,或许可以像借助罗曼语族三种语言的数据库一样,直接用机器借助其他已知的人类语言,实现暴力破解。
想破脑壳的语言学家们,可以把工作重心放到别的事情上了。
作者介绍
BE6A9342-CA99-4380-9186-0E0726C0E0D7.jpeg
这项研究的一作Jiaming Luo,正在MIT CSAIL读博,专注NLP研究,此前他也曾在北大从事情绪分析方面的研究。
15F28C5B-8D1C-4841-BAE9-D1D5FCD59408.png
Luo同学的导师,也是这项研究的第三位作者Regina Barzilay,她是MIT CSAIL的教授,2017曾因NLP方面的研究获得麦克阿瑟奖金,除了NLP之外,她还研究深度学习在化学和肿瘤学方面的应用。
传送门
论文:
Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B
Jiaming Luo, Yuan Cao, Regina Barzilay
https://arxiv.org/abs/1906.06718


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|中国世界古代史研究网(聊城大学) ( 鲁ICP备05001955号-3 )  

GMT+8, 2019-10-17 17:18 , Processed in 0.121253 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表