立足瑞士 报道世界

列支罗曼语数字化项目开辟了新天地

恩加丁(Engadine)一户人家墙体上彩绘的军队画面。如今,读者们足不出户,就可以查阅许多古老文献,士兵们的回忆录就是其中之一 AFP

归功于前卫的数字化项目,曾经只有在图书馆书架上才能找到的关于女巫审判的记载、雇佣兵回忆录、私人书信,近来也在计算机里“安家落户”,有些甚至可以追溯到350年前。将来人们甚至可能查询瑞士境外的更多资料。

《列支罗曼语名文选集》(Rätoromanische Chrestomathie)中收录了上述文献,该选集被史学家与语言学家誉为“知识的宝库”。

列支罗曼语(Romansh,又称罗曼什语,拉丁罗曼语)是瑞士的第四门国家语言。大约1560-1910年间用各种列支罗曼语变体著作的一本选文集在20世纪初出版。

这一手稿的复制版长达15卷,于20世纪80年代发行。即使极具使用价值,但是要想查询却并非易事。

现在,归功于特殊开发的软件以及志愿者们的大力支持,任何需要这些资料的人都可以进行查阅,而且十分方便。

这一项目是德国科隆大学(University of Cologne)语言学数据处理系(Department of Linguistic Data Processing)计算机语言学家Jürgen Rolshoven教授以及科隆大学图书馆馆长Wolfgang Schmitz多年心血的结晶。

Rolshoven向瑞士资讯swissinfo.ch解释说,最初自己是位语文学家,由于对罗曼语(Romance)–拉丁语演变而来的少数民族语言–包括列支罗曼语有着特殊的兴趣,因此出于个人原因,他希望将该名文选集进行数字化处理。

“通常,做我们这行的人都不喜欢使用电脑,而和计算机打交道的人也不喜欢少数民族语言。”他笑着说。充满热情的他却为两者完美的结合架起了一座桥梁。

将古老的文稿进行数字化处理并不是个新颖的话题,但是–正如所有尝试通过电脑查阅这些资料的人都知道–网上的版本常常错误百出。通常情况下,文献上网需要两个步骤:第一步,将原始印刷文本进行扫描,以便生成影印件;第二步,将影印件通过光学文字辨识程序(OCR)转换成计算机可读文本。

“名文选集”一词的英文形式源于两个希腊词汇:“有用”和“知道”。

它是一本选文集,旨在教育人们,通常用于语言发展或者文学研究。

由于其说教目的,使其不同于选集。

《列支罗曼语名文选集》大约于20世纪初出版,囊括了350年来列支罗曼语不同变体的文本。

对于数字化项目来说,印刷的文本首先在汉诺威(Hannover)经过扫描,然后通过光学文字辨识程序转换为计算机可读文本。德国科隆大学语言学数据处理系的一个团队开发了一个软件,这使社会力量帮助校正文本成为可能。

在电脑屏幕上,他们可以看到光学文字辨识版本以及扫描后的图像。当校对人员轻击光学文字辨识版本上的单词时,在扫描后的图像版本上,这个单词的周围就会出现一个框架,这样校对人员就可以将两者进行对比,从而作出必要的改动。

他们也可以添加评论,但是目前在线读者还无法查阅这方面的内容。

科隆大学开发的软件由德国研究基金会(German Research Foundation)资助,该基金会提供的资金约为16万欧元(约合19.6万瑞郎);格劳宾登州(canton of Graubünden)协作组织的资金由格劳宾登州、Legat A卡丹诺基金会(Cadonau Foundation)以及格劳宾登州文化研究学院(Graubünden Institute for Cultural Research)所提供。

社会力量的参与

Rolshoven所在的语言学数据处理系更是迈前了一步:他们开发出一种网络系统,通过该系统,光学文字辨识程序版本可以与扫描后的版本进行对照,这一系统可以使合作人员添加校正、注释以及互见参照。

“这一点非常重要,因为选文集约有8000页,这样大的工作量不可能由一个人完成。一方面,进行任务分配十分必要;另一方面,人们应该互相纠错。”他解释说。

“这项工作非常前卫,”Florentin Lutz介绍。生活在伯尔尼的这位讲列支罗曼语的语言学家负责协助在瑞士的联络、信息收集与筹资工作。“第一次,老百姓们参与到这类项目中,提供帮助。”

这些校对人员都是志愿者。如果没有社会力量的参与,这一项目就不可能顺利完成。Rolshoven和Lutz筹到的大部分资金需要用于支付科隆大学软件开发的费用。

世界各地大约有150人–其中大多数讲列支罗曼语–报名参加校对工作。然而并非所有人最终都参与进来,一些人做的贡献非常有限,大部分工作最后由一小组志愿者完成,带头人是Michele Badilatti。他是苏黎世大学的学生,来自恩加丁。他向瑞士资讯swissinfo.ch表示,自己投入的时间简直难以想象。

尽管如此,对他来说,这个项目最终由一个小团队完成,却有很多优点。

“在工作的过程中,我注意到,如果合作者人数有限的话,则更容易进行协调。”他告诉瑞士资讯swissinfo.ch。

人非圣贤,孰能无过?

Badilatti承认,这项工作有时“万分乏味”。“所有的宗教资料-准确地说大多数宗教文献:对我们现代人来说,读起来真是枯燥无比。但是至少从语言学的角度看,这些信息还是具有趣味性。”

“其中也不乏许多引人入胜的情节–我最喜欢的可能要属雇佣兵回忆录了。”

并非只有光学文字辨识版本会出现错误。19-20世纪之交时,最初的汇编人员卡斯帕尔·德克汀斯(Caspar Decurtins)抄写了许多手稿。作为讲列支罗曼语变体-苏斯勒万方言(Sursilvan)的人,对于其他变体,他也不免会出些错误。再加之印刷版本是在德国排版,印刷人员根本就对这门语言一窍不通。

校对人员决定保留大多数这样的错误,而不进行主观的评判。他们只是改正了系统错误,比如说讲德语的印刷人员将‘n’与‘u’-上下倒置的两个字母搞混的情况。

计算机语言学使用计算机设定自然语言。

该学科最初于20世纪50年代始于美国,当时的目的是开发自动翻译工具。

其用途包括机器翻译、信息检索以及智能文本处理。

谁会从中受益?

这一项目倾注了大量心血,但是益处何在?读者又是什么人呢?

研发人员没有具体统计过用户数字。但是,对其种种优点,Lutz却深信不疑。

“用户可以迅速查找并下载许多文本,也可以找到各种问题的答案。比如说,有人想查找关于迷信的信息,或者是一些古老的配方,可能还有人对‘蝴蝶’的不同表达法感兴趣,以便可以在广播节目中使用标新立异的词汇…,我们的搜索功能简单易用,目前我们仍在拓展这一功能。”

Rolshoven对此也赞不绝口,但是他的视角与Lutz不同。

“对我的学生来说,这一项目十分实用,他们正在学习如何编写专门软件。我们也从中了解到,寻求社会力量的帮助,共同合作完成这类工作,的确有其可行性。”

当然,从中汲取的经验并不局限于某种特殊语言或区域。

“比如说,我们可能会考虑与科隆大学的非洲语言研究者们进行合作。用非洲语言编写的书籍只有在巴黎或者伦敦的图书馆才能找到,而在讲这些语言的国家却‘难觅影踪’,基于这点,我们合作的潜力就很大。”

如果能够筹集到资金,他们计划建一家列支罗曼语数字图书馆。有时候,这会涉及到版权问题,但是,少数民族语言文学面临着各大语言文学不存在的一个问题:一旦作品绝版,重新发行也就不再具有价值。

Lutz希望,这一系统可以采用“按需印刷”的原则,这样人们就可以购买到书店里绝版已久的作品了。

至于志愿者,他们如何从中受益呢?这一项目的完成令Badilatti兴奋不已,他终于可以回归正常的生活了。他向瑞士资讯swissinfo表示,自己参与的目的并非着眼于让履历“锦上添花”。当记者提到,至少在某些圈子里,他已经享有了一定的知名度时,对此他一笑置之。

“一些人可能会认同我的做法,但是也有人认为我很疯狂!”

(翻译:薛伟中)

您可以在这里找到读者与我们记者团队正在讨论交流的话题。

请加入我们!如果您想就本文涉及的话题展开新的讨论,或者想向我们反映您发现的事实错误,请发邮件给我们:chinese@swissinfo.ch

瑞士资讯SWI swissinfo.ch隶属于瑞士广播电视集团

瑞士资讯SWI swissinfo.ch隶属于瑞士广播电视集团