当前位置: 首页 > 科技探索 > 前沿发明 > 正文

什么语言是世界上最怪异的?

小贴士:点击图片进入下一页

时间:2015-07-14 点击量:

导读:自然语言(NaturalLanguage)是我们人类交流时所用的语言,与人造语言(如编程语言)相对;自然语言处理(NaturalLanguageProcessing,NPL)就是用计算机来处理人类的语言。评估语言的“怪异度”就是一种对自然语言的处理,这个话题本身固然有趣,而本文的价值还在于作者采取了一种非传统的处理方式:不以英语为衡量基准,而使用一个全球性的价值观。

全球各类语言

  我们主要是搞自然语言处理,涉及相关语言繁多。过去6个月,我们研究的语言有(深呼吸):英语、葡萄牙语(巴西葡萄牙语及葡萄牙本地语)、西班牙语、意大利语、法语、俄语、德语、土耳其语、阿拉伯语、日语、希腊语、汉语普通话、波斯语、波兰语、荷兰语、瑞典语、塞尔维亚语、罗马尼亚语、韩语、匈牙利语、保加利亚语、印地语、克罗地亚语、捷克语、乌克兰语、芬兰语、希伯来语、乌尔都语、加泰罗尼亚语、斯洛伐克语、印尼语、马来语、越南语、孟加拉语、泰语,以及一点拉脱维亚语、爱沙尼亚语、立陶宛语、库尔德语、约鲁巴语、阿姆哈拉语、祖鲁语、豪萨语、哈萨克语、信德语、旁遮普语、他加禄语、宿雾语、丹麦语和纳瓦霍语。

  自然语言处理(Natural Language Processing,下称 NLP)就是要找到语言的模式。例如:录入大量非结构化的文本,自动从中抽离结构。NLP 有一个公开的秘密:它极以英语为中心。英语无疑是语言学家研究最多的一门语言,于计算机科学项目而言,也是具有最多可用资源的一门语言(就计算机科学而言,数据总是越多越好)。因此,测试一个 NLP 系统的最佳方式之一,就是换用不是英语的语言来测试。一个系统处理多样化数据的能力越强,那么其应付未预见数据的能力,也就更令人有信心。

  为此,我们也许可以选择去根据英语的特性来定义“怪异度”。但是,这样的定义可是相当令人恼火。所以咱们来试试换一种方法吧。

英语

英语榜上有名否?

  纵观全球,纠出“语言异类”