引言
本文的语言,指的都是自然语言。语言学习时,时常困扰我的问题是怎么把握住语言的主线和框架,这种自然形成的事物,和公理化或者半公理化的知识系统不同,初一接触,往往显得杂乱无章。因此我常在想,能否在语言的探索中抓住一条主线,至少可以肤浅地将一门语言结构化。受到 TCP/IP 协议族的分层描述的启发,本文将描述关于语言分层的一种结构化认识。
表示层 representation layer
表示层是一门语言存在的基础,人类语言不外乎两种载体,一种是通过视觉获取相应信息,被称为文字。另一种是通过听觉获取相应的信息,这也被称为语言。不过考虑到我们的分层处理,这种听觉载体被称为发音。因此一种语言想要可以在人类之间传达,至少两种基本表示中要存在一种,要么具有所谓的发音协议,要么具有所谓的书写协议。当然表示层除了这两个最重要的协议,还可以有其他实现,比如手语,盲文等。只不过对于普通的语言学习和使用需求,大部分人只需要掌握这层最基础的两个协议发音和拼写就行了。总之所谓表示层,就是一门语言所有可能的存在形式,每一种存在形式对应了一个具体的协议。
一般来讲,自然形成的语言,都是首先具有发音协议的。随着时间的演化才出现了书写协议,也就是文字。当然现在也有很多“死语言”,其发音协议已经或多或少的缺失了,只保留了较完整的书写协议。总之,一门语言如果还存在,那就至少要有一个完整的表示层协议,否则语言没有任何表达载体,是没办法抽象的讨论其存在的。
此外,即使某一门语言同时具有多个完整的表示层协议,其往往也以某一协议为中心地位。这一关系,就像基于这门语言发展出的手语协议,是建立在其他更基本的表示层协议之上的一样。比如,对于拼音语言,书写协议就是完全建立在发音协议的基础之上的。当然现在很多拼音文字,比如英语,文字协议对发音协议的依赖正在减弱,虽然这种依赖依旧很强。另一方面,对于中文,书写协议和发音协议的独立性就相对大一些。
还需要指出,即使对于书写协议本身,一门语言也可以有多种协议。一般来讲,自然语言除了那些没人会说的“死语言”,在表示层处于核心地位的总是发音协议,而非书写协议。这是因为比起写字,儿童总是更早的学会说话。所以从某种程度上说,书写协议对于一门语言的本质来讲,是不重要的(irrelevant)。到现在世界上还存在着非常多的语言,在不同国家和地区采用不同的字母系统和转写方案,也就是我们语境中的书写协议,但这不影响他们依旧是同一门语言(虽然很多国家可能不喜欢这种观点)。这里边有些语言,转写为天城文或阿拉伯字母,有些转写为西里尔字母和拉丁字母,还有写分了什么简体和繁体。但这些都不重要,理论上只要表示层有一个完整的协议,总可以人为的构造一一映射到其他协议。当然,很少有人尝试过把发音系统一一映射迁移成另一个协议,这更证明了发音协议在表示层中的基础地位。从汉字书写协议迁移到拼音书写协议,虽然你读起来很纠结,但还是可以看懂几乎所有的内容。但如果把汉语的发音体系来一个乾坤大挪移,母语者听懂句子的难度自然远超文字的变化。
从语言学习的角度,表示层的这两大协议几乎是所有语言教科书的开篇。所谓书写协议,就是对应了英文的拉丁字母,俄文的西里尔字母,阿拉伯语的阿拉伯字母,韩语的韩语字母,日语的平假名片假名和汉字等等。这其中难度差别也是非常大的。对于英文,一个掌握过汉语拼音的人,已经天生掌握了英文的书写协议。而对于俄语,还需要额外学习三十多个字母。对于阿拉伯语,除了面对许多字母以外,还要记住每个字母在单词不同位置时的书写形式的不同。而对于诸如泰语,藏语之类的语言,还需要记住许多复杂的字母变化规则。而对于汉语,额,你需要记住数千个“字母”。发音协议,主要指的是该语言中可以发出的基本音素。由于母语者对音的区分拓扑的固化,难度更甚于书写协议。想要完全用耳朵分清,用嘴发对其他语言中的最小对立,需要付出更多的时间和训练。
组织层 organization layer
只有字母和音素无法形成语言,将这些最小单位组织起来的任务,由语言的组织层承担。语言组织层中最基本的协议就是单词协议,这协议基本就是个数据库,用来注明字母如何组合可以对应有实际意义的表达元素。比如 h o t 组合在一起有热的意思,或者葡和萄组合在一起是 grape 的意思。此外为了单词形成有意义的句子,还需要语法协议。语法协议描述了一门语言中单词如何组成句子的总的原则。包括单词在句子中出现的顺序,根据不同情形单词需要做出的变化等。
但我想强调的是组织层中还有一个经常被忽视的部分,就是惯用型协议,这只是我随便起的名字。这一协议处在单词和语法的交接地带,是胶水一样的存在。这不仅包括诸如,成语,习语,谚语等部分,还有其他更重要的组成成分。首先是不同句型和词汇的出现频度。一个人即使外语说的再流利,也有母语者觉得有点怪的可能性。这很可能是因为其使用的句型词汇的频率分布和母语者偏差较大。即使意义正确的单词结合完全正确的语法构成的句子,也有可能给母语者带来违和感。这就是惯用型协议中,对于不同句型和词汇出现频率的控制。比如韩语的 것 같아,如果只是简单学习这个句型,你是无法意识到,这玩意出现的频率有多高。这远远不是单词协议告诉你这是好像的意思,语法协议告诉你怎么在前边加上冠形词形式来正确组合句子这么简单。最终的秘密,隐藏在惯用型协议中,对于该形式频率的约定里。
其次是固定搭配,这里的固定搭配不一定非常复杂,甚至是简单的动宾搭配都不可小觑。不同语言之间,动词的对应可能是最弱的。即使正确学习了打和车两个单词,也不会知道打车应该叫打车。为什么是闭眼不是关眼,打球不是玩球,这些搭配的秘密,都隐藏在惯用型协议里。
最后,惯用型协议里还包括了对语法构成无法解释的破坏特例。一般的语法特例,都归结为语法协议的不规则里边。但很多语言还是会存在一些习惯表达,是无法被纳入该语言的语法框架的,这种就只能归结在惯用型协议之中。这种破坏通常是由于外来语流入或者是古语遗留等原因。
惯用型协议,恰恰是语言学习中组织层最容易被忽视的部分。语言学习的大部分的时间,都花在了背单词和记语法上。相比两者的系统性,惯用型协议是由更多的描述条目和语感所组成的,往往特例连着特例,外语学习者想要握,无疑更加困难。
应用层 application layer
应用层主要是听说读写四个基本协议。其中的听说取决于语言具有发音的表示层协议,而读写取决于语言具有文字的表示层协议。如果语言在表示层只具有其中之一,那么应用层也只能得其二。听说读写这些协议直接具有功能性,是一门语言存在的意义。
应用层,也需要额外的练习才可习得。一个人能准确发出所有单词的发音并知道意思,同时熟悉所有语法。如果他从没听过真实的基于该语言的内容,他还是不可能听懂。同时单词读音都对,也无法说出该语言自然的语调和固有的抑扬顿挫。这些都是无法总结和抽象出来的规律。因此学习语言只能是有环境,不断的进行听说读写的练习,只在某种程度上可以说是无奈之举。这样做不是为了学的更快,而是唯一能学会的途径。不是说从不接触该语言,得花更长的时间才能学会,而是不接触就永远学不会。你把该语言的所有单词背的滚瓜烂熟,所有语法都比母语者精通。但如果就是这么按照协议一个一个记下来的,那还是听说读写一个都实现不了。而这部分跨越的难度,是最难以定量的。
表示层的难度,最容易定量,字母的多少,字母形态变化的多少决定了文字协议的难度,音素的多少和发音的部位决定了发音协议的难度。其次是组织层的难度定量。单词的平均长度和高频单词的数目决定了单词协议的难度。当然更细致的来说,可以看单词词频分布曲线,来更精确的定位一门语言的单词协议难度。有些语言词汇分布很长尾,虽然可能5000词就有90%的覆盖,但10000词可能覆盖也不到95%。这种长尾语言,在进阶阶段,单词协议的难度就会更大些。语法协议的难度,也可以通过不同语法使用情境区分的差异度,单词变形的情形和数量,各种不规则的数目来进行刻画。而惯用型难度的刻画就大一些,但总是有些语言比另一些语言更倾向使用更多的固定表达和奇葩搭配,从而可以稍加衡量。然而应用层协议本身的难度,却比较难以抽象,因为分层之后的问题就很抽象。所谓应用层的难度,可以这样定义,假设一个人掌握了组织层的所有协议内容,但对该语言的接触,仅限于阅读用于解释惯用型协议和语法协议的该语言的短小例句 。那么这么一个人,开始进行听说读写成功的内容的比例,或者说从现在开始接触该语言,可以掌握听说读写的时间,这一差值就代表了应用层各个协议的难度。当然这一定义里,由于组织层学习的需要,其接触过句子,可能阅读协议是最早可以掌握的。但像听力协议这种,会读所有单词加上会所有语法也是听不懂太多的。因此当人们讨论学习一门语言的难度时,似乎忽略了应用层的难度,而集中在表示层和组织层的探讨。但在我看来,不同语言应用层的难度,也是有区别的。
由此可见,应用层协议的具体内容是完全无法总结出来的,其只是一些抽象的层和协议,没有教科书教完单词和语法,再去具体地教应该怎么能听懂,但实际上这之间是有一个很大的能隙的。这一层的协议,只能够用语言环境沉浸来自然习得。道理很简单,你能不说英语而描述出说英语应该有怎么样的调调么,那可不只是单词发音堆一起那么简单,单词堆在一起,你也可以发的像法语或德语。
总之本文在抽象上尝试对自然语言进行了分层和协议区分,希望可以在语言学习中,对于梳理结构把握主线有一定的帮助。虽然大多数时候,这么做应该并没什么用。下面附送对于自然语言解耦的结构化概念图一张。
EOF