繁体字是一种递归语言符号的递归性吗

索绪尔曾经提出语言语言符号的遞归性有任意性、线条性两个重要特性自然语言处理的发展,使我们对于语言语言符号的递归性的这些特性的认识和理解更为丰富、更為深刻了这是自然语言处理对传统的理论语言学提出的挑战。本文针对信息时代语言学的新发展分析了索绪尔“线条性”的不足,并提出了语言语言符号的递归性应当具有层次性、非单元性、离散性、递归性、随机性、冗余性、模糊性等七个十分重要的特性这七个特性再加上索绪尔提出的语言语言符号的递归性的任意性,构成了我们对语言语言符号的递归性的特性的新认识即语言语言符号的递归性具有任意性、层次性、非单元性、离散性、递归性、随机性、冗余性、模糊性等共八个特性。我们应当修正索绪尔对于语言语言符号的递歸性特性研究的旧理论而代之以反映当前人类对自然语言语言符号的递归性认识水平的新理论。

    自然语言处理(Natural Language Processing简称NLP)的研究已经有50多年嘚历史了,这门新兴的语言学科不仅在应用方面取得了巨大的成绩而且还在理论方面强烈地冲击着索绪尔(De Saussure)以来的普通语言学基本理論,并以大量的新的事实和研究成果严峻地考验着这些基本理论。这是自然语言处理对传统的理论语言学提出的挑战可以预见,自然語言处理的进一步发展必定会使我们对自然语言的本质获得新的认识,从而推动理论语言学的进一步发展(冯志伟2007)。

我们这里只是談一谈关于语言语言符号的递归性的特性的问题自然语言处理的发展,使我们了解到语言语言符号的递归性的许多重要特性这些语言語言符号的递归性新特性的发现,从新的侧面进一步丰富了我们对语言语言符号的递归性本质的认识

我在1992年发表的《计算语言学对理论語言学的挑战》一文中曾经提到,在信息时代自然语言的语言符号的递归性表现出一些我们过去未曾特别注意到的特点,这些特点加深叻我们对于语言语言符号的递归性本质的认识一些读者对于这个问题颇有兴趣,希望我进一步说明这确实是一个值得进一步探讨的问題,本文也就是为了这个目的而写成的希望能够产生抛砖引玉的效果。

    索绪尔在他的《普通语言学教程》(索绪尔,1980)一书中曾提出语訁语言符号的递归性具有如下两个重要的特性:

    (1)语言符号的递归性的任意性:语言语言符号的递归性的能指和所指联系是任意的。索緒尔认为语言符号的递归性任意性的原则“支配着整个语言学,它的后果是不胜枚举的人们经过许多周折才发现它们,同时也发现了這个原则是头等重要的”

    (2)能指的线条性:索绪尔指出,语言的能指属于听觉的性质只在时间上展开,而且具有借自时间的特征:(1)它体现为一个长度;(2)这长度只能在一个向度上测定它是一条直线。索绪尔认为:“这是一个似乎为常人所忽视的基本原则它嘚后果是数之不尽的,它的重要性与语言符号的递归性任意性的规律不相上下语言的整个机构都取决于它。”

    索绪尔提出的语言语言符號的递归性的这两个特性当然是十分重要的。然而索绪尔以后现代语言学的发展,特别是电子计算机出现以后自然语言处理的发展嚴峻地考验着索绪尔的理论。

    在我们看来索绪尔提出的语言语言符号的递归性的任意性这一特征是无可非议的,但是他提出的语言语訁符号的递归性的第二个特征 —— 能指的线条性就未必是正确的了。因为新的研究结果表明语言的能指并不只是线条性的东西。英国著洺语言学家弗斯(J. K. Firth)提出“跨音段论”(prosodic)(Firth, 1948)他认为,在一种语言里区别性语音特征不能都归纳在一个音段位置上,例如语调就不是處于一个音段位置上,而是处于前后相续的线条性的音段之外笼罩着或管领着整个句子的东西。如果我们把语调这样的跨音段成分算进詓语言的能指就不宜看作是线条性的东西,而应该看作是立体性的东西了

索绪尔是一个天才的语言学家,他是名副其实的现代语言学嘚奠基人他的语言学说,是语言学史上哥白尼式的革命对于现代语言学的发展有着深远的影响。现代语言学的每一个领域每一个流派,都直接或间接地受到了索绪尔语言学说的影响他所说的语言语言符号的递归性的上述两个特性,是在当时的语言学和自然科学发展嘚水平下提出来的在索绪尔的时代,还没有电子计算机自然语言处理这样的新兴学科还远远没有形成,语言学主要是与语言教学、文學、历史、考古学等学科有联系在这种情况下,索绪尔当然不可能提出那些只有在电子计算机时代才能揭示出来的语言语言符号的递归性的新特点

    随着电子计算机的出现和发展,特别是在自然语言处理出现之后普通语言学的理论也应该相应地发展。我们不能墨守成规满足于旧有的结论,而应该站在前辈学者的双肩上高瞻远瞩,吸取自然语言处理的新成果从新的角度,用新的眼光以新的方法来研究语言这个极为复杂的语言符号的递归性系统(Turing, 1950)。正是基于这样的认识我们觉得,语言语言符号的递归性除了索绪尔所指出的那两個不尽完善的特点之外还有着如下七个十分引人注目的特点。

二、语言语言符号的递归性的另外七个引人注目的特点

    前面说过索绪尔關于语言语言符号的递归性线条性的观点,早就受到了语言研究新成果的严挑战弗斯的“跨音段论”已证明,语言语言符号的递归性並不是线条性的东西而是立体性的东西。

    弗斯的“跨音段论”只限于音位学方面其实,在语言的其它方面语言语言符号的递归性也鈈仅仅是线条性的,而是立体性的东西所谓立体性,就是说语言语言符号的递归性具有分层结构,即层次性

    语言语言符号的递归性嘚层次性在句子结构方面表现得特别明显。

home”(年老的男人和女人留在家里)这句话是有歧义的如果我们把这一句话说给一些人听,很鈳能有的听话人会认为它的意思是“年老的男人和所有的女人(不论年龄大小)留在家里”另一些听话人会认为它的意思是“所有年老嘚男人和所有年老的女人留在家里”,还有的听话人干脆不能做出决定处于模棱两可的状态。

    事实上“old men and women”这个名词短语根据意义的不哃有两种不同的层次结构。如果注意到层次的不同那么,这种意义上两可的情况就可以得到解释

这时,这个名词短语的意义是:“年咾的男人和所有的女人”

这时,这个名词短语的意义是:“所有年老的男人和所有年老的女人”

    索绪尔主张语言语言符号的递归性具囿线条性,他只看到了第 1 条和第 2 条而没有看到第 3 条,这是他的局限性今天,我们看到了第 3 条发现了语言语言符号的递归性的层次性,应该说是一个很大的进步

    在自然语言处理中,常采用树形图来表示语言语言符号的递归性的层次关系自然语言处理的理论认为,任哬一个句子的线性序列的表层之下都隐藏着一个层次分明的树形图。当一个句子的线性序列之下隐藏着两个或两个以上的树形图时这個句子就会产生歧义,就会得到不同的解释

    树形图由结点和连接结点的枝组成。树形图的各个结点之间有两种关系值得注意:一种是支配关系,它反映了上下结点之间的先辈和后裔的关系一种是前于关系,它反映了左右结点之间前位和后位的关系语言语言符号的递歸性的线条性只是反映了前于关系,而没有反映支配关系当然就有很大的局限。

树形图与自然语言处理中广为应用的短语结构语法有着奣显的对应关系乔姆斯基的短语结构语法,既能描述自然语言也能描述程序设计语言,这种语法已经成为形式语言理论的重要研究内嫆在形式语言理论中建立的短语结构语法与树形图之间的对应和联系,正是基于对语言语言符号的递归性层次性的认识的基础之上的短语结构语法和树形图被广泛地使用于自然语言处理中,几乎每一个自然语言处理研究者天天都要与短语结构语法和树形图打交道天天嘟要研究语言语言符号的递归性的层次关系。自然语言处理的发展进一步加深了我们对于语言语言符号的递归性的层次性的认识,语言語言符号的递归性的层次性确实是一个比索绪尔提出的语言语言符号的递归性的线条性更为深刻的特性。

2.语言语言符号的递归性的非单え性

基于对语言语言符号的递归性的层次性认识基础之上的短语结构语法在机器翻译和自然语言理解的研究中很快就暴露出了它的不少缺陷。这种语法分析能力不高分析时难于处理歧义等自然语言中普遍存在的问题,常常捉襟见肘进退维谷;这种语法生成能力过强,往往会生成许多歧义的句子或不合语法的句子使人误入迷津,扑朔迷离后来,自然语言处理研究者发现引起这些缺陷的症结在于,短语结构语法是采用单标记来描述语言语言符号的递归性的它把语言语言符号的递归性看成是不可分割的原子式的单元;如果把语言语訁符号的递归性看成是可以分割的非单元性的东西,采用多标记函数或者复杂特征来描述便可以从根本上克服短语结构语法的上述缺陷,大大地改善短语结构语法的功能提高它过弱的分析能力,限制它过强的生成能力这样,便提出了语言语言符号的递归性的非单元性問题

    其实,索绪尔早就认识到了语言语言符号的递归性的这种非单元性他在《普通语言学教程》中指出:“语言可以说是一种只有复雜项的代数”。他举出德语中名词数的变化来说明这个论点德语中名词 Nacht(夜,单数): N?chte(夜复数)这个语法事实可以用 a/b 这个语言符号嘚递归性来代表,但是其中的 a、b 都不是简单项而是复杂项,它们分别从属于一定的系统之下Nacht 有名词、阴性、单数、主格等特征,它的主要元音为 aN?chte 有名词、阴性、复数、主格等特征,它的主要元音为 ?,结尾加了 ech 的读音从 /x/ 变为 /?/。 这样就可以形成许多对立,所以叫做复杂项每一个语言符号的递归性独立地看,可以认为是简单项但是从整体来看,则都是复杂项索绪尔指出:“语言的实际情况使我们无论从哪一方面去进行研究,都找不到简单的东西;随时随地都是这种相互制约的各项要素的复杂平衡” 索绪尔在这里所说的“複杂项”,指的正是语言语言符号的递归性的非单元性

    早在 1936 年,美国语言学家雅可布逊(R. Jakobson)在比利时的根特城举行的第三届国际语音学會议上提出了能否以对分法为基础来分解元音、辅音等音位的问题。1951 年,他在与范特(M. Fant)、哈勒(M. Halle)等语音学家合写的论文《语音分析初探》中提出了对分法理论以及区别特征学说。他们认为一切的音(无论元音或是辅音)都是可分的,可以根据它们的生理的或声学的特性用对分法分成一对一对的“最小对立体”(minimum pairs)。例如元音的舌位有“高-低”的对立,辅音的发音方法有“清-浊”的对立他们把這些最小对立体归结为12对区别特征( distinctive ),并且指出世界上各种语言都可以用这12对区别特征加以描述。这样过去一直被认为是不可分的單元性的元音、辅音就变成由若干区别特征组合而成的、非单元性的结构体了。这种区别特征理论已成为现代语音学进行音位分析的基础任何一个音位都可以用区别特征的集合来加以描述。如某一个音位具有二项对立中的前项特征记以正号“+”,具有二项对立中的后项特征记以负号“-”,就可以做成一个矩阵表作为对每一个音位的区别特征集合的描述。这种音位理论已经在语音自动识别和合成的研究中得到应用,证明是行之有效的这是语言语言符号的递归性非单元性的有力证明。

    雅可布逊曾提到他之所以提出音位对分理论,昰受到了现代物理学的影响所致他在《语音实体的辨识》一文中写道:“语音学分析及其得出的、不能再行分解的音位特征的概念,同現代物理学的研究成果有惊人的相似之处物理学也正表明,物质具有粒子状结构因为它们是由基本粒子构成的。”(Jakobson, 1949)

物理学中关于粅质具有粒子结构的观点音位学中关于音位由12对基本的区别特征组合而成的观点,自然语言处理中关于语言语言符号的递归性由多个标記组合而成的观点它们之间是何等的相似!客观世界中存在着的这种相似现象,说明了这些现象之间是有内在联系的认识事物之间的這种相似性,可以增进我们进行科学研究的才干提高研究工作的自觉性和目的性。英国物理学家法拉第(M. Faraday)受到他的老师戴维(H. Davy)把化學能转化为电能又把电能转化为化学能的可逆过程的启发,立志要把已经发现的由电生磁现象转化为由磁生电经过9年努力,终于完成叻由磁生电的实验建立了电磁感应学说的完整理论。(Nersessian, 1984)正是这种对于事物之间相似性的信念使我们更加坚信,非单元性确实是语言语言苻号的递归性的又一个重要特性

    自然语言处理的理论和实践,加深了我们对语言语言符号的递归性的非单元性的认识为了改进乔姆斯基的短语结构语法,在自然语言处理的许多理论中都自觉地采用“复杂特征”的概念,使用“特征/值”系统来描述句子的结构

自然语訁处理还提出了非单元性的这种“复杂特征”进行运算的数学方法——“合一”(unification)运算,从而使我们有关语言语言符号的递归性非单元性的認识可以在计算机上进行实际的操作和演算这种合一运算,并不完全服从于传统的集合论的运算集合运算一般并不考虑运算对象的相嫆性,而合一运算则必须考虑运算对象的相容性合一运算具有两种作用:

    (1)合并原有的特征信息,构造新的特征结构这与集合论中嘚“求并”运算类似。

    (2) 检查特征的相容性和规则执行的前提条件如果参与合一的特征相冲突,就立即宣布合一失败

可见,合一运算提供了一种在合并各方面来的特征信息的同时检验限制条件的机制。这正是非单元性的语言语言符号的递归性在计算机上运算时所需偠的所以,自然语言处理不仅在理论上证明了语言语言符号的递归性确实具有非单元性而且还在实践上使这种非单元性获得了在计算機上进行运算的可能性。

  我们平时说话时的语流似乎是连续不断的但在实际上,这些连续不断的语流却是由许多离散的单元所组成的茬水平方向上,语流可以被分解为若干段落一个段落又可以被分解为若干句子,一个句子又可以被分解为若干短语一个短语又可被分解为若干单词,一个单词又可被分解为若干语素一个语素又可被分解为若干音节,一个音节又是由若干个元音和辅音音位组合而成的茬竖直方向上,语流中的各个成分又可引起联想引出与之属于同一聚类的若干个离散单元来。所以在连续语流的水平方向和竖直方向仩,语言语言符号的递归性实际上都是与若干个不同的离散单元联系着的

    语言语言符号的递归性的这种离散性,在语流的停延时表现得特别明显人们往往可以利用语流停延的这种离散性质,来区别语流的不同含义

汉语的书面语在词与词之间是连写的,不像印欧语的书媔语那样留有空白因此,在汉语书面语中词与词之间的离散特点体现不出来。这种情况给汉语的自动句法语义分析造成了极大的困難。在中文信息处理中汉语自动句法语义分析的第一步便是自动切词,根据词与词之间的离散特征把相互连在一起的词切开。可以说语言语言符号的递归性的离散性,是汉语自动切词在语言学上的理论根据

   美国语言学家朱斯(M. Joos)早就指出了语言语言符号的递归性的這种离散性。他说:“数学研究工具一般具有两种类型:连续分析(例如无限小量的计算)或离散分析(例如,有限群理论)而可以稱为语言学的那个部门则属于后者,这时它不容许与连续性有半点儿妥协,因此凡是与连续性有关的一切,都得排除于语言学之外”(Joos, 1957)  “语言学的范畴是绝对的,是不容许任何妥协的”(Joos, 1957)他还说,“ 现在语言学家把任何语言,也就是任何一个言语行为看成是由叫做喑位的不大数量的基本单位组成的,这些音位在重复出现时被认为是等同的从物理学的角度来看,hotel 这个词对于不同的人或同一人发音鈈可能完全相同地发两次,但从语言学的角度看这里却有一个平均数 (t),它始终是同样的可以不管它们的细微差别,而把它们看作一个鈈可分解的语言学原子或范畴这种原子或范畴,或者是完全等同的或者是完全不同的。”(Joos, 1957)这里朱斯十分明确地把语言看成是“不可汾解的语言学原子或范畴”离散地结合起来的,据此他提出用离散数学来研究语言。他说:“物理学家利用连续数学来解释言语如傅利叶分解、自相关函数等,而语言学家则与此相反他们利用离散数学来研究语言。”(Joos, 1957)

朱斯关于语言语言符号的递归性离散性的论述似乎囿点儿矫枉过正语言语言符号的递归性当然具有离散性的一面,但是语言语言符号的递归性也有连续性的一面,特别是在语言的使用Φ在语言的交际过程中,我们也可以利用一些连续数学的方法来研究它而且实际上在这方面我们已经取得了不小的成绩。朱斯要把“凣是与连续性有关的一切”“都得排除于语言学之外”,确实是太过分了事实上,“离散性”和“连续性”都是语言语言符号的递归性本身所具有的性质不过,在语言使用的交际过程中我们强调语言语言符号的递归性的连续性,用连续数学的方法来研究它;在语言結构的分析中我们强调语言语言符号的递归性的离散性,用离散数学的方法来研究它而语言本身则是离散性和连续性的统一体。

    根据語言语言符号的递归性的离散性自然语言处理中采用集合论的方法建立了自然语言的集合论模型,并把这样的模型应用于机器翻译中獲得了很好的效果。这意味着语言语言符号的递归性的离散性这一特性,在自然语言计算机处理的实践中已经得到了证实

      语言的句子昰无穷无尽的,而语法规则却是有限的人们之所以能够借助于有限的语法规则,造出无穷无尽的句子来其原因就在于语言语言符号的遞归性具有递归性。

语言语言符号的递归性的这种递归性在不同的语言里表现不尽相同。汉语的句法构造的递归性突出地表现为句法成汾所特有的套叠现象在汉语里,由实词和实词性词语组合而成的任何一种类型的句法结构其组成成分本身,又可以由该类型的句法成汾充任而无须任何的形态标志。这种套叠现象在主谓结构、偏正结构、述宾结构、述补结构、联合结构、复谓结构中都是存在的这是甴语言语言符号的递归性的递归性导致的汉语语法的一个重要特点。

例如在句子“他嗓子疼”,中“嗓子/疼”是主谓结构,这个主谓結构套叠在“他嗓子疼”中做谓语与“他”又构成一个更大的主谓结构“他/嗓子疼”,这是主谓结构的套叠现象又如,在短语“北大數学老师”中“数学/老师”是偏正结构,这个偏正结构套叠在“北大数学教师”中与它前面的名词“北大”又构成一个更大的偏正结構“北大/数学老师”,这是偏正结构的套叠现象这些套叠现象都反映出汉语语法的递归性特点。

    在自然语言处理的研究中语言语言符號的递归性的递归性起着很大的作用。机器翻译的实质就是把源语言中无限数目的句子,通过有限的规则自动地转换为目标语言中无限数目的句子。如果机器翻译的规则系统不充分利用语言语言符号的递归性的递归性要实现这样的转换是非常困难的,甚至是不可能的

    乔姆斯基在《乔姆斯基理论介绍》(中文版)( 乔姆斯基,1982)一书的序言中指出,早在 19 世纪初德国杰出的语言学家和人文学者洪堡德( W. V. Humboldt )就观察箌“语言是有限手段的无限运用”,但是由于当时尚未找到能揭示这种理解所含的本质内容的技术工具和方法,洪堡德的论断还是不成熟的那么,究竟应该如何来理解“语言是有限手段的无限”运用呢  乔姆斯基指出:“一个人的语言知识是以某种方式体现在人脑这个囿限的机体之中的,因此语言知识就是一个由某种规则和原则构成的有限系统但是一个会说话的人却能讲出并理解他从来未听到过的句孓及和我们所听到的不十分相似的句子。而且这种能力是无限的。如果不受时间和注意力的限制那么由一个人所获得的知识系统规定叻特定形式、结构和意义的句子的数目也将会是无限的。不难看到这种能力在正常的人类生活中得到自由的运用我们在日常生活中所使鼡和理解的句子范围是极大的,无论就其实际情况而言还是为了理论上描写的需要我们有理由认为人们使用和理解的句子的范围都是无限的。”

    那么怎样来刻画语言这个无限集的成分组成情况呢?

    我们可以把语言中所有的元素列成一个表进行简单枚举。例如

    这样的刻画办法,把后面一大部分东西省略掉了后面未列出的部分,只好由我们根据给出的少量的元素去想象这样的刻画办法显然是不好的。它不能体现“有限手段的无限运用”这一原则

    我们应该采用递归的方法来刻画语言,为此提出如下的公理系统的定义

    一个公理系统昰一个有序三元组 (A, S, P),其中A 是语言符号的递归性的有限集,叫做字母表;S 是 A 上的语言符号的递归性串的集合叫做公理;P 是在由 A 中的语言苻号的递归性组成的语言符号的递归性串上的 n 位关系的集合, n≥2 (即 P 中的 n 元组至少必须是有序对)P 的元叫做生成式或推理规则。根据这樣的公理系统我们便可以从公理 S 出发,多次使用推理规则 P, 在语言符号的递归性集 A 上递归地生成语言中的句子实现“有限手段的无限运鼡”。因而这个关于公理系统的定义是体现了递归的原则的

    如果我们把公理系统中的 A 想象成前面所述的短语结构语法中的非终极语言符號的递归性 VN 和终极语言符号的递归性 VT 的集合,把 S 想象成短语结构语法中的初始语言符号的递归性 S, 把 P 想象成短语结构语法中的重写规则 P那麼,我们马上就可以发现短语结构语法与公理系统是十分相似的。所以我们可以说短语结构语法是采用体现了递归原理的公理化方法來描述自然语言的语法。

    现在自然语言处理的理论业已严格证明,乔姆斯基的形式语法实际上等价于数学上的一种公理系统 —— 半图厄系统(semi-Thue system)这种形式语法不过是数学中的公理系统理论在自然语言分析中的应用而已,语言的生成过程完全可以通过公理系统这一形式化嘚手段得到严格的描述(冯志伟1985)。正因为如此乔姆斯基的形式语言理论,才会既在自然语言的信息处理中又在计算机程序语言的设计Φ,得到如此广泛的应用(Chomsky,

   所以我们认为,语言语言符号的递归性的递归性是反映了语言语言符号的递归性本质的又一个特点。自然语訁处理深化了我们对语言语言符号的递归性的递归性的认识普通语言学的理论对此应该给以足够的重视。

    索绪尔在《普通语言学教程》Φ把语言现象分为言语活动(langage)、言语(parole)和语言(langue)三样东西,它们之间是彼此联系而又相互区别的

他指出,“言语活动是多方面嘚、性质复杂的同时跨着物理、生理和心理几个领域,它还属于个人的领域和社会的领域我们没法把它归入任何一个人文事实的范畴,因为不知道怎样去理出它的统一体”因此,“言语活动的研究就包含两部分:一部分是主要的它以实质上是社会的、不依赖于个人嘚语言为研究对象,这种研究纯粹是心理的;另一部分是次要的它以言语活动的个人部分,即言语其中包括发音,为研究对象它是惢理·物理的。”

    “把语言和言语分开,我们一下子就把(1)什么是社会的什么是个人的;(2)什么是主要的,什么是从属的和多少是耦然的分开来了”

    他指出,“语言是一种表达观念的语言符号的递归性系统因此,可以比之于文字、聋哑人的字母、象征仪式、礼节形式、军用信号等等等等。它只是这些系统中最重要的”而言语则“是人们说话的总合”,它包括言语行为的过程(也就是过程)和訁语行为的结果(也就是口头的或书面的言语作品)

    索绪尔把语言比作乐章,把言语比作演奏把语言和言语的关系比喻为乐章和演奏嘚关系。他说“在这一方面,我们可以把语言比之于交响乐它的现实性是跟演奏方法无关的;演奏交响乐的乐师可能会犯的错误绝不會损害这种现实性。” 这是一个非常贴切的比喻

    在索绪尔关于语言和言语区分的理论的影响下,乔姆斯基提出必须把说具体语言的人對这种语言的内在知识和他具体使用语言的行为区别开来,并把前者叫做语言能力(competence)后者叫做语言运用(performance)。我们认为乔姆斯基的語言能力,大体上相当于索绪尔的语言乔姆斯基的语言运用,大体上相当于索绪尔的言语

在言语(或语言运用)中,当我们用语言来進行交际活动的时侯有的语言成分使用得多一些,有的语言成分使用得少一些各个语言成分的使用并不是完全确定的,这种不确定性就是语言语言符号的递归性的随机性。我们在学习语言时常常感到语言规则中总是有许多的例外这些例外,就是由于语言语言符号的遞归性的随机性造成的所以,语言语言符号的递归性的随机性也应该是语言的本质属性之一。

正因为语言语言符号的递归性具有随机性所以我们很难用确定性的规则来描述它。语言使用中大量的例外现象使研究语法的语法学家们伤透脑筋有的语法学家甚至因此而误叺迷津,以偏概全得出了错误的结论。为了避免以偏概全的错误我国前辈语言学家曾提出“例不过十不立,反例不过十不破”的原则來制定语法规则这个原则常常作为判断语言学家治学态度是否严谨的准绳。其实对于言语活动这样的随机现象来说,找出十个例子来竝某条语法规则并不难而找出十个反例来破某条语法规则也很容易,以十个例子或十个反例来作为某条语法规则破或立的标准看来未必恰当。最好的办法还是采用统计数学的方法来对交际活动中所出现的各种语言现象进行描述如果我们从语言学理论的高度,把随机性看成是语言语言符号的递归性本身的一种自然特性并采用恰当的数学工具来描述这种随机性,使用计算机来进行一般手工操作所难于胜任的大量的统计计算和分析那么,我们对于语法规则中的各种各样的例外情况也就不会再感到迷惑不解和束手无策了,因为这些例外嘚情况正是由于语言语言符号的递归性本身的随机性这一个特点而形成的(冯志伟,2006)

    从自然语言处理的角度看来在语言成分的出现这一個随机事件中,随机事件 A 与条件组 S 之间虽然没有完全确定的联系但是,它们之间却有着统计上的联系尽管当条件组 S 实现一次时,事件 A 鈳能发生也可能不发生。但是如果条件组 S 实现多次,事件 A 的发生就有着某种规律性这种规律性就是统计规律性。自然语言处理认为那些无一例外的必然的规律性,只不过是这种统计规律性的补充和表现形式罢了

近年来,不少的语言学家开始认识到语言语言符号的遞归性的这种随机性自觉地使用统计方法来描述自然语言现象,这是令人欣喜的在计算语言学中,根据语言语言符号的递归性的随机性已经在计算机上作了很多统计工作,成果累累我国学者进行的汉字字频统计、汉字部件统计、汉字笔画统计、书面语词频统计、汉芓熵值计算、汉字冗余度计算、汉语语音统计、汉语方言亲疏关系的分析和统计,为汉语的自然语言处理研究提供了可靠的统计结果推進了我国自然语言处理研究的发展。这些事实说明一旦我们在理论上自觉地认识到语言语言符号的递归性的随机性,就会产生出巨大的粅质力量语言学的理论对于语言研究的实践确实有着重要的指导意义。

    语料库语言学的研究可以帮助我们从大量的经过标注的语言素材中,发现语言的统计规律并把这些规律提炼为自然语言处理的规则。这种研究生动地体现了索绪尔所指出的语言和言语的相互关系夶量的语言素材相当于索绪尔定义的言语,语言学规则相当于索绪尔定义的语言通过对言语的统计研究,就可以发现语言的规律这是語言语言符号的递归性随机性的又一佐证。

语言成分在交际活动中的出现是一个随机事件语言成分之间彼此有着相互的影响和制约,也僦是说前后的语言语言符号的递归性具有相关性,我们根据前面出现的语言符号的递归性常常可以预测后面的语言符号的递归性出现嘚可能性。当说话不清楚或文字有错落时我们往往可以根据前后文来理解话语或文章的含义。就是当某个汉字或拉丁字母不清楚时我們根据它们的残存部分常常就可以推断文字的全形。在有噪声或干扰时我们仍然有能力根据已经听清楚的部分来识别那些不清晰的语音。这些事实说明并不是语言中的一切成分对于传达语言语言符号的递归性整体所包含的信息都是绝对不可缺少的,就是缺少了某些部分语言本身有能力把这些缺少的部分补充和恢复出来。这意味着语言语言符号的递归性具有冗余性。这种冗余性是必要的和有益的它保证了不理想的环境下(如书面文章中有遗漏,谈话是有嘈杂声书写的字母不清楚,发音不清晰)仍能发挥其交际功能。因此我们鈈能认为冗余度就真的是语言中“冗余”的或不必要的东西。恰恰相反这种冗余度是语言传递信息时必不可少的。没有冗余度的语言在實际上是无法理解的因为日常语言总有很大的灵活性,要想理解句子的意思就必须考虑到字母在单词中的位置和单词在句子中的上下文關系我国著名语言学家李荣教授建议把“冗余度”改为“羡余度”,这是很有道理的事实上,只要语言有结构性就会有冗余度语言語言符号的递归性的冗余度就是语言的结构性在语言使用过程中的体现。这样看来语言语言符号的递归性的冗余性也应该是语言语言符號的递归性的一个重要特性,它与语言语言符号的递归性的随机性一样无时无刻不在语言的使用中表现出来。

    自然语言处理已经根据各種言语统计的结果计算出世界上许多种语言的冗余度。现在世界上各种语言的冗余度中计算得比较精确的是英语。柏登(N. Burton)和里克里德(J. Licklider)两人通过大量的计算求出英语书面语的冗余度在 67% 到 80% 之间。汉字是一个大字符集要直接计算汉语书面语的冗余度,其工作量是非瑺大的所以至今为止,我们还不能直接来计算汉语书面语的冗余度只有通过间接的方法来估算。我国计算语言学研究者现已估算出汉語书面语的冗余度在 56% 与 74% 之间其平均值约为 65%. 可以看出,汉语书面语的冗余度其上下限都略低于英语书面语的冗余度。(冯志伟1985)

汉语嘚冗余度比英语低一些,说明汉语比英语“简练”一些而“难懂”一些。所谓“简练”一些就是对同一篇文章,中文将比英文短一些;而所谓“难懂”一些就是指从平均的角度看,文章中对于同样长的字母序列在语义方面给人们的预示能力差一些,或者说它的语義更难捉摸一些,语义的不肯定性程度更大一些自然语言处理的这些研究成果,与我们对于汉语和英语的实际体会是一致的这说明,洎然语言处理对于语言语言符号的递归性的冗余性的认识是正确的

索绪尔完全没有认识到语言语言符号的递归性具有模糊性。他在《普通语言学教程》中写道:“从心理方面看思想离开了词的表达,只是一团没有定形的、模糊不清的浑然之物哲学家和语言学家常一致承认,没有语言符号的递归性的帮助我们就没法清楚地、坚实地区分两个观念。思想本身好像一团星云其中没有必然划定的界限。预先确定的观念是没有的在语言出现之前,一切都是模糊不清的”他又说,“语言对思想所起的独特作用不是为表达观念而创造一种物質的声音手段而是作为思想和声音的媒介,使它们的结合必然导致各单位之间彼此划清界限” 显而易见,索绪尔认为正是由于语言嘚作用,才使模糊的思想和声音的各个单位之间清晰起来在索绪尔看来,语言本身是谈不上模糊性的

关于语言的模糊性问题,在自然語言的计算机处理出现之前就有不少学者进行过探索和研究。英国著名哲学家罗素(B. Russell)于 1923 年写过一篇《论模糊性》的论文(罗素1990)。怹指出:“整个语言都或多或少是模糊的”并且举例论证了这个问题:“ 由于颜色构成一个连续统,因此颜色有深有浅对于这些深浅不哃的颜色,我们就拿不准是否把它称为红色这不是因为我们不知道“红色”这个词的意义,而是因为这个词的使用范围在本质上是不确萣的这自然也是对人变成秃子这个古老之谜的回答。假定一开始他不是秃子他的头发一根根地脱落,最后才变成秃子于是有人争辩說,一定有一根头发由于这根头发的脱落,便使他变成秃子这种说法自然是荒唐的。秃头是一个模糊概念;有一些人肯定是秃子有┅些人肯定不是秃子,而处于这两者之间的一些人说他们必定要么是秃子,要么不是这是不对的。排中律用于精确语言符号的递归性時是正确的;但是当语言符号的递归性模糊的时侯排中律就不适用了。事实上所有的语言符号的递归性都是模糊的。所有描述感觉特性的词都具有‘红色’这个词所具有的同样的模糊性。”罗素这篇论文对传统逻辑学中的排中律提出挑战从哲学和逻辑学上为模糊理論奠定了基础。

1933 年美国语言学家布龙菲尔德(L. Bloomfield)在《语言论》一书中(布龙菲尔德,1980)也指出了自然语言中存在着模糊现象。

他说“我们可以根据化学或矿物学来给矿物的名称下定义,正如我们说'盐'这个词的一般的意义是‘氯化钠’(NaCl)我们也可以用植物学或者动物学嘚术语来给植物或者动物的名称下定义,可是我们没有一种准确的方法来给象‘爱’或者‘恨’这样一些词下定义这样一些词涉及到好些还没有准确地加以分类的环境——而这些难以确定意义的词在词汇里占了绝大多数。”他进一步指出:“此外即使我们有一些科学的(也就是普遍被承认的而又不准确的)分类,我们也还往往发现语言里的意义跟这种分类并不一致”

    这些研究都指出了自然语言里存在嘚模糊现象。直到 1965 年著名数学家查德(L. A. Zadeh)发表了《模糊集》的著名论文后,模糊性的概念才第一次找到了完善的表示方法(查德, 1981)查德的研究是首先从观察语言语言符号的递归性的模糊性开始的。例如“老年”这个概念就具有模糊性。七十岁算不算“老年”如果算,那麼60岁算不算“老年”?50岁算不算“老年”这是很难精确地回答的。查德把“老年”看成是建立在“年龄”这个论域上的集合而把70岁、60岁、50岁都看成这个集合中的元素,这样就可以研究这些元素相对于“老年”这个集合的隶属关系。这种隶属关系很难用经典集合论Φ的“属于”或“不属于”某个集合的办法来描述,而可以用在多大程度上属于某个集合的办法来描述也就是说,一个模糊集合 S 的特征存在着一个隶属函数 μ ,对于论域中的每一个元素 x 都有一个确定的值 μ (x),这个值刻画着元素 x 隶属于模糊集合 S 的程度查德把普通集拓廣为模糊集,为模糊数学奠定了基础这一开创性的工作不仅拓广了普通数学的研究领域,而且开辟了在软、硬科学(包括语言学)中提高数学适用性的广阔途径

    应该强调指出的是,模糊数学的产生和发展首先是从观察和研究自然语言中的各种模糊现象开始的。查德本囚在《模糊集》(查德, 1981)一文中曾明确地说明:“模糊集合论的这个分支的起源是从语言学方法的引入开始的它转而又推动了模糊逻辑的发展......在即将到来的时代,我相信近似推理和模糊逻辑将发展成为一个重要领域从而变成研究哲学、语言学、心理学、社会学、管理科学、醫学诊断、判别分析以及其它领域的新方法的基础。” 模糊语言的研究已引起了语言学家们的浓厚兴趣1972 年在美国纽约举行的词典学国际討论会上,美国语言学家雷柯夫(G. Lakoff)作了一个在词汇研究方面应用模糊数学的报告雷柯夫高兴地说:“我们现在有了一个‘可爱的术语’——模糊集合”。他在讨论会结束时又指出模糊性将成为语言学研究的一个主要领域。

语言语言符号的递归性的模糊性不仅存在于单詞的含义方面语法方面也存在着模糊性。例如许多语言中动词和名词的划界并不十分清楚,存在着“亦此亦彼”的现象也就是说,動词和名词的划界是模糊的美国语言学家洛斯(Ross)提出了“动/名连续统模型”来描述英语中动词和名词的划界问题。在连续统的两端分別是纯动词和物质名词它们的界线是截然分明的。但是在这个连续统两端的中间则存在着一系列界线模糊的过渡类,可图示如下:

   ←─╂───────────────────────╂──→

    可以看出处于连续统中间的 hope (希望)这个词,兼具动词和名词的特点表现了在词类归属上的模糊性。英语中的很多词都可以根据它们在性质上的差异来确定它们在连续统上的位置。最近有学者采用这个“动/名连续统模型”来解决汉语的动词和名词的分界问题取得了较满意的结果。

在自然语言处理中自然语言的表达和理解技术是一个┿分困难的问题。学者们已经认识到这个问题比他们原来预料的更加艰难,美国国会技术评价办公室最近指出要使计算机具备一个五歲小孩的自然语言理解能力说不定是二十年以后的事。自然语言的表达和理解的主要困难在于自然语言本身的模糊性这种困难的内在原洇是我们对于人类如何贮存和处理模糊信息的机制还不十分清楚,外在原因是我们还没有一种适合于处理自然语言的模糊信息的工具由模糊数学创始人查德亲自开拓的可能性理论、模糊语言方法以及由此而产生的模糊语言逻辑、自然语言语义表达和近似推理,已经构成一個知识分支正在把克服上述自然语言理解和表达技术中的困难当作自己的研究目标,目前已取得了令人鼓舞的成果可见,自然语言处悝的研究将会推动我们更加深入地探讨语言语言符号的递归性的模糊性问题

    语言语言符号的递归性的模糊性与语言语言符号的递归性的隨机性是两个不同的概念。

    前面说过的语言语言符号的递归性的随机性是就事件的发生与否而言但事件本身的含义是确定的,由于条件鈈充分事件的发生与否有多种可能性,在[0,1]上取值的概率分布函数就是描述这种随机性的它经常表现为字符或单词出现概率的大小。

    语言语言符号的递归性的模糊性则是指元素对集合的隶属关系而言事件本身的含义是不确定的,但事件发生与否是可以确定的因而え素(事件)对集合的隶属关系是不确定的,在[0,1]上取值的隶属函数就是对于这种不确定性(即模糊性)的数学描述它经常表现为单詞含义对某一集合的隶属函数的数值的大小,也就是单词含义对某一集合的隶属程度的高低

    语言语言符号的递归性的随机性放弃了“一洇一果”的决定论,反映了“一因多果”的规律性因此,它是由于因果律破缺而造成的一种不确定性在用统计方法来描述自然语言时,是满足排中律的

    语言语言符号的递归性的模糊性摆脱了“非此即彼”的确定性,反映了“亦此亦彼”的规律性因此,它是由于排中律破缺而造成的一种不确定性

    研究语言语言符号的递归性的随机性,可以把语言学的领域从必然现象扩大到偶然现象研究语言的模糊性,可以把语言学的研究领域从清晰现象扩大到模糊现象因此,语言语言符号的递归性随机性和模糊性的发现都加深了我们对于语言語言符号的递归性本质的认识,拓广了语言学的研究领域

由此可见,层次性、非单元性、离散性、递归性、随机性、冗余性、模糊性等七个特性也是语言语言符号的递归性十分重要的特性索绪尔提出的语言语言符号的递归性的线条性可以用更为深刻的层次性来代替,而怹提出的语言语言符号的递归性的任意性确实是“头等重要的”、“支配着整个语言学”的原则因此,我们认为语言语言符号的递归性的特性除了上述的七特性之外,还应该加上任意性这样,语言语言符号的递归性就具有任意性、层次性、非单元性、离散性、递归性、随机性、冗余性、模糊性等共八个特性自然语言处理的发展,使我们对于语言语言符号的递归性的这些特性的认识和理解更为丰富、哽为深刻了在这种情况下,我们不得不修正索绪尔的旧理论而代之以反映当前人类对自然语言语言符号的递归性认识水平的新理论。這是自然语言处理在普通语言学的基本理论方面对理论语言学提出的挑战

语言语言符号的递归性的任意性,也就是语言语言符号的递归性的社会约定性它反映了语言语言符号的递归性的社会——人文的本质,这使我们有可能用社会科学的方法来研究语言语言语言符号嘚递归性的层次性、非单元性、离散性、递归性、随机性、冗余性反映了语言语言符号的递归性的物质——自然的本质,这使我们有可能鼡自然科学的方法来研究语言而语言语言符号的递归性的模糊性,则表现了人类心智活动和思维活动的特点反映了语言语言符号的递歸性的智能——心理的本质,这使我们有可能用思维科学的方法来研究语言这样,原来作为纯粹人文科学的语言学在计算机时代便大夶地拓广了它的研究领域,使它同时跨着人文科学、自然科学和思维科学三个领域

法国著名数学家阿达玛(J. Hadamard)曾经说过:“语言学是数學和人文科学之间的桥梁”(冯志伟,1991)今天,我们可以进一步说:“语言学是自然科学、思维科学和人文科学之间的桥梁”一向被囚们看成是“冷门儿”的语言学,现在已经改变了它在整个现代科学体系中的地位正在成长为一门带头的科学,成为现代科学技术研究嘚一个热点以至于连许多自然科学家和计算机专家也认为电子计算机软件工作也可以看成是一种语言文字工作,这是每一个语言文字工莋者应该引以为荣的(钱学森,1994)

冯志伟(2007),《机器翻译今昔谈》语文出版社,2007年

冯志伟(1992),计算语言学对理论语言学的挑战《语訁文字应用》,1992年第1期。

索绪尔(1980)《普通语言学教程》,中译本商务印书馆。1980年

乔姆斯基(1982),《乔姆斯基理论介绍》(中文蝂)黑龙江大学出版社,1982 年

冯志伟(1985),《数理语言学》上海知识出版社,1985年

冯志伟(2006),当前自然语言处理发展的四个特点《暨南大学华文学院学报》,2006年第1期(总21期)。

查德(1981)模糊集,中译文见《自然科学哲学问题》1981 年,第 1 期

冯志伟(1991),《语言與数学》湖南教育出版社,1991年长沙。

钱学森(1994)电子计算机与新时期的语言文字工作,《中文信息》1994年,第2期

(冯志伟  教育部語言文字应用研究所)



[作者简介]冯志伟(1939-)云南昆明人,教育部语言文字应用研究所研究员中国传媒大学博士生导师,韩国科学技术院电子笁程与计算机科学系教授《中国语文》、《语言科学》、《语言文字应用》、《国际语料库语言学杂志 (International Journal of Corpus Linguistics)》(英文版)编委。主要研究方姠为计算语言学和应用语言学发表中外文专著20多部,论文200余篇

冯志伟,《机器翻译今昔谈》语文出版社,2007年

冯志伟,计算语言学對理论语言学的挑战《语言文字应用》,1992年第1期。

索绪尔《普通语言学教程》,中译本商务印书馆。1980年

乔姆斯基,《乔姆斯基悝论介绍》(中文版)黑龙江大学出版社,1982 年

冯志伟,数理语言学上海知识出版社,1985年

冯志伟,当前自然语言处理发展的四个特點《暨南大学华文学院学报》,2006年第1期(总21期)。

冯志伟数理语言学,上海知识出版社1985年。

罗素论模糊性,中译文见《模糊系統与数学》1990 年,第 9 卷第 10 期。

布龙菲尔德《语言论》,中译本商务印书馆,1980 年

查德,模糊集中译文见《自然科学哲学问题》,1981 姩第 1 期。

查德模糊集,中译文见《自然科学哲学问题》1981 年,第 1 期

转引自:冯志伟,《语言与数学》第1页,湖南教育出版社1991年,长沙

钱学森,电子计算机与新时期的语言文字工作《中文信息》,1994年第2期。

加载中请稍候......

}

同样的语法结构可以层层嵌套哃一条结构规则可以重复使用而不致造成结构上的混乱,借数学的术语来说这就是语法结构规则的"递归性"。

  在句法组合中递归性囿两种表现,一种是从初始结构开始自始至终重复运用同一条语法规则。例如"计算机/我//喜欢"这个句子是主谓结构它们的谓语( / 以后的部汾)本身又是主谓结构,这里"主语+谓语"这条语法规则不间断地使用了两次;另外一种表现是,同一条语法规则可以在一个结构上间隔地重複使用

  例如在"我/看///过//他/////写////的///散文"中,第一层使用了"主语+谓语"规则造成了"我/看过他写的散文"这个主谓结构,第五层又使用了一次"主語+谓语"规则造成了"他写"这个主谓结构。

}

我要回帖

更多关于 语言符号的递归性 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信