前言
絮絮叨叨
为什么会突然看一篇60年代的文章?要从几天前我从学校图书馆借了一本叫《数学之美》的书说起。首先安利一下这本书,这书薄薄的似乎只有100页,但是书的作者的文学素养和专业知识让AI问题及其背后的数学充满了浪漫主义色彩。然后在书里刚开始关于自然语言处理的相关介绍中,我看到了一个名字-Noam Chomsky (乔姆斯基)。当时我并没有听说过他,于是就去搜索了一下,搜索结果几个关键词抓住了我的眼球:xxxx创始人、最伟大的学者之一。so, who is he?
从“规则”到“统计”
自然语言处理作为人工智能下的子领域,自然也陪伴着人工智能走过几个“春季”与“冬季”。具体而言,NLP从早起的基于规则到如今的基于统计,背后不仅是深度学习技术的发展,也是其从“理想主义”为主流到“经验主义”占主导的转变过程。
基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。 早期的自然语言处理具有鲜明的经验主义色彩。如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是“手工查频”,具体说就是统计了《欧根·奥涅金》长诗中元音与辅音出现频度;1948年香农把离散马尔科夫的概率模型应用于语言的自动机,同时采用手工方法统计英语字母的频率。
然而这种经验主义到了乔姆斯基时出现了转变。
1956年乔姆斯基借鉴香农的工作,把有限状态机作用刻画语法的工具,建立了自然语言的有限状态模型,具体来说就是用“代数”和“集合”将语言转化为符号序列,建立了一大堆有关语法的数学模型。这些工作非常伟大,为自然语言和形式语言找到了一种统一的数学描述理论,一个叫做“形式语言理论”的新领域诞生了。但乔老爷子干完这一票之后,挥一挥衣袖,说了一句“有限状态模型不适合用来描述自然语言”。 随后老爷子又补了一刀“应当认识到‘句子的概率’这个概念,在任何已知术语的解释中,都是一个无用的概念”。 -------《统计自然语言处理》
从如今language model在NLP中的表现来看这句“应当认识到‘句子的概率’这个概念,在任何已知术语的解释中,都是一个无用的概念”是非常的离谱,而网上的几篇博客(内容几乎一模一样😅)说这句如此绝对的话来源于QUINE'S EMPIRICAL ASSUMPTIONS这篇文章。因此本着对伟人的尊重和求真务实的态度,我就决定去读一下这篇文章。另外这篇文章是在springer出版的书籍。不过在说这篇文章的内容之前还需要补充介绍几个名词
Willard Van Orman Quine & Avram Noam Chomsky
这里我们首先简单的介绍一下两个人。
WVO Quine就是文章标题中的这个Quine,文章中从他的作品word and object开始谈起。直接检索Willard Van Orman Quine会发现百度百科并没有收录这个词条,不过wikipedia倒是有。简单来说,Quine是美国一位著名的哲学家,主张经验主义,另外他倡导Semantic holism-语义整体论。语义整体论可以简单理解为语言的某个部分,无论是术语还是完整的句子,只能通过它与更大语言部分的关系来理解。
Avram Noam Chomsky也就是乔姆斯基(任在世),是美国哲学家,麻省理工学院语言学的荣誉退休教授。乔姆斯基的《句法结构》被认为是20世纪理论语言学研究上最伟大的贡献。
《句法结构》(Syntactic Structures)是乔姆斯基介绍转换生成语法的《语言学理论的逻辑结构》一书的精华版。这一理论认为说话的方式(词序)遵循一定的句法,这种句法是以形式的语法为特征的,具体而言就是一种不受语境影响并带有转换生成规则的语法。儿童被假定为天生具有适用于所有人类语言的基本语法结构的知识。这种与生俱来的知识通常被称作普遍语法理论。
Humean Theory
休谟(David Hume)是苏格兰不可知论哲学家。他认为人的认知是有局限的。在休谟看来,我们所能认知的“自我”,其实只是感知,人的感知受人的感官局限。休谟认为,因果关系是人的理念,我们倾向于把某种序列中理念间的必然联系归于这种因果关系的本质。也就是说,因果只是我们头脑中的理念而已,两个客体造成恒定感知,比如每天我们看到太阳升起——天就亮了,我们就会把二者视为因果关系。但并不是自然界真的存在因果关系。
正文
这篇文章是对奎恩经验主义假设的解读,不过这篇文章阅读下来非常晦涩,因为作者在叙述Quine的理论时会通过各种逗号断句或小括号来表达自己的观点,所以文章的内容没有结构化的组织(就这还语言学家呢,就这就这),另外这一篇十多页的文章居然一个小标题都没有。
首先quine的理论来源于Humean theory of language acquisition,他认为人们对于语言的知识可以被表示为a network of linguistic,这也意味着人类的theory,比如chemistry这种二级学科或者基础的学科都可以被表示为a fabric of sentences variously associated to one another。进而人类所有的知识都可以用这些结构来描述。quine的理论中提到了“language”和“theory”。乔姆斯基指出理论与语言是相互渗透的,另外理论还涵盖了common-sense和belief。
Beneath the uniformity that unites us in communication there is a chaotic personal diversity of connections, and, for each of us, the connections continue to evolve. No two of us learn our language alike, nor, in a sense, does any finish learning it while he lives.
奎因表示如果语言是通过条件反应的机制相互关联并与外部刺激相关联的句子网络,那么一个人对言语行为的倾向可以根据这种网络来表征。按照这种语言的抽象形式,我们如何从语言中获取知识?奎恩提出了一个prelinguistic quality space,其中定义了距离度量(意味着可以度量相似度)。简单来说,在这个空间的某个维度上来看red ball, yellow ball之间的距离比red kerchief要近。这一想法似乎是背离经验主义的,因为这种质量空间可以想象和定义得到的,而非学习得到的。
然而,奎因在他关于语言是如何学习的假说中回到了经典的经验主义概念。与他认为语言是一个句子网络的观点相一致,他列举了学习句子的三种可能机制。首先,句子可以通过“直接条件反射”到“适当的非语言刺激”来学习,也就是说,通过在适当的条件下重复配对句子和刺激;第二,通过句子与句子的关联;第三,新句子可以通过“类比合成”产生,不过这种类比指的并不是类似英语语法规则的东西,而是在固定的上下文中用一个词代替一个类似的词(“手”、“脚”)。他认为一种语言是相关句子的有限网络,有些也与刺激相关,因为这只是两个假定的机制所产生的结构,具有实质性内容的语言学习。
但是乔姆斯基认为语言是句子的无限集合构成的。由假定的机制推导出的网络必定是有限的(对应上文的学习句子的机制),它只会包含人们曾经接触过的句子。
Presumably, a complex of dispositions is a structure that can be represented as a set of probabilities for utterances in certain definable 'circumstances' or 'situations'. But it must be recognized that the notion 'probability of a sentence' is an entirely useless one, under any known interpreta- tion of this term.
这里乔姆斯基给出了这句话——句子的概率是没有意义的。他举例说“birds fly”或者“Tuesday follows Monday”这两个英语下句子的概率对日语中产生这两个句子的概率没有意义。他认为probability relative to a situation没有任何意义。如果complex of dispositions是由根据经验观察确定的,那么只有少数传统的问候语、陈词滥调等才有可能与语言的倾向相关联,因为在技术意义上,在任何合理的语料库或数据集中,很少有其他句子可能具有非空的相对频率。且随着语料库的增加,任何给定句子的频率都会无限制地减少。 有人可能会设想用其他方法根据经验为句子分配概率,但乔姆斯基认为,没有一种方法可以避免这些困难。因此,如果一种语言被理解为在正常情况下作出反应的复杂倾向(奎恩的经验主义假说),那么它不仅是有限的、而且非常“小”。
Quine在提出“言语倾向”时指出了翻译的不确定性问题,简单来说可以理解为每个人的说话习惯几乎没有相似之处,因此根本无法建立与这种倾向相一致的翻译手册。对于理论和语言的有限性假设带来的问题,乔姆斯基提出语言是人类头脑的先天属性所带来的,存在一种“普遍语法”。
到这里,我们简单的概括一下前文提到的大概内容,即Quine的理论和乔姆斯基的看法:
We are left with the fact that Quine develops his explicit notion of 'language' and 'theory' within a narrowly conceived Humean framework (except for the possible intrusion of a rich system of innate ideas), and that he characterizes language learning ("learning of sentences") in a way consistent with this narrow interpretation, although the conclusion that a language (or theory) is a finite fabric of sentences, constructed pairwise by training, or a set of sentences with empirically detectable probabilities of being produced (hence a nearly empty set) is incompatible with various truisms to which Quine would certainly agree.
Quine依靠他关于知识获取和语言学习的经验主义假设来支持他的一些主要哲学结论。一个重要的例子可以说明这一点。知识的基础是从某些证据上做“分析假设”。对Quine来说,一个关键点是,在基本语言和“常识知识”的情况下,分析假设的正确性并不是“客观问题”,它可以是“对或错”。这些分析假设是超越了 “任何一个本地人的言语行为倾向所隐含的任何东西”。因此,当我们在翻译、学习一门语言时,我们自然而然地会使用这些分析性假设(知识)与母语进行类比。也就是说在Quine的经验主义观点建模下超越言语倾向的知识(分析假设)是一个主观的概念,而这就会带来“翻译的不确定性”。
另外,Quine对基于数据的分析假设的构建和基于数据的“观察句子的刺激意义”的假设进行了鲜明的区分。他指出,后者只涉及“正常感应”类型的不确定性。显然,包含真值功能连接词的句子的翻译(类似地,学习和理解)中涉及的归纳推理也是如此。在这些情况下,归纳法将我们引向“真正的假设”,这与“分析假设”截然不同(在讨论翻译的不确定性时提到的“分析假设”)。因此,Quine认为“正常归纳”与“假设形成或理论建构”之间存在区别,前者不涉及严重的认识论问题,后者确实涉及此类问题。毫无疑问,这种区别是可以区分的;然而,Quine没有具体说明“正常归纳”所基于的先验属性。这里,乔姆斯基认为大脑天生具有允许从“正常归纳”到“真实假设”的属性,但不允许“理论建构”和一些可能受到狭隘限制的“分析假设”。也就是说,他认为在经验主义下根据数据进行归纳而后得到一个假设的真值(对或错)这个过程是合理,但是直接归纳知识这一过程是不合理的。
因此,一般来说关于语言不可能有一套固定的“分析假设”。我们需要为每种语言(更准确地说,为每种语言的每一个说话者)建立一套新的分析,因为语言的形式没有任何普遍性。
这里还是强调了乔姆斯基对于统计自然语言处理的观点,他认为每种语言,每个说话者的说话倾向会导致无法建立一套普遍的“分析假设”。因此乔姆斯基认为,当我们学习一门语言时,我们并不是在“学习句子”或通过训练获得“行为技能”。相反,我们以某种方式发展了某些原则(当然是无意识的),这些原则决定了许多句子的形式和意义。
转换生成语法
在乔姆斯基的《句法结构》一书中,他提出了转换生成语法理论,他认为语言是人类特有的一种先天机制,不仅应该研究语言行为,而且应该研究语言能力,转换-生成语法就是关于语言能力的理论。具体而言,乔姆斯基认为语法主要包括基础和转换两个部分,基础部分生成深层结构,深层结构通过转换得到表层结构,语义部分属于深层结构,它为深层结构作出语义解释。语音部分属于表层结构并为表层结构作出语音解释。强调从认知学的角度对人类语言共性的解释,区分先天的语言能力和后天的语言知识,认为语言有生成能力,是有限规则的无限使用,转换则是生成的重要手段。
他的思想对当时主流的结构主义语言学产生了重要的影响。他的理论包含了几个关键的思想,首先是语义学是独立于语法学之外的,合乎语法的并不一定有意义。另外,他认为语言能力就像行走一样,是人与生俱来的理解语言及遣词造句的能力。
转换生成语法自创立以来, 就以对语言现象的解释充分性为目标, 试图建立一套能像数理公式般进行形式运算推理的规则来解释自然语言。期间虽经反复的修改否定再修改, 每一次都会有新的理论突破, 但其研究的对象、方法和原则却始终如一, 从而极大的推动了当代语言学的发展, 并为语言研究开辟了一条新的道路, 展现了一个全新的发展方向。
比如说,基于规则的句法剖析主要是使用Chomsky的上下文无关语法。在上下文无关语法的基础上, 学者们提出了自顶向下分析法、自底向上分析法、左角分析法、CYK算法、Earley 算法、线图分析法等行之有效的剖析技术。
关于基于规则的自然语言处理在工业界中的应用,可以参考这个链接 https://www.zhihu.com/question/30748126