所有文章 > 正文

北大穗志方教授:从语言到知识—构建语言智能的基石

作者: AI TIME 论道

时间: 2020-08-05 20:06

机器理解语言是怎样一个过程?深层语义理解的突破点又在哪?

提到语言智能,大家或许会想到AI历史上鼎鼎有名的IBM Watson。2011年,IBM Watson在智力竞赛节目《危机边缘》中一举夺冠,展示了机器处理大规模文本知识并进行模式匹配的超强水平。然而,要真正理解语义内容,计算机还有很长的路要走。这便涉及到认知智能的一个重要核心技术:自然语言理解,一门融合语言学、计算机科学与数学的交叉学科。
机器理解语言是怎样一个过程?深层语义理解的突破点在哪里?如何利用该技术进行医学文本的知识挖掘?让我们听听6月21日北京智源大会上,北京大学计算机系教授、计算语言学教育部重点实验室主任穗志方对这些问题的解读吧。

★ 讲者介绍 ★

穗志方,北京大学信息科学技术学院教授、博士生导师,计算语言学教育部重点实验室主任,中国中文信息学会理事,第十四届汉语词汇语义学国际研讨会程序委员会主席。研究领域为计算语言学、文本挖掘与知识工程。在计算语言学及人工智能领域发表多篇学术论文,组织中文计算系列国际评测,制订中文语料库构建相关国家标准2项。作为课题负责人,承担并完成国家973计划课题、国家自然科学基金、国家哲学社会科学基金等多项国家级科研项目。作为技术负责人,构建了以中文为核心的大规模多层次语言知识库“综合型语言知识库”, 覆盖词、词组、句子、篇章各级语言单位和词法、句法、语义各个知识层面,从汉语向多语言辐射,该成果获得国家科技进步二等奖和中国电子学会电子信息科学技术奖一等奖。主持构建了开放中文医学知识图谱CMeKG(http://cmekg.pcl.ac.cn/),将语言知识库从通用领域深入到专业领域。

一、自然语言处理的研究体系

自然语言处理(NLP)是通过建立形式化的计算模型来分析、理解自然语言,从而达到高效获取和利用语言承载的信息的目标。从定义可以看出,自然语言处理是计算机科学领域中一门跨越文理的交叉学科:以语言为研究对象,以计算机科学为研究工具,以数学为建模工具。同样的研究问题在语言学领域称为计算语言学(CL)。NLP应用非常广泛,包括机器翻译、机器写稿等,这些智能化应用的后台都有NLP技术的支撑。

我们可以把整个NLP研究体系描述成大树的形状,树根是大规模语言知识资源,它作为知识基础来支撑整个NLP系统;树干是自然语言处理的核心技术,包括语义分析、句法分析;从树干延伸出来的枝叶包括机器翻译、自动文摘、自动问答等应用方面的研究。

二、机器理解语言的渐进过程

自然语言理解(NLU)是人工智能的高级阶段,被称为人工智能皇冠上的明珠,是一个多学科交叉融合的,比较新兴的、年轻的学科。

 这是一个机器理解语言的过程,整个研究脉络是渐进的,由不理解到理解要逐层经过多个环节,比如:

第一个环节是自动分词。如果计算机能够正确切分这个句子,就代表对这个句子进行了最基础的理解。

例如:南京市长江大桥位于南京市鼓楼区…

计算机在切分的时候结果可能有两种:

南京市 长江大桥位于 南京市鼓楼区…

南京市长 江大桥位于 南京市鼓楼区…( ?)

人类很容易排除第二种分词结果,但要计算机排除第二种,就需要配备相关的语言知识。

另一个例子是:“你能穿多少就穿多少。”

你能穿多少就穿多少 【冬天,多穿点】

你能穿多少就穿多少 【夏天,少穿点】

如果希望计算机选择正确的断句方式,也需要配备相应的知识。

第二层是句法分析。

例如:“村民击毙了咬死了猎人的狗。”

如图,动宾结构和定中结构这两种结果,孰对孰错,需要利用上下文的信息,以及句法方面的语言知识。

第三层是句义分析。

比如,要测试计算机是否理解下面这句话的语义结构,可以让它回答“谁死了”这个问题。是狗咬死猎人,还是人打死了狗?解决方法是进行语义角色标注,例如找出动作的发出者和对象,即施事和受事。这需要大规模的语义标注语料库,通过模型训练,让计算机自动学习标注正确的语义结果,从而获得知识。

总结一下,机器理解语言是逐层推进的。在整个研究体系中,作为树根的语言知识资源库,是处理自然语言的基础设施。相对来说,语义理解是最重要也是最困难的,不同于人工语言,自然语言的理解充满了歧义性,往往需要各种各样复杂的命题和超命题,并综合语言知识、世界知识、领域知识等方方面面的知识实现精准理解。

三、面向语言理解的汉语意合模型

让计算机理解汉语尤其困难,所以中文理解是自然语言的难题,穗志方团队的研究方向就是构建面向中文语义理解的语言知识资源。针对中文“意合”的语言特点,建立一套涵盖多层次语义信息的中文语义知识库。

汉语和西文有比较本质的区别,汉语是一种意合语。让计算机理解汉语之前,首先要解决的问题就是建立计算机可以利用的汉语意合语法模型。在这方面,实验室利用跨学科合作的条件,采用“词库——构式”互动的架构,首次构建了具有可操作性的高度形式化和数据化的汉语意合语法理论体系,为机器自动理解汉语意合语法提供了形式理论模型。 

基于这一目标,设计了多维度中文深层语义描述体系。

不同概念会触发人脑不同的认知场景,例如同样是描述“想”这个词,概念不同,事件语义就完全不同。在“他想家了”这句话中,“想”表达思念;而“他想照一张相”这句话中,“想”表示意愿。由于同一谓词的不同(词典)概念义会带来事件模式差异,如果借助词典对谓词排歧,事件语义会更加清晰。

因此,事件模式与概念义有很强的关联,相同的概念义对应的事件模式相似;而不同的概念义标注,其命题义的标注相差很明显。比如同样的 “打”字,在“一下子打死了两只苍蝇”“上午给学校打了一个电话”“这两队打了一个平手”中,认知模式是不一样的。

进一步,在句义分析中充分考虑程度、形态、否定、情感等更多超命题方面的意义,最终形成融合概念义、命题义以及超命题义的机器表示。如果计算机能够将线性输入的句子建立成结构图,计算机就达到了三个层次的深度理解。

为了实现这样的语义分析,实验室构建了汉语自动分析技术及标注平台。通过开发工具集与人机结合的方式,落实上述理念,最终构建了一个大规模语义标注语料库。

四、中文医学知识图谱CMeKG

在知识资源构建方面,穗志方教授选择医学领域进行研究,从而将通用领域拓展到应用领域。人工智能为医疗带来了巨大帮助,包括药物挖掘、医院挖掘、药物研究等,为病人诊中、诊前、诊后提供了智慧医疗服务。在这样的应用驱动下,我们看到,支撑智慧医疗的基础设施就是医学知识图谱。

于是,穗志方的团队构建了一个面向智慧医疗的中文医学知识图谱CMeKG,从数据层、技术层、知识层、应用技术层以及应用层等多个层面展开。以通用的NLP方法为基础,开发面向医学文本的领域内容分析核心技术。

从语言层面的句子语义分析到所蕴含的事实分析以及对核心领域分析的拓展,逐层对医学文献进行知识挖掘。在这样的核心技术支撑下,进一步开发医学知识的自动提取框架。

对教材、临床路径、临床指南等多源异构的医学文本大数据进行分析,在此基础上进行医学知识分析,采用规则+深度学习的方法。构建而成的医学知识图谱可提供精准医学知识服务。

基于医学知识图谱,穗志方的团队也做了医学期刊智能检索、相似病历检索等医学领域的应用和探索。

五、计算语言学重点实验室

针对女性科研发展的主题,穗志方教授也谈了自己科研发展道路上,帮助最大的并培养自己多年的北京大学计算语言学教育部重点实验室。1986年北京大学成立了计算语言学研究所,一个文理交叉的研究机构,经过几十年的发展已经取得了非常丰硕的成果。它的特色是计算机学科和语言学科的文理交叉。

同时,该实验室也建立了博士、硕士、访问学者这样一套完整的培养体系,培养了优秀的NLP领域的研究人员,其中不乏杰出的女性。很多女硕士、女博士以及女性研究者和访问学者都是从这里走出去,走到世界上!

2019届中文系毕业生林子就是实验室非常优秀的一名学生。本科二年级进入实验室进行课题研究,从语言学基础理论角度和计算机学科角度受到的培训,使得她能从更广泛的交叉视野看待NLP问题,所以在本科阶段取得了非常好的研究成果。

北京大学是一个学科交叉的沃土,北大计算语言学重点实验室在这方面尤其突出。有志于NLP研究的朋友,无论性别、民族、国籍,都欢迎加盟北京大学的计算语言学重点实验室!

往期回顾:

传闻中能让你看见七彩小人的“神奇蘑菇”,其实可以用于治疗抑郁症

你怎么看:留守女孩选北大考古专业惹争议;江苏文科状元无缘清北,获港大百万奖学金

高文、周志华等学者入选,2020年度国家科学技术“三大奖"初评结果公布!

[关于转载]:本文为“AMiner”官网文章。转载本文请联系原作者获取授权,转载仅限全文转载并保留文章标题及内容,不得删改、添加内容绕开原创保护,且文章开头必须注明:转自“AMiner”官网。谢谢您的合作。

二维码 扫码微信阅读
推荐阅读 更多