微信扫一扫
分享到朋友圈

联合汉语分词和依存句法分析的统一模型:当前效果最佳

作者:机器之心 来源:机器之心 公众号
分享到:

04-27

选自arXiv

作者:Hang Yan、Xipeng Qiu、Xuanjing Huang

机器之心编译

参与:高璇、王淑婷

汉语 NLP 任务与英语不同,由于词语缺乏明显边界,汉语需要先依次分词、词性标注,再进行依存句法分析。但这种模式的分析容易造成误差传播,而且这三个小任务之间的共享知识无法充分利用。


对此,传统的解决方案是采用基于转换的联合模型。但这些模型仍然具有不可避免的缺陷:特征工程和巨大的搜索空间。因此,本文提出一种基于图的统一模型来解决这些问题。


这种模型将汉语分词和依存句法分析集成在一个分析模型中。它比以前的联合模型性能更好,并在汉语分词和依存句法分析中实现了当前最佳的结果。


与英语不同,汉语句子由连续的字符组成,词语之间缺乏明显的界限。由于词语常被认为是最小语义单位,因此汉语分词(CWS)成为下游汉语自然语言处理的预处理步骤。


例如,基本的 NLP 任务——依存句法分析通常在词级上定义。要分析一个中文句子,基本过程过程大致是:分词、词性标注和依存句法分析。


但是,这种 pipeline 方式总是存在以下局限:


  • 误差传播。在这种方式中,一旦某些词语被错误地分割,随后的词性标注和分析也会出错。因此,pipeline 模型只能达到约 75%~80%的 dependency 分数 [1]。

  • 知识共享。这三个任务(分词,词性标注和依存句法分析)是密切相关的。汉语分词的标准也取决于词语在句子中的语法作用。因此,从这三个任务中学到的知识是可以共享的。


一项任务的知识可以帮助其它任务。然而,pipeline 方式分别单独训练三个模型,每个模型针对一个任务,不能充分利用三个任务之间的共享知识。


这种误差传播问题的传统解决方案是使用联合模型 [2,3,1]。这些联合模型主要采用基于转换的分析框架来集成分词、词性标注和依存句法分析。它们基于标准的顺序 shift-reduce 转换,为分词和词性标注设计了一些额外的动作。


虽然这些联合模型比 pipeline 模型的性能更好,但它们仍具有两个局限性:第一,巨大的搜索空间;第二,特征工程(feature engineering)。


最近,基于图的模型在依存语句法分析方面取得了很大进展 [4,5],它充分利用了(BiLSTM)[6] 和 [7] 来捕捉句子中单词之间的交互。


与基于转换的模型不同,基于图的模型为每个可能的弧分配一个分数或概率,然后根据这些加权弧来构建最大(MST)。


本文提出了一个统一的汉语分词和依存语句分析模型,它将这两个任务集成在一个基于图的分析模型中。由于分割是字符级任务,而依存分析是词级任务,因此研究人员首先将这两个任务公式化为基于图形的字符级分析框架。


详细地说,本文模型包含(1)深度 BiLSTM 编码器,它能够捕获每个字符的长期上下文特征,(2)biaffine 注意力计分器(attentional scorer)[5],它统一预测字符级别的分割和依存分析关系。此外,与以前的联合模型不同,该统一模型不依赖于词性标注任务。


本文三项贡献如下:


  • 据研究人员所知,这是第一个将汉语分词和依存句法分析集成在统一模型中的基于图的方法。且提出的统一模型非常简洁,易于实现。

  • 与之前基于转换的联合模型相比,本文提出的模型是基于图的,这使得特征工程的工作量减少。此外,此模型可以处理标记的依存句法分析任务,而这对于基于转换的联合模型来说并不容易。

  • 在数据集 CTB-5 和 CTB-7 上进行的实验中,即使没有 POS 信息,本文模型在联合汉语分词和依存句法分析中也达到了当前最先进的性能。


论文:A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing



论文地址:https://arxiv.org/abs/1904.04697


汉语分词和依存句法分析是汉语自然语言处理的两个基本任务。依存句法分析是在词级定义的,因此分词是依存句法分析的前提条件,这使得依存句法分析受到误差传播的影响。


在本文中,我们提出了一个统一的模型来集成汉语分词和依存句法分析。与以前的联合模型不同,我们提出的模型是基于图形的模型,它更加简洁,从而减少了特征工程的工作量。


我们的联合模型比以前的联合模型性能都更优,并在汉语分词和依存句法分析中实现了当前最优的结果。


本文提出的模型


以前的联合方法主要基于转换的模型,它通过添加一些额外的操作(如「app」和「tag」)来修改标准的「shift-reduce」操作。与以前的方法不同,我们将分词和依存句法分析集成到一个基于图的统一分析框架中,这样更简单且更易于实现。


图 1:联合汉语分词和依存分析的统一框架。绿色弧线表示词级依赖关系。带有「app」的蓝色虚弧线表示连接的字符属于同一个词。


首先,我们将分词转换为特殊的弧预测问题。例如,中文单词「金融业(financial sector)」有两个词内依存弧:「金←融」和「融←业」。这两个词内依存弧都有标签「app」。


在本文中,我们只是将词语中的最后一个字符定义为首字符,所有其它字符都依赖于它。


其次,我们将词级依存弧转换为字符级依存弧。假设在词语 w1 = xi:j 和 w2 = xu:v 之间存在依存弧,其中 xi:j 表示句子中从 i 到 j 的连续字符,我们用此弧连接每个词的最后字符 xj 和 xv。


例如,弧「发展 (develop)→金融业 (financial sector)」被转换为「展→业」。图 1 说明了联合汉语分词和依存句法分析的统一框架。


因此,我们可以使用基于图的统一分析模型来执行这两个任务。我们的模型包含两个主要组成部分:(1) 深度 BiLSTM 编码器,用于提取上下文特征,它将给定句子的每个字符嵌入作为输入并生成密集向量,(2)biaffine 注意力计分器 [5],将给定字符对的隐藏向量作为输入并预测标签得分向量。


图 2 说明了联合汉语分词和依存句法分析的统一模型。具体说明如下。


图 2:本文提出的联合模型。为了简单起见,我们省略了弧标签的预测,它使用不同的 biaffine 分类器。


实验


我们使用 Penn Chinese Treebank 5.0(CTB-5)和 7 个(CTB-7)数据集来评估我们的模型。


表 1:CTB-5 和 CTB-7 的数据统计


如表 3 所示,我们的联合模型(倒数第二行)在汉语分词和依存句法分析方面都大大超过了以前的方法,即使没有(基于转换的联合模型中广泛使用的)局部句法分析特征。


表 3:主要结果


所有模型在汉语分词中的性能如表 4 所示。前两行显示了是否在 MLP 顶部使用 CRF 的区别。表 4 的下半部分给出了对本文所提所有联合模型的分段评估。联合训练汉语分词和依存句法分析比单独训练汉语分词效果更好。


表 4:汉语分词结果 



本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者 / 实习生):hr@jiqizhixin.com

投稿或寻求报道:content@jiqizhixin.com

广告 & 商务合作:bd@jiqizhixin.com

阅读39280
联合 汉语 模型 
举报0
关注机器之心微信号:almosthuman2014

用微信扫描二维码即可关注
声明

1、头条易读遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2、本文内容来自“机器之心”微信公众号,文章版权归机器之心公众号所有。

评论
更多

文章来自于公众号:

机器之心

微信号:almosthuman2014

邮箱qunxueyuan#163.com(将#换成@)
微信编辑器
免责声明
www.weixinyidu.com   免责声明
版权声明:本站收录微信公众号和微信文章内容全部来自于网络,仅供个人学习、研究或者欣赏使用。版权归原作者所有。禁止一切商业用途。其中内容并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。如果您发现头条易读网站上有侵犯您的知识产权的内容,请与我们联系,我们会及时修改或删除。
本站声明:本站与腾讯微信、微信公众平台无任何关联,非腾讯微信官方网站。