联合汉语分词和依存句法分析的统一模型：当前效果最佳

作者：机器之心来源：机器之心公众号

分享到：

04-27

选自arXiv

作者：Hang Yan、Xipeng Qiu、Xuanjing Huang

机器之心编译

参与：高璇、王淑婷

汉语 NLP 任务与英语不同，由于词语缺乏明显边界，汉语需要先依次分词、词性标注，再进行依存句法分析。但这种模式的分析容易造成误差传播，而且这三个小任务之间的共享知识无法充分利用。

对此，传统的解决方案是采用基于转换的联合模型。但这些模型仍然具有不可避免的缺陷：特征工程和巨大的搜索空间。因此，本文提出一种基于图的统一模型来解决这些问题。

这种模型将汉语分词和依存句法分析集成在一个分析模型中。它比以前的联合模型性能更好，并在汉语分词和依存句法分析中实现了当前最佳的结果。

与英语不同，汉语句子由连续的字符组成，词语之间缺乏明显的界限。由于词语常被认为是最小语义单位，因此汉语分词（CWS）成为下游汉语自然语言处理的预处理步骤。

例如，基本的 NLP 任务——依存句法分析通常在词级上定义。要分析一个中文句子，基本过程过程大致是：分词、词性标注和依存句法分析。

但是，这种 pipeline 方式总是存在以下局限：

误差传播。在这种方式中，一旦某些词语被错误地分割，随后的词性标注和分析也会出错。因此，pipeline 模型只能达到约 75％~80％的 dependency 分数 [1]。
知识共享。这三个任务（分词，词性标注和依存句法分析）是密切相关的。汉语分词的标准也取决于词语在句子中的语法作用。因此，从这三个任务中学到的知识是可以共享的。

一项任务的知识可以帮助其它任务。然而，pipeline 方式分别单独训练三个模型，每个模型针对一个任务，不能充分利用三个任务之间的共享知识。

这种误差传播问题的传统解决方案是使用联合模型 [2,3,1]。这些联合模型主要采用基于转换的分析框架来集成分词、词性标注和依存句法分析。它们基于标准的顺序 shift-reduce 转换，为分词和词性标注设计了一些额外的动作。

虽然这些联合模型比 pipeline 模型的性能更好，但它们仍具有两个局限性：第一，巨大的搜索空间；第二，特征工程（feature engineering）。

最近，基于图的模型在依存语句法分析方面取得了很大进展 [4,5]，它充分利用了（BiLSTM）[6] 和 [7] 来捕捉句子中单词之间的交互。

与基于转换的模型不同，基于图的模型为每个可能的弧分配一个分数或概率，然后根据这些加权弧来构建最大（MST）。

本文提出了一个统一的汉语分词和依存语句分析模型，它将这两个任务集成在一个基于图的分析模型中。由于分割是字符级任务，而依存分析是词级任务，因此研究人员首先将这两个任务公式化为基于图形的字符级分析框架。

详细地说，本文模型包含（1）深度 BiLSTM 编码器，它能够捕获每个字符的长期上下文特征，（2）biaffine 注意力计分器（attentional scorer）[5]，它统一预测字符级别的分割和依存分析关系。此外，与以前的联合模型不同，该统一模型不依赖于词性标注任务。

本文三项贡献如下：

据研究人员所知，这是第一个将汉语分词和依存句法分析集成在统一模型中的基于图的方法。且提出的统一模型非常简洁，易于实现。
与之前基于转换的联合模型相比，本文提出的模型是基于图的，这使得特征工程的工作量减少。此外，此模型可以处理标记的依存句法分析任务，而这对于基于转换的联合模型来说并不容易。
在数据集 CTB-5 和 CTB-7 上进行的实验中，即使没有 POS 信息，本文模型在联合汉语分词和依存句法分析中也达到了当前最先进的性能。

论文：A Unified Model for Joint Chinese Word Segmentation and Dependency Parsing

论文地址：https://arxiv.org/abs/1904.04697

汉语分词和依存句法分析是汉语自然语言处理的两个基本任务。依存句法分析是在词级定义的，因此分词是依存句法分析的前提条件，这使得依存句法分析受到误差传播的影响。

在本文中，我们提出了一个统一的模型来集成汉语分词和依存句法分析。与以前的联合模型不同，我们提出的模型是基于图形的模型，它更加简洁，从而减少了特征工程的工作量。

我们的联合模型比以前的联合模型性能都更优，并在汉语分词和依存句法分析中实现了当前最优的结果。

本文提出的模型

以前的联合方法主要基于转换的模型，它通过添加一些额外的操作（如「app」和「tag」）来修改标准的「shift-reduce」操作。与以前的方法不同，我们将分词和依存句法分析集成到一个基于图的统一分析框架中，这样更简单且更易于实现。

图 1：联合汉语分词和依存分析的统一框架。绿色弧线表示词级依赖关系。带有「app」的蓝色虚弧线表示连接的字符属于同一个词。

首先，我们将分词转换为特殊的弧预测问题。例如，中文单词「金融业（financial sector）」有两个词内依存弧：「金←融」和「融←业」。这两个词内依存弧都有标签「app」。

在本文中，我们只是将词语中的最后一个字符定义为首字符，所有其它字符都依赖于它。

其次，我们将词级依存弧转换为字符级依存弧。假设在词语 w1 = xi:j 和 w2 = xu:v 之间存在依存弧，其中 xi:j 表示句子中从 i 到 j 的连续字符，我们用此弧连接每个词的最后字符 xj 和 xv。

例如，弧「发展 (develop)→金融业 (financial sector)」被转换为「展→业」。图 1 说明了联合汉语分词和依存句法分析的统一框架。