当前位置：首页 > news >正文

爱站网app最新域名ip地址

news 2025/8/8 8:34:52

爱站网app,最新域名ip地址,网络推广渠道有哪些哪些,百度云盘官网登录入口分享嘉宾：付志宏百度资深研发工程师编辑整理：李润顺内容来源：Baidu Brain & DataFun AI Talk《百度中文纠错技术》出品社区：DataFun注：欢迎转载，转载请注明出处。本次分享聚焦于自然语言处理的一个传统…

分享嘉宾：付志宏百度资深研发工程师
编辑整理：李润顺
内容来源：Baidu Brain & DataFun AI Talk《百度中文纠错技术》
出品社区：DataFun
注：欢迎转载，转载请注明出处。

本次分享聚焦于自然语言处理的一个传统问题－文本纠错，首先介绍文本纠错的相关背景及目前的主流技术，然后重点分享百度在文本纠错方向的主要工作，最后结合具体应用场景，展示纠错技术带来的产品体验升级。

一．纠错技术概述

语言是复杂的。每一门语言都经历了几百年，甚至几千年的长期演变和发展，形成了一套复杂的文法和句法规则。这些文法和句法规则复杂多变，例如一些词或者短语存在多音、多意、多用等现象，对语言的使用者提出了较高的要求；一旦语言使用者对语言掌握不够或者粗心大意时，则很容易发生用词不当、张冠李戴等错误。虽然这些错误看起来微不足道，但正所谓“差之毫厘，谬以千里”，特别是在某些场景(比如外交场合)，即使很小的语言错误也可能带来非常恶劣的影响。

自然语言处理常见的任务包括词法分析，句法分析，语义计算等，这些任务要取得理想的结果，输入数据的准确性是基本前提，因此从NLP的整体技术角度来说，文本纠错起着保驾护航的作用。

纠错技术相对于词法分析，句法分析等受到的关注一直较小，一方面是因为文本出错的比例比较小，在一些重要场合，也有专门人员进行校验；另一方面本身问题也相对较难，其要求计算机对语言规则以及文本语义有深刻的理解。在2000年以前，业界主要依靠长期积累的纠错规则和纠错词典来进行纠错，比如微软的文档编辑产品WORD即采用这种方法。随着机器学习技术的发展，纠错问题受到了学术界和工业界越来越多的关注，其中有两大主流方法：一种解决思路是将语言错误归类，然后采用Maxent、SVM等分类方法对这些类别进行重点识别；另外一种思路是借鉴统计机器翻译(SMT)的思想，将语言纠错等价为机器翻译的过程，即错误文本翻译为正确文本，并随之出现了一系列的优化方法。最近几年，随着神经机器翻译(NMT)技术的快速发展，人们逐步将SMT与NMT技术结合起来解决纠错问题。最近几年中文纠错的研究也得到较多的关注和发展，并陆续举办了几届中文纠错评测，例如CGED与NLPCC等。

目前，基于机器翻译的方法已经成为文本纠错的主流技术，主要思想是把纠错看成同种语言中错误句子翻译为正确句子的过程，如上图中的公式所示，其核心由语言模型和翻译模型组成。语言模型学习语言规则、语言知识；翻译模型从平行语料中学习用户的纠错行为。SMT纠错一般的典型做法：首先基于平行语料训练对齐模型，得到多粒度(字、词、音、形、短语)的混淆矩阵(Phrase Table)；针对具体的纠错实例，基于句子中的错误点从Phrase Table中召回可能的正确候选，然后基于句子语义理解，对这些纠错候选进行排序，从而得到正确的结果。

而NMT方法主要依赖于大规模的监督语料，忽略掉中间的各种步骤，直接实现端到端的学习。NMT方法相对于SMT方法的优势在于避免了SMT每一步过程中导致的错误传递，同时具有更强大的学习能力。

二．百度中文纠错

▪ 技术背景

近年来，随着新媒体行业的快速发展，中国自媒体从业人数逐年增长，至2017年有近260万。但是相对于传统媒体，其缺少人工校稿环节，编辑好的文章即刻发表，导致文章的错误比例较高。比如一些新媒体平台的正文错误率在2%以上，标题错误率在1%左右。同时，语音智能硬件产品的兴起，也暴露出语音识别技术的错误率高企问题，在某些场景语音识别中，错误率可能达到8%-10%，影响了后续的query理解及对话效果。因此研发优质的中文纠错技术，便成为了必须。

▪ 技术目标

为了满足以上的需求，百度中文纠错一方面需要支持多种类型的错误识别，另一方面需要支持不同模态的输入数据，同时还需要提供快速的场景迁移以及深度定制能力。

我们把中文常见错误总结分为三类：

用词错误，由于输入法等原因导致的选词错误，其主要表现为音近，形近等；
文法/句法错误，该类错误主要是由于对语言不熟悉导致的如多字、少字、乱序等错误，其错误片段相对较大；
知识类错误，该类错误可能由于对某些知识不熟悉导致的错误，要解决该类问题，通常得引入外部知识、常识等。

▪ 整体架构

百度中文纠错的整体架构如下图所示。整体上，将纠错流程，分解为错误检测、候选召回、纠错排序三个关键步骤。通过引入语言知识、上下文理解和知识计算的核心技术，提升不同类型错误的解决能力。最后，支持SMT based和NMT based两套Framework，形成完整的系统架构。下面分别进行详细介绍。

▪ 关键步骤(错误检测->候选召回->纠错排序)

错误检测的目标是识别输入句子可能存在的问题，采用序列表示(Transformer/LSTM)+CRF的序列预测模型，这个模型的创新点主要包括：

词法/句法分析等语言先验知识的充分应用；
特征设计方面，除了DNN相关这种泛化能力比较强的特征，还结合了大量hard统计特征，既充分利用DNN模型的泛化能力，又对低频与OOV(Out of Vocabulary)有一定的区分；
最后，根据字粒度和词粒度各自的特点，在模型中对其进行融合，解决词对齐的问题。

候选召回指的是，识别出具体的错误点之后，需要进行错误纠正，为了达到更好的效果以及性能，需要结合历史错误行为，以及音形等特征召回纠错候选。主要可分为两部分工作：离线的候选挖掘，在线的候选预排序。离线候选挖掘利用大规模多来源的错误对齐语料，通过对其模型，得到不同粒度的错误混淆矩阵。在线候选预排序主要是针对当前的错误点，对离线召回的大量纠错候选，结合语言模型以及错误混淆矩阵的特征，控制进入纠错排序阶段的候选集数量与质量。

纠错排序解决的是，由于纠错的正确结果具有唯一性，如何在召回的纠错候选中将正确的结果排在第一位。百度中文纠错采用的是Deep&Wide的混合模型结构，Deep部分学习当前错误点上下文表示，Wide部分基于形音、词法、语义、用户行为等特征学习原词与候选词的多维度距离表示，另外通过GBDT&LR模型学习到更好的特征组合。

▪ 核心技术(语言知识->上下文理解->知识计算)

中文纠错需要在错误检测、候选召回、纠错排序的策略层面上取得较好效果，最关键的因素仍然在于解决最基本的自然语言处理问题：语言知识、上下文理解、知识计算。语言知识完成对语言规则的学习，对语言结构的理解，具体包括词法分析、句法分析以及语言模型；上下文理解是指需要理解错误点上下文所表示的内容或语义，百度中文纠错主要通过Contextual-DNN模型来学习，并通过AOA attention机制解决长依赖问题，帮助错误纠正。知识计算方面，从知识(客观规律)的维度考虑问题，重点是做好文本理解与知识关联。

语言知识方面，词/句法分析不详细展开，主要介绍语言模型的训练和使用。传统的语言模型，主要是根据前面一串词预测下一个词的概率，直接应用于纠错的主要问题在于忽略了原词的信息。因此，我们提出了一种受限词表的语言模型，该受限词表基于原词生成，通过基于受限词表的训练和预测，能够对易错词进行更好的区分，具体例子如下图所示。

关联知识方面，看下图中的例子“邓论因档期问题提出爸爸去哪儿”，可以通过原始错误标题在标准语料中基于检索(IR)或者上下文context Memory的方式，补充到大量同原始标题相关的精准局部知识。利用这些精准的局部知识来辅助纠错排序。

文本理解方面，以用户与智能音箱的交互句子“小度小度，请帮我导航到深圳市学府路百度国籍大厦”为例，可能会出现低频的道路或POI，如果采用统计得到的语言模型来纠错而不去理解句子表达的内容，显然是不恰当的。需要从全局理解句子内容以及理解句子的每个成分，解决低频领域知识的泛化问题。具体做法是通过对文本进行语义分析得到语义特征，应用到纠错排序模型中，得到更好的纠错结果。

▪ 系统框架

中文纠错在策略层面涉及错误检测、候选召回、纠错排序，核心技术层面涉及语言知识、上下文理解、知识计算，那如何来构建一个完整的中文纠错系统呢？百度的中文纠错系统支持两种纠错系统框架：ECNet和Restricted-V NEC。ECNet系统把纠错任务分成很多步骤、多个模型，每个模型解决具体的特定问题，然后通过Pipeline的方式串联，得到最后结果；这种方式的优点在于方便分析问题，能够针对各个问题进行重点突破，但是也存在两个明显问题：