ACL最佳论文提出NLP模型测试方法，最佳论文提名也不可小觑x

　ACL 最佳论文提出最新 NLP 模型测试方法，最佳论文提名也不可小觑

　译者 | 刘畅出品 | AI 科技大本营（ID:rgznai100）

　导读：近日，ACL 2020 公布了最佳论文奖，另有两篇最佳论文荣誉提名奖也各自决提出了解决 NLP 领域问题的创新方法。

　领域问题的创新方法。

　最佳论文：

　最佳论文：Beyond Accuracy: Behavioral Testing of NLP Models with CheckList 论文链接：https://arxiv.org/abs/2005.04118 作者：来自微软、华盛顿大学、加州大学尔湾分校

　尽管测量模型的准确性一直是评估模型泛化能力的主要方法，但它通常会高估NLP 模型的性能。而评估模型的替代方法则着重于关注单个任务或特定行为。本文受软件工程中行为测试原理的启发，作者引入了一种与任务无关的测试 NLP 模型的方法--CheckList。CheckList 包含有助于全面测试的通用语言功能和测试类型矩阵，以及用于快速生成大量不同测试案例的软件工具。本文通过测试三个任务说明了 CheckList 的实用性，鉴别出了商业模型和 SOTA 模型中的关键问题。例如，在用户研究中，负责商业化情绪分析模型的团队经过广泛的测试，发现了模型中新的可操作的错误。在另一项用户研究中，用 CheckList 的 NLP 从业人员创建了两倍的测试用例，发现的错误几乎是没有使用它的三倍。

　最佳论文荣誉提名：Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics 论文链接：https://arxiv.org/abs/2006.06264 作者：墨尔本大学计算与信息系统学院

　自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致不是一个简单的问题。本文表明，当前的指标评估方法对用于评估的翻译系统非常敏感，尤其是存在异常值时，这通常会导致对评价效果产生错误的自信判断。

　最终，本文研究了成对系统排名方法，开发了一种在自动度量标准下以人为判断为阈值提高性能的方法，该方法可以量化所引起的 I 型错误与 II 型错误，即可以接受的人类评判质量差异，以及不能接受的人类评判差异。总之，这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。

　最佳论文荣誉提名：Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks 论文链接：https://arxiv.org/abs/2004.10964 作者：西雅图 Allen 人工智能研究所、华盛顿大学 Allen 计算机科学与工程学院

　对来源广泛的文本进行预训练的语言模型构建起了当今 NLP 的基础。由于这类模型的成功，本文研究了将预训练的模型定制为目标任务的领域是否仍然有帮助。本文提出了一项针对四个领域（生物医学和计算机科学出版物，新闻和评论）和八个分类任务的研究，结果表明在领域内进行预训练的第二阶段（域适应性预训练）可以在高和低两个计算资源条件下，提高模型的性能。此外，在进行域自适应的预训练之后，目标任务的未标记数据（任务自适应的预训练）也可以提高模型性能。

　最后，本文表明，使用简单的数据选择策略是一种有效的用于扩充任务语料库的方法，尤其是在可能没有用于域自适应预训练时。总体而言，作者发现多阶段自适应预训练可大大提高任务性能。