别再无脑wwm了！在下游任务中不一定有效！

大数据文摘授权转载自夕小瑶的卖萌屋

作者：python

近几年来，整词遮掩（whole word masking, wwm）作为一种（几乎）不增加计算量，却能大大提升模型表现的方法，被广泛地运用在预训练语言模型中，以促进粗粒度语义的整体建模[1]。

然而，这种方法真的是通用的么？论文作者认为，中文里词是一个组合单元，而非英文中的独立单元。因此，对中文的整词遮掩预训练并非天然有效的。论文作者在中文语法改错任务上做了实验。结果表明，在字级别纠错任务上，wwm效果反而不如逐字遮掩效果好。而在整体任务效果上，将逐字遮掩与整词遮掩结合表现更佳。

该论文为复旦自然语言处理组与腾讯AI lab的工作，发表于ACL 2022 findings.

论文题目：

"Is Whole Word Masking Always Better for Chinese BERT?": Probing on Chinese Grammatical Error Correction

论文链接：

（ACL Findings 2022） https://arxiv.org/abs/2203.00286v2

背景

掩码语言模型与整词遮掩

掩码语言模型是预训练模型中的一个常用的自监督任务。通过遮掩部分输入内容，让模型预测还原的方式，增强模型的语言建模能力。

而整词遮掩方法，利用中文分词的结果，在掩码预测时以词为单位进行遮掩，可以提高对粗粒度语义的建模能力。如下图所示，original masking只遮掩的“模”，模型可以很容易地利用输入的“型”来预测被遮掩的内容，从而减低语言模型建模难度。而WWM（whole word masking）将“模型”两字均遮掩掉，可以促进模型整体建模这个词汇，促进长距离依赖的建模。

语法改错任务

论文在中文语法改错任务上展开了任务探索。具体而言，可以分为替换和插入两个任务。如下图所示。替换任务中，给定句子和需要替换的语段，模型生成替换内容以构成通顺语句；插入任务中，给定句子，插入点与插入长度，模型生成插入内容以形成通顺的语句。

实验结果

实验结果如下图所示。其中，Ours的三个模型是该论文作者自己从头预训练的三个模型，用以公平比较。-clm仅使用字级别掩码预测，-wwm使用整词掩码预测，-clm-wwm同时使用两种掩码预测方式。

从中可以看出，在长度为1时，即对单字进行补充或替换，clm具有明显的优势。而随着需要替换的长度增加，wwm的优势更为明显。整体而言，看average的结果，clm和wwm同时使用可以取得更好的表现。

而在下游任务上的实验表明，同时使用clm与wwm，在几种预训练设置下，都能在下游任务上取得和wwm相当的表现。

总结

整体而言，这篇文章其实比较tricky。选择语法改错中按字插入、替换这种任务，字级别语言建模任务自然可以取得更好的表现。因为字级别遮掩能够促进模型建模词内的依赖关系。

这种因地制宜，因材炼丹的思想是有价值的。在做具体任务的时候，必然要考虑具体任务的特点。不会有一种方法简单有效又能通吃所有任务的。

当然，因地制宜选择预训练任务肯定是最合适的，但如果拿不准的话，wwm+clm可能是一种更稳妥的选择。

类似的思想，还有一些字词多粒度预训练语言模型，如AMBERT[2]，LatticeBERT[3]等，通过在预训练输入中将字词同时考虑进去，以提升下游任务表现。

大数据文摘授权转载自夕小瑶的卖萌屋

作者：python

掩码语言模型与整词遮掩

语法改错任务

推荐内容

别再无脑wwm了！在下游任务中不一定有效！

爱立信一季度净销售额551亿瑞典克朗超预期，网络业务持续增长

Digitalπ专访｜打造赛道首只独角兽，我们第一时间和奇点云、GrowingIO CEO们聊了聊

【见多识广】一分钟，带你了解虚拟现实(VR)的原理

花点时间签约虚拟偶像阿喜：什么是年轻人的鲜花“时尚”？

标贝科技数据业务体系全面升级 致力于构建最安全的数据工场

“免费”ERP真不免费

知乎回港二次上市：今日资本、李开复等套现11亿，腾讯成为第一大股东

SaaS公司都在谈增长，那为什么真正增长的公司，却少之又少？

卫瓴CRM怎么样？卫瓴CRM好用吗？评价如何？

Pixso设计软件怎么样好用吗？万兴科技Pixso多少钱一年？产品服务怎么样？

2022年，还要谈“大数据”吗？

一个超级好用、高效、免费的团队协作软件！！！

2022年中国国内教育考试网站排行榜：北京上榜网站最多，新浪的教育频道百度权重最高（附热榜TOP100详单）

扫描2022分布式存储峰会，浪潮、新华三、中国电信有何高见？

专访快盘科技COO：云游戏核心是解决业务问题，云微端创造行业价值

知乎回港二次上市：今日资本、李开复等套现11亿，腾讯成为第一大股东

网龙CEO熊立：我们为什么必须转变成元宇宙组织形态 | 元宇宙100人

别了，“鹅组”！

Oracle OCI安全合规为企业全球化部署打造

何以解忧，专业服务品质解决企业海外拓展难题

物联网应用场景在那些方面？

现阶段的人脸识别技术，真的靠谱吗？

二十年的好日子到头了？互联网巨头在新业态下走向何方

国风不止，看科技出圈“新国潮”

LVMH一季度营业收入180亿欧元，同比增长29%

【新闻资讯】打通线上服务渠道、增强末端配送能力…多家互联网企业驰援上海保供

创世云通过CMMI3级认证

周杰伦藏品被盗，NFT满地伤

二论数据中台选型 ｜ 为啥中国这条跑道里跑不出大的创业公司

瑞幸又回来了，星巴克还在攻城略地

4200万！联通中标智慧停车二期项目！一期厂家是移动！

联通孤岛勇士毅然选择“登岛封闭”！只为国际海缆毫发无损！确保全球互联网畅通无阻！

保持高质量增长 科大讯飞2021年扣非净利润同比增长27.5％

英特尔中国研究院“双轮驱动，融合创新”解锁智能发展新机遇

远程科技初创公司Grain完成1600万美元A轮融资，整合视频会议价值

美财长耶伦演讲全文：以美元地位为核心看待数字资产监管

微信农场能拯救朋友圈的“中年危机”吗？

美图秀秀，“变美”的生意不好做

建筑经营管理：协同“筑”力 解锁经“赢”密码

元宇宙办公的未来：突破职场次元壁，重塑的不只是组织形态

迁移学习前沿探究探讨：低资源、领域泛化与安全迁移

Nature长文：打破AI黑盒的“持久战”

科普 | 什么是去中心化的数字身份

什么叫真正的元宇宙级别虚拟数字人?

虚实共生-AR在数字化转型中的应用实践丨春芽「锌」生演讲实录

双重上市，知乎的退守

跨越七大洲，奔向外太空，亚马逊云服务已是无处不在

半年被骗十几万，数字藏品是暴富神话还是巨大骗局？

谁能“取代”豆瓣？

主流空调品牌推出双向流新风空调，这是为什么呢？

爱立信一季度净销售额551亿瑞典克朗超预期，网络业务持续增长

图书加速奔向直播间

山姆给沃尔玛回了血，谁来拯救家乐福永辉麦德龙？

别再无脑wwm了！在下游任务中不一定有效！

知乎这座城，差一点伟大

自动驾驶，李彦宏的挣扎与不甘

花点时间签约虚拟偶像阿喜：什么是年轻人的鲜花“时尚”？

Digitalπ专访｜打造赛道首只独角兽，我们第一时间和奇点云、GrowingIO CEO们聊了聊

“免费”ERP真不免费

融资丨「浩微生物」完成数千万元Pre-A轮融资，红杉中国领投

融资丨「迈邦生物」完成亿元B轮融资，高科新浚领投

【见多识广】一分钟，带你了解虚拟现实(VR)的原理

标贝科技数据业务体系全面升级 致力于构建最安全的数据工场

上海停摆一月，2500万种挣扎、自救与互助

物理课后，是张朝阳的心魔斗争

卫瓴CRM怎么样？卫瓴CRM好用吗？评价如何？

Pixso设计软件怎么样好用吗？万兴科技Pixso多少钱一年？产品服务怎么样？

抠门年轻人，沉迷“二手生活”

知乎回港二次上市：今日资本、李开复等套现11亿，腾讯成为第一大股东

SaaS公司都在谈增长，那为什么真正增长的公司，却少之又少？

冲进网文搞钱的年轻人：报培训班、脑补恋爱、收入为零

2022年，还要谈“大数据”吗？

新消费品牌为什么热衷联名？

专访快盘科技COO：云游戏核心是解决业务问题，云微端创造行业价值

标贝科技数据业务体系全面升级致力于构建最安全的数据工场

二论数据中台选型｜为啥中国这条跑道里跑不出大的创业公司

保持高质量增长科大讯飞2021年扣非净利润同比增长27.5％

建筑经营管理：协同“筑”力解锁经“赢”密码

标贝科技数据业务体系全面升级致力于构建最安全的数据工场

二论数据中台选型｜为啥中国这条跑道里跑不出大的创业公司

保持高质量增长科大讯飞2021年扣非净利润同比增长27.5％

建筑经营管理：协同“筑”力解锁经“赢”密码