转自 | 机器之心

作者|腾讯游戏知几AI团队,西北工业大学音频、语音与语言处理研究组(ASLP@NPU)

【导读】 近日,腾讯游戏知几AI团队与西工大ASLP组联合发布了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。

WenetSpeech [4] 是由西工大音频、语音和语言处理研究组 (ASLP@NPU)、出门问问、希尔贝壳联合发布的 1 万多小时多领域语音数据集。 为了弥补中文语音预训练模型的空缺,我们开源了基于 WenetSpeech 1 万小时数据训练的中文版 Wav2vec 2.0 和 HuBERT 模型。

为了验证预训练模型的性能,我们在 ASR 任务进行了验证。实验结果表明,在 100 小时有监督数据 ASR 任务上,预训练模型学到的语音表征相对于传统声学 FBank 特征有显著的性能提升,甚至仅用 100 小时有监督数据能够得到和 1000 小时有监督数据可比的结果。

模型链接:https://github.com/TencentGameMate/chinese_speech_pretrain

模型介绍

Wav2vec 2.0 模型

图 1: Wav2vec 2.0 模型结构 (Baevski et al., 2020)

Wav2vec 2.0 [1] 是 Meta 在 2020 年发表的无监督语音预训练模型。它的核心思想是通过向量量化(Vector Quantization,VQ)构造自建监督训练目标,对输入做大量掩码后利用对比学习损失函数进行训练。模型结构如上图 1,基于卷积网络(Convoluational Neural Network,CNN)的特征提取器将原始音频编码为帧特征序列,通过 VQ 模块把每帧特征转变为离散特征 Q,并作为自监督目标。同时,帧特征序列做掩码操作后进入 Transformer [5] 模型得到上下文表示 C。最后通过对比学习损失函数,拉近掩码位置的上下文表示与对应的离散特征 q 的距离,即正样本对。

原论文中,Wav2vec 2.0 BASE 模型采用 12 层的 Transformer 结构,用 1000 小时的 LibriSpeech 数据进行训练,LARGE 模型则采用 24 层 Transformer 结构,用 6 万小时的 Libri-light 数据训练。训练时间方面,BASE 模型使用 64 块 V100 显卡训练 1.6 天,LARGE 使用 128 块 V100 显卡训练 5 天。 在下游 ASR 评测中,即使只用 10 分钟的有监督数据,系统仍可得到 4.8 的词错误率(Word Error Rate, WER)结果。

HuBERT 模型

图 2: HuBERT 模型结构 (Hsu et al., 2021)

HuBERT [2] 是 Meta 在 2021 年发表的模型,模型结构类似 Wav2vec 2.0,不同的是训练方法。Wav2vec 2.0 是在训练时将语音特征离散化作为自监督目标,而 HuBERT 则通过在 MFCC 特征或 HuBERT 特征上做 K-means 聚类,得到训练目标。HuBERT 模型采用迭代训练的方式,BASE 模型第一次迭代在 MFCC 特征上做聚类,第二次迭代在第一次迭代得到的 HuBERT 模型的中间层特征上做聚类,LARGE 和 XLARGE 模型则用 BASE 模型的第二次迭代模型提取特征做聚类。从原始论文实验结果来看,HuBERT 模型效果要优于 Wav2vec 2.0,特别是下游任务有监督训练数据极少的情况,如 1 小时、10 分钟。

中文预训练模型

实验配置

我们使用 WenetSpeech [4] train_l 集的 1 万小时中文数据作为无监督预训练数据。数据主要来源于 YouTube 和 Podcast,覆盖了各种类型录制场景、背景噪声、说话方式等,其领域主要包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等 10 大场景。我们基于 Fairseq 工具包 [6] 分别训练了 Wav2vec 2.0 和 HuBERT 模型,遵循 [1,2] 的模型配置,每个预训练模型模型包括 BASE 和 LARGE 两种大小。对于 BASE 模型,我们使用 8 张 A100 显卡,梯度累计为 8,模拟 64 张显卡进行训练。对于 LARGE 模型,我们使用 16 张 A100 显卡,梯度累计为 8,模拟 128 张显卡进行训练。

下游语音识别任务验证

为了验证预训练模型在下游 ASR 任务的效果,我们遵循 ESPnet [7,8,9] 工具包中的 Conformer [10] 模型实验配置,即将预训练模型作为特征提取器,对于输入语音提取预训练模型各隐层表征进行加权求和,得到的语音表征将替换传统 FBank 特征作为 Conformer ASR 模型的输入。

Aishell 数据集

我们使用 Aishell 178 小时训练集作为有监督数据进行训练,分别对比了使用 FBank 特征、Wav2vec 2.0 BASE/LARGE 模型特征和 HuBERT BASE/LARGE 模型特征的字错误率 (Character Error Rate, CER) 结果。同时,我们额外对比了使用 WenetSpeech train_l 集 1 万小时中文数据进行训练时,其在 Aishell 测试集上的效果。训练数据使用了变速(0.9、1.0、1.1 倍)和 SpecAugment 数据增广技术,解码方式为 beam search,使用了基于 Transformer 的语言模型进行 rescoring。

表 1:不同模型在 Aishell 测试集上的字错误率(CER%)结果

根据表 1 结果可以看到,通过结合上万小时无监督数据训练的预训练模型,下游 ASR 任务效果均有显著提升。尤其是使用 HuBERT LARGE 模型时,在 Test 集上得到约 30% 的 CER 相对提升,实现了目前在 178h 有监督训练数据下业界最好结果。

WenetSpeech 数据集

我们使用 WenetSpeech train_s 集 100 小时中文数据作为有监督数据进行训练,分别对比了使用 FBank 特征、Wav2vec 2.0 BASE/LARGE 模型特征和 HuBERT BASE/LARGE 模型特征的字错误率 (Character Error Rate, CER) 结果。同时,我们额外对比了使用 WenetSpeech train_m 集 1000 小时和 train_l 集 1 万小时中文数据 FBank 特征训练的模型结果。训练数据没有使用变速或 SpecAugment 数据增广技术,解码方式为 beam search,没有使用语言模型 rescoring。

表 2:不同模型在 WenetSpeech 测试集上的字错误率(CER%)结果

根据表 2 结果可以看到,通过结合上万小时无监督数据训练的预训练模型,下游 ASR 结果得到了巨大提升。尤其当使用 HuBERT LARGE 作为语音表征提取器时,使用 100 小时有监督数据训练的 ASR 模型要比 1000 小时基于 FBank 特征训练的模型效果要好,甚至接近 1 万小时数据训练的模型。

更多语音下游任务实验结果请关注 GitHub 链接(https://github.com/TencentGameMate/chinese_speech_pretrain)。欢迎大家使用我们提供的中文语音预训练模型开展研究工作,一起探索语音预训练模型在中文和相关众多场景下的应用。

推荐内容

  • 找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品

  • PTC数字化转型顾问高谊:数字孪生概念的物联网实践

  • 阿里云研究院院长肖利华:数智化敏捷组织——重构升级与进化

  • 验收!用友BIP助力中能汽轮破解“边设计边生产”难题

  • 谁在押注Web3?

  • 硬核阅读|XR时代需要什么样的操作系统?

  • 九乐观点|整体系统地认识网络安全与发展

  • 沃音乐副总经理庞文刚:5G AI影像助力垂直行业数字化转型

  • 大厂“被迫”造字简史

  • 空间资源和时间资源

  • 淘金乡村振兴,区块链技术如何赋能

  • 从元宇宙里看AR

  • 玩家被封号起诉LOL遭驳回;App Store应用须提供账号注销 | 一周说「法」

  • 为啥受伤的总是“老铁”  快手的钱还能烧多久?
    为啥受伤的总是“老铁” 快手的钱还能烧多久?

  • 苹果计划在6月底将第一代iPadPro添加到过时机型
    苹果计划在6月底将第一代iPadPro添加到过时机型

  • 研究发现:汽车废塑料将变成石墨烯
    研究发现:汽车废塑料将变成石墨烯

  • 工业和信息化部:工业互联网赋能数字化转型加速深化
    工业和信息化部:工业互联网赋能数字化转型加速深化

  • 蝉联全球第一!天马微电子发布2022年一季度面板出货排名
    蝉联全球第一!天马微电子发布2022年一季度面板出货排名

  • 三星电子将在美国建第二座芯片代工厂有望下月正式动工
    三星电子将在美国建第二座芯片代工厂有望下月正式动工

  • 谷歌:计划将印度电子商务网络整合 试图终结亚马逊和沃尔玛主导地位
    谷歌:计划将印度电子商务网络整合 试图终结亚马逊和沃尔玛主导地位

  • 剃刀VS脱毛膏低成本脱毛靠谱吗?用过的人才知道
    剃刀VS脱毛膏低成本脱毛靠谱吗?用过的人才知道

  • 山东实现20户以上自然村4G网络覆盖  惠及全省16市
    山东实现20户以上自然村4G网络覆盖 惠及全省16市

  • 信通院:2022年1-4月国内手机出货量累计8742.5万部
    信通院:2022年1-4月国内手机出货量累计8742.5万部

  • 【义乌·中国小商品指数】上周市场客流增速放缓
    【义乌·中国小商品指数】上周市场客流增速放缓

  • 小米一季度营收733.5亿元  手机业务遭遇严峻考验
    小米一季度营收733.5亿元 手机业务遭遇严峻考验

  • 一个顶流虚拟偶像的退圈风波

  • 李飞飞团队提出零样本泛化的技术,性能超越SOTA!

  • 钉钉“贪财”出下策

  • 盘点海外电竞与数据行业超百起合作:8家机构案例最多,定制数据分析为主要诉求

  • 好运的李檬,难讲天下秀新故事

  • 冰峰饮料申请撤回申报材料   2020年四款产品销量2.92亿瓶
    冰峰饮料申请撤回申报材料 2020年四款产品销量2.92亿瓶

  • TECH数字中国技术年会|生态各界伙伴这样说…….mp4

  • 祝象寻科技早日倒闭!技术团队被曝要求20天做出app集体开除

  • 京东科技赴港上市被拒,或因白条金条是主营

  • 2022,均值回归

  • 百度ESG报告:维护网络生态健康,去年拦截恶意信息560亿次

  • 互联网大航海,泛娱乐社交借东风

  • AI时代办公模式迁移:从人找知识到知识找人

  • 百度ESG报告:维护网络生态健康,2021年拦截恶意信息560亿次

  • 虚拟偶像女团A-SOUL塌房,字节跳动血汗工厂?

  • 微软IE浏览器“衰败记”:昔日浏览器霸主为何衰败?

  • DeepMind「通才」AI智能体Gato来了,多模态、多任务,受大语言模型启发

  • 以全系列产品应对多样化需求 亚马逊云科技在数据库市场强势崛起

  • A-SOUL塌房!虚拟偶像不败人设,为何破防?

  • 虚拟偶像「休眠」,字节黄粱梦醒

  • 20家中广电移动分公司已完成注册!

  • 元宇宙大火,AR/VR重新复活,泡沫经济还是科技变革?

  • 网易上线“视频版知乎”,但第一批用户已经离开了

  • 罗永浩离职十六年,俞敏洪终于后悔了

  • 为防诈骗,多地运营商选择关闭接收国际短信……

  • 找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了,腾讯游戏知几AI团队和西工大ASLP组联合出品

  • 气泡水的战场:国产饮料如何突围?

  • 吉利成功发射卫星;威马冲击港股IPO;特斯拉被美国监管机构要求就刹车问题做出回应|每周撩车

  • 一夜跌去740亿美元   特斯拉裁员警报拉响
    一夜跌去740亿美元 特斯拉裁员警报拉响

  • 谁在押注Web3?

  • PTC数字化转型顾问高谊:数字孪生概念的物联网实践

  • 验收!用友BIP助力中能汽轮破解“边设计边生产”难题

  • 阿里云研究院院长肖利华:数智化敏捷组织——重构升级与进化

  • 抖音的货架电商梦:将升级到全域兴趣电商  重点覆盖商城和搜索
    抖音的货架电商梦:将升级到全域兴趣电商 重点覆盖商城和搜索

  • 硬核阅读|XR时代需要什么样的操作系统?

  • 九乐观点|整体系统地认识网络安全与发展

  • 融资丨合成生物技术企业「衍微科技」获5千万元首轮融资

  • 沃音乐副总经理庞文刚:5G AI影像助力垂直行业数字化转型

  • 淘金乡村振兴,区块链技术如何赋能

  • 融资丨「湃道智能」获数千万美元A轮和A+轮融资,将拓展更多工业安全细分场景

  • 空间资源和时间资源

  • 玩家被封号起诉LOL遭驳回;App Store应用须提供账号注销 | 一周说「法」

  • 大厂“被迫”造字简史

  • 融资丨工业智能服务商「清云智通」连续完成高瓴创投、中石化资本领投两轮融资

  • 爱奇艺盈利,长视频有救?

  • 从元宇宙里看AR

  • 融资丨「疆程技术」获数千万战略投资,加速推进AR-HUD大规模前装量产

  • 融资丨「太蓝新能源」获数亿元A++轮融资,首条半固态锂电池产线将投产

  • 新思科技正式推出全新DesignDash设计优化解决方案
    新思科技正式推出全新DesignDash设计优化解决方案

  • 谷歌推出开放式芯片设计项目  普通人也可以设计自己的芯片
    谷歌推出开放式芯片设计项目 普通人也可以设计自己的芯片

  • 英特尔将投资4亿欧元打造zettascale超级计算中心
    英特尔将投资4亿欧元打造zettascale超级计算中心

  • 因芯片短缺,标致雪铁龙与菲亚特克莱斯勒合并完成
    因芯片短缺,标致雪铁龙与菲亚特克莱斯勒合并完成

  • 为啥受伤的总是“老铁”  快手的钱还能烧多久?
    为啥受伤的总是“老铁” 快手的钱还能烧多久?

  • 三星电子副会长李在镕有望前往日本  6月份将前往半导体领域
    三星电子副会长李在镕有望前往日本 6月份将前往半导体领域

  • 1173亿新台币!联发科2021年每股分红73元
    1173亿新台币!联发科2021年每股分红73元

  • 索尔思光电出货超200万只高速EML激光芯片
    索尔思光电出货超200万只高速EML激光芯片

  • 工信部:移动互联网应用程序(App)未完成整改
    工信部:移动互联网应用程序(App)未完成整改

  • 苹果、英特尔、高通、联发科占据2021年平板电脑AP营收份额
    苹果、英特尔、高通、联发科占据2021年平板电脑AP营收份额

  • 苹果计划在6月底将第一代iPadPro添加到过时机型
    苹果计划在6月底将第一代iPadPro添加到过时机型

  • 印度社交媒体公司获近3亿美元融资估值高达50亿美元
    印度社交媒体公司获近3亿美元融资估值高达50亿美元

  • 1070亿美元!2022年全球晶圆设备支出将再创历史新高
    1070亿美元!2022年全球晶圆设备支出将再创历史新高

  • 研究发现:汽车废塑料将变成石墨烯
    研究发现:汽车废塑料将变成石墨烯

  • 教育部:加快储能和氢能学科专业建设放在双碳领域首位
    教育部:加快储能和氢能学科专业建设放在双碳领域首位

  • 微软移除小部件功能后  桌面上出现新搜索栏
    微软移除小部件功能后 桌面上出现新搜索栏

  • 微软开发“恢复应用程序”新功能:点击一下就恢复已被删除的程序
    微软开发“恢复应用程序”新功能:点击一下就恢复已被删除的程序

  • EdgeCanary频道最新版本中引入了一项生产力功能
    EdgeCanary频道最新版本中引入了一项生产力功能

  • 麻省理工学院新研究:用AI控制自主车辆的速度
    麻省理工学院新研究:用AI控制自主车辆的速度

  • 可转债下修转股价是特大利好  如今却喜忧参半?
    可转债下修转股价是特大利好 如今却喜忧参半?

  • 银行数字藏品玩“时尚”  “黄牛”盯上了蛋糕
    银行数字藏品玩“时尚” “黄牛”盯上了蛋糕

  • 微软将推出亚马逊AppStore 使用终端侧载应用
    微软将推出亚马逊AppStore 使用终端侧载应用

  • 国轩高科宣布三元半固态电池装车应用
    国轩高科宣布三元半固态电池装车应用

  • 工业和信息化部:工业互联网赋能数字化转型加速深化
    工业和信息化部:工业互联网赋能数字化转型加速深化

  • 蝉联全球第一!天马微电子发布2022年一季度面板出货排名
    蝉联全球第一!天马微电子发布2022年一季度面板出货排名

  • 台积电在美面临巨大挑战  斥资120亿美元扩建芯片工厂
    台积电在美面临巨大挑战 斥资120亿美元扩建芯片工厂

  • 12年后全球光模块供应商TOP10排名公布!华为思科上榜
    12年后全球光模块供应商TOP10排名公布!华为思科上榜

  • 三星电子将在美国建第二座芯片代工厂有望下月正式动工
    三星电子将在美国建第二座芯片代工厂有望下月正式动工

  • 192号段放号即将开启?中国广电192手机号段预计年中开启
    192号段放号即将开启?中国广电192手机号段预计年中开启

  • 微软发现严重漏洞:下载数百万次应用商店,波及预装程序
    微软发现严重漏洞:下载数百万次应用商店,波及预装程序

  • 爱立信再次被UScellular选中2023年底之前实现商用
    爱立信再次被UScellular选中2023年底之前实现商用

  • 谷歌:计划将印度电子商务网络整合 试图终结亚马逊和沃尔玛主导地位
    谷歌:计划将印度电子商务网络整合 试图终结亚马逊和沃尔玛主导地位

  • 剃刀VS脱毛膏低成本脱毛靠谱吗?用过的人才知道
    剃刀VS脱毛膏低成本脱毛靠谱吗?用过的人才知道

  • “套购”模式受消费者青睐  苏宁易购打造618套系家电首选平台
    “套购”模式受消费者青睐 苏宁易购打造618套系家电首选平台

  • 以旧焕新!中国家用电器协会发布《倡议》
    以旧焕新!中国家用电器协会发布《倡议》

  • 废旧家电回收处理体系如何破解?
    废旧家电回收处理体系如何破解?

  • 3700亿市值的家电巨头入主 市场情绪反应热烈
    3700亿市值的家电巨头入主 市场情绪反应热烈

  • 阿里巴巴公布2022财年业绩:净利润1363.88亿元
    阿里巴巴公布2022财年业绩:净利润1363.88亿元

  • 京东物流:完成关连交易  扩大发行股本约3.96%
    京东物流:完成关连交易 扩大发行股本约3.96%

  • 百度发布第一季度财报:营收284.11亿元  净利润超预期
    百度发布第一季度财报:营收284.11亿元 净利润超预期

  • 苹果表示计划在2022年生产2.2亿部 iPhone手机  与去年数字持平
    苹果表示计划在2022年生产2.2亿部 iPhone手机 与去年数字持平

  • 技嘉推出新主板:25毫米M.2SSD主板
    技嘉推出新主板:25毫米M.2SSD主板

  • 外媒:京东方更改OLED面板设计,不太可能被苹果踢出供应链
    外媒:京东方更改OLED面板设计,不太可能被苹果踢出供应链

  • 知乎一季度净亏损3.674亿元,超越线上广告业务
    知乎一季度净亏损3.674亿元,超越线上广告业务

  • 微软证实Windows11应用商店将允许用户下载第三方小部件
    微软证实Windows11应用商店将允许用户下载第三方小部件

  • 博通610亿美元收购云服务、虚拟机大厂
    博通610亿美元收购云服务、虚拟机大厂

  • 山东实现20户以上自然村4G网络覆盖  惠及全省16市
    山东实现20户以上自然村4G网络覆盖 惠及全省16市

  • 华盛顿地铁站首次亮相为视障人士扩展旅行路线
    华盛顿地铁站首次亮相为视障人士扩展旅行路线

  • 外媒:芯片短缺状况已开始改善  但仍可持续至少18个月
    外媒:芯片短缺状况已开始改善 但仍可持续至少18个月

  • 亨通光电举办线上业绩说明会,2022年光通信业务有望较快增长
    亨通光电举办线上业绩说明会,2022年光通信业务有望较快增长

  • Canalys:2022年第一季度北美智能手机市场出货量出炉
    Canalys:2022年第一季度北美智能手机市场出货量出炉

  • 信通院:2022年1-4月国内手机出货量累计8742.5万部
    信通院:2022年1-4月国内手机出货量累计8742.5万部

  • 快手科技:一季度总收入同比增长23.8%至211亿元
    快手科技:一季度总收入同比增长23.8%至211亿元

  • 信用卡代还1万收费几百元?“中间商”怂恿“小白”套现
    信用卡代还1万收费几百元?“中间商”怂恿“小白”套现

  • 国家发展改革委:煤炭领域经营者哄抬价格行为将依法查处
    国家发展改革委:煤炭领域经营者哄抬价格行为将依法查处

  • 唯美L&D春夏新品 | 触摸符合人与空间的质感材料
    唯美L&D春夏新品 | 触摸符合人与空间的质感材料

  • 【义乌·中国小商品指数】上周市场客流增速放缓
    【义乌·中国小商品指数】上周市场客流增速放缓

  • 安卓手机市场持续衰退小米、vivo、OPPO已通知供应商
    安卓手机市场持续衰退小米、vivo、OPPO已通知供应商

  • 微软宣布多项工具和数据集开源  用于审计AI驱动的内容审核系统
    微软宣布多项工具和数据集开源 用于审计AI驱动的内容审核系统

  • 微软开源多项工具和数据集审计AI驱动的内容审核系统
    微软开源多项工具和数据集审计AI驱动的内容审核系统

  • 博通开始与软件集团VMware洽谈收购事宜
    博通开始与软件集团VMware洽谈收购事宜

  • 庞巴迪揭开最新型Global8000公务机的面纱
    庞巴迪揭开最新型Global8000公务机的面纱

  • 三星宣布450万亿韩元投资  未来5年将投在这些领域
    三星宣布450万亿韩元投资 未来5年将投在这些领域

  • 中国联通:2022年10GPON设备烽火和贝尔部分中标
    中国联通:2022年10GPON设备烽火和贝尔部分中标

  • 声网一季度营收3859万美元  全球活跃客户数量达2706个
    声网一季度营收3859万美元 全球活跃客户数量达2706个

  • 高通宣布维持多晶圆厂合作策略   包括台积电与三星
    高通宣布维持多晶圆厂合作策略 包括台积电与三星

  • 室内定位市场规模扩大  华为发布首个商用方案
    室内定位市场规模扩大 华为发布首个商用方案

  • 小米一季度营收733.5亿元  手机业务遭遇严峻考验
    小米一季度营收733.5亿元 手机业务遭遇严峻考验

  • AMD宣布锐龙7000处理器  升级5nmZen4架构
    AMD宣布锐龙7000处理器 升级5nmZen4架构

  • 群联携手AMD与Micron共建PCIeGen5生态
    群联携手AMD与Micron共建PCIeGen5生态

  • 供应链:苹果正在要求富士康为iPhone14做准备
    供应链:苹果正在要求富士康为iPhone14做准备

  • 升级到iOS15.5的用户注意了  苹果已关闭系统验证通道
    升级到iOS15.5的用户注意了 苹果已关闭系统验证通道

  • 微软正在不遗余力的提高Windows11的用户体验
    微软正在不遗余力的提高Windows11的用户体验

  • 苹果与LGInnotek合作生产自拍相机  将由韩国供应商承担
    苹果与LGInnotek合作生产自拍相机 将由韩国供应商承担

  • 微软主管:Windows11的质量得分是最高的
    微软主管:Windows11的质量得分是最高的

  • 华硕X670-PWIFI设计图曝光,将推出新平台
    华硕X670-PWIFI设计图曝光,将推出新平台

  • 苹果正在准备一台神秘的新
    苹果正在准备一台神秘的新"网络适配器":运行iOS2657