随着人工智能技术的成熟,人机交互已经渗透到生活的方方面面。其中,语音是最常见的交互方式。对于机器的声音输出而言,主要包括两种方法:一种是事先录制好音频,然后根据用户指令,播放音频,以有声阅读、影视配音为主;另外一种则是通过语音合成技术,将文本转化为语音,以智能客服、智能设备交互为主。

在大多数情况下,录制好的音频经过人为加工,对发音、语速、音量、情感等细节进行调整,整体效果优于直接通过语音合成转化的情况。

但是,由于音频剪辑工作量大难以保证效率,而且是提前录制好内容,如果内容有变还需要重新录制,灵活性较差。而动态输出、按需定制正是语音合成的强大之处。那么,如何让语音合成拥有音频剪辑的效果,如何让合成后的音色更具有生动的表现力呢?

近日,标贝科技上线SSML标记语言能力 ,通过 SSML标签创造自然、高质量的 音色效果,实现内容的生动化表达, 能够让合成音色的情感表现力更加细腻可控。

SSML,让语音合成更精准自然

SSML,即语音合成标记 语言,是一种基 于XML的标记语言。与纯文本相比,它的主要功能是为语音合成用户提供一种标准方法,开发者可利用其控制合成语音的输出特性,为最终合成效果带来更多变化,以匹配更自然和场景化的说话方式。

标贝科技提供的SSML标记语言不仅能在音色、语速、音调、音量、文件类型、采样率、添加背景音乐等方面进行自由调节,还支持停顿时间、自定义文本结构、词组分词、读音更改、添加提示音、选择制定场景读法等个性化功能,适用于聊天机器人、有声读物、影视配音、游戏对话等多个场景。

常用标签包括:

—— 控制音量、音高和语速

—— 表明短语或单词所属的语言

—— 停顿时间

—— 自定义文本结构

—— 别名

—— 词组分词

—— 读音更改

—— 添加提示音

—— 选择指定场景读法

例如,对于一串邮编“100192”来说,正确的情景下,应该是一个数字、一个数字的发音,但是基于纯文本的TTS下,无法区分这是邮编还是代表数量的数字,有可能会读成 “十万零一百九十二”或者 “一、零、零、一、九、二”。

标贝 科技语音合成能力 在SSML的 加持下,可以让开发者在文字中添加语境,进一步对 音高、语速、 重音、停顿、音量和发音进行编程,以便系统能够充分理解上下文,输出符合语境的语音内容,对于上文的这串号码到底是读成数量还是纯数字就很容易区分了。没有任何编程或SSML标签经验的开发者也可以通过标贝开放平台使用这一功能。

定制化语音合成,满足更多场景需求

近两年,在疫情影响以及产业数字化需求拉动下,我国智能语音市场规模持续扩张,据中国语音产业联盟发布《2020-2021中国智能语音产业发展白皮书》显示,预计2021年市场规模达到285亿元,同比增速达到44%。市场上的智能语音产品层出不穷,对于语音合成的需求也越来越多样化。

作为行业领先的智能语音交互与AI数据服务提供商,标贝科技致力于智能语音技术的创新研发和商业化应用,已经推出多音色、多语种、多场景的在线、离线语音合成服务,凭借自然流畅的韵律、丰富的音色层次感和多维情感表现力等优势,充分满足企业和个人用户多样化声音生产需求。

随着市场对更仿真、更悦耳的声音需求,标贝科技基于核心的深度神经网络技术模型,创新打造了情感合成、声音转换、声音复刻等个性化声音定制方案,帮助加速语音产品的落地。

例如, 针对智能客服场景 ,标贝科技推出智能外呼方案,为客户提供实时语音导航、自动外呼、销售辅助等服务,有效提升客服坐席人员的工作效率与服务质量。 在融媒体领域 ,标贝科技推出新媒体音视频解决方案,完成新闻男、女音色及语音合成技术研发,并在人民日报客户端和小程序FM端成功上线应用。 在AI教育层面 ,标贝科技运用声音复刻技术助力中国银行在手机银行APP“中银乐知”教育专区上线亲子陪伴产品“BOBO留声机”,打造智能化的儿童成长服务体验。

此次标贝科技SSML标记语言功能的上线,不仅能够快速实现通用情况下的文字到音频的转换,同时针对情感多变、晦涩难懂的长文本,也能智能、精准的完成转化,进一步优化用户体验,将助力开发者实现更多个性化语音方案的落地。

推荐内容