谷歌在2019年的Google I/O大会上首次推出了实时字幕(Live Caption)功能。这项被低估的无障碍功能可以为设备中播放的任何语音生成字幕。尽管功能本身相当实用,但屏幕上的简单文本却难以准确表现场景音频中的情绪和强度。现在,谷歌通过表现字幕(Expressive Captions)对实时字幕进行了升级,利用AI捕捉语音和声音的情感强度,并以文本形式展现出来。
谷歌将在美国推出表现字幕,支持运行Android 14及以上系统且已启用实时字幕功能的安卓设备。
表现字幕通过AI捕捉语调、音量、环境提示以及人类发出的声音。尽管这些看似是微不足道的细节,但它们在超越普通文字传递信息方面起到了重要作用。通过个性化的字幕和标注,表现字幕更加贴近音频的生动表现。
表现字幕为实时字幕新增了以下功能:
- 全大写文字:字幕将用大写字母反映语音的情绪强度。例如,当朋友兴奋地祝你“HAPPY BIRTHDAY!”时,你将看到其情绪,而不仅仅是普通的“Happy birthday!”
- 声音标注:字幕现在可以识别更多的声音,如叹气、咕哝和喘气,为用户传递重要的语调信息。
- 环境声音:前景和背景中的额外声音,如掌声和欢呼声,也将被标注,从而更全面地展示环境中发生的情况。
由于表现字幕是实时字幕的一部分,因此它适用于手机上的各种应用程序。无论是直播、社交媒体帖子还是来自亲友的视频消息,你都可以使用表现字幕。实时字幕和表现字幕均在设备上实时生成,即使在飞行模式下也可以使用。