我们来到这个频道发现专门为哔哩哔哩听障人士推出的无障碍直播室
作者:宋元明清 来源:IT之家 发布时间:2021-10-15 15:20
直播延迟了几十秒,网友甚至说真香。
你没听错,这发生在像英雄联盟S11这样的全球赛事,延迟高达30秒。
要知道S11的观众是几千万,去年决赛同期观众最高的时候高达4595万对于像这样的顶级赛事,保证音画质量的低延迟应该是各大平台的基本操作,哪怕是一点点额外的延迟也是绝对不能容忍的
以前几天Dota2的直播为例,延迟15分钟。网友们愤怒了.
这次是S11直播,一个官方频道延迟了——秒。
这好像是大规模直播事故但我万万没想到的是,弹幕画的风格舒服真香
发生了什么事。
我们来到这个频道,发现这是专门为哔哩哔哩听障人士推出的无障碍直播室:
与常规直播间不同的是,这个直播间有AI实时字幕,解说词中提到的T1,poke等俚语基本都能正确显示赛后还会有手语解说,比常规直播间延迟几十秒
它已经被听力障碍的人使用。
事实上,这类直播字幕背后的AI实时语音识别技术已经得到了广泛应用包括油管的直播字幕,谷歌移动设备的视频字幕,微软PPT演讲的字幕,都属于这种技术
但是像这样留出无障碍直播空间的平台并不多要真正做一个无障碍的直播间,有什么比普通的实时字幕在技术上更特别
经过深入了解,我们发现它比我们想象的更难。
无障碍语音识别有什么特别之处。
在了解无障碍的特殊性之前,我们需要知道现场字幕是怎么来的。
从流程上看,实时字幕处于直播视频编解码的中间实时字幕是在视频编解码过程中,对音频进行快速语音识别,然后与视频一起输出的效果,整体上大概就是这样一个过程
短版本流程。
可见,视频本身需要经过编解码等传输过程,实时字幕制作处于编解码中间。
从技术角度来看,实时字幕使用语音识别,分为人工识别和自动语音识别。
此前,由于ASR的准确率无法提高,人工识别需要几分钟的延时,大型比赛的直播很少使用实时AI字幕。
最近几年来,伴随着AI技术的发展,越来越多的人使用自动语音识别ASR在视频中制作字幕,分为流式ASR和非流式ASR。
非流播是指输入整个语音,再次输出文本的结果,流是指像管道一样实时输出文本到文本的结果。
目前,流式ASR可以实现极快的输出,训练后可以达到很好的准确率,但同时也有很大的优化空间。
对于不同的直播,在选择语音识别方法时,主要考虑的是准确率和识别速度比如新闻直播更注重准确性,而娱乐直播事件更注重识别速度
但是,对于无障碍来说,赛事直播会有新的挑战。
由于听障人士无法快速建立音视频之间的联系,错字需要更多的反应时间,字幕的准确率也更高此外,转写的文字需要有一定的视觉流畅性,最后,活动直播的延迟不要太高
一方面,由于语音的停顿和音频分割的长度,目前流式ASR可以实现低延迟和基本的准确性,但往往会降低视觉阅读的流畅性。每一个字都会被人知道,停顿之后就看不懂了:
每个字都能读,但我听不懂。
另一方面,流式ASR模型需要满足一定长度的音频输入才能处理和输出单词,这非常依赖于语音速度和流畅性的稳定性。
例如,主持人通常在电子竞技团队战斗中或进球前夕说得很快,或者经常因为思考而断句,这可能会影响比赛
在这种情况下,如果直接输出流ASR语音识别的结果而不进行处理,就会出现空白字幕,频繁停顿或大爆发的输出。
为了让字幕流更稳定,准确度更高,哔哩哔哩在使用讯飞听力技术进行流媒体ASR识别时,选择整体延时无障碍直播间,保证阅读流畅,主要做了这些操作:
首先,哔哩哔哩专门梳理了与英雄联盟赛事相关的500个专属词汇,包括球队,球员,比赛区域,比赛英雄姓名,比赛术语,解说相关术语,S赛名句等。并将这些词连接到讯飞听力服务器,优化翻译结果,
其次,针对语速不稳定的问题,在文字处理部分,哔哩哔哩会根据阅读习惯,对流媒体ASR输出的文字进行自动换行,使其更符合用户的视觉理解,
第三,针对整体阅读体验,哔哩哔哩专门制作了辅助软件,进一步精简人工复习操作,进一步提高听障人士的字幕准确率.
这也解释了哔哩哔哩无障碍直播间出现轻微延迟的原因提升了字幕阅读体验
不止是实时语音识别技术。
事实上,这个电竞无障碍直播间不仅仅是语音技术服务。
比如现场手语。
哔哩哔哩邀请手语翻译代表韩清泉先生接受由他领导的专业翻译团队的协助他们将在结果广播和赛后采访期间提供实时手语翻译
此外,在每个比赛日,直播间还引入了观看助手,即手语教学内容超神,热血,门道,单身,辅助,经济等热门词汇被网友好奇的,之前都出现过
很多人认为之所以推出手语辅助功能,是因为语音转字幕会出错,而手语可以帮助理解。
其实还有更深层次的原因。
韩清泉老师
解释说,对于会手语的朋友而言,如果只有文字和手语两种交流方式可供选择,他们一定会毫不犹豫选择手语,因为用手语交流会有强烈的代入感通过这种方式,听障朋友们就能强烈感受到被这么多人关注着
至于大家很疑惑的为什么不是全程的手语直播事实上,手语也是有方言的像英雄联盟这类全球性的游戏赛事,要想全程手语直播,需要建立一套新的专有名词
现有的语音实时字幕虽然无法做到 100% 准确,但已经能满足大部分听障人士的理解需求。
2006 年全国第二次残疾人抽样调查显示,我国残疾性听力障碍人群达到 2780 万,而根据 2017 年北京听力协会预估,中国听障人士的数量已经达到 7200 万,这个数字仍在持续增长。
如今,B站为了照顾这当中一些赛事爱好者的观赛体验,专门开设无障碍直播间,引得不少网友纷纷点赞:
格局大了。
这次的无障碍我真的吹爆!虽然残障人士是少数人,但少数人也有享受一切的资格。
科技本身应该是无障碍的
放眼整个游戏行业的发展历程,B站这种对残障人士的关怀思考,其道不孤。
最知名的莫过于是 2018 年 9 月,微软推出的 Xbox 自适应手柄 ——Xbox Adaptive Controller。
30 厘米长的手柄上有两个大的可编程按钮和 19 个插孔,可连接到一系列的操纵杆,按钮和开关。
即便有些玩家对价格表示不满,因为这款手柄要 99 美元,比普通手柄高出 40 美元,但当时在业内却引起了不少的轰动以及好评。
B站知名游戏区 UP 主 —鸦—karas
那一年,这件产品还被时代周刊评为 50 大发明之一,并获得意大利电子游戏奖创新奖。
硬件的突破很吸引眼球,但软件上的支持也同样重要。
三大游戏厂商中的另两家索尼和任天堂,这几年也在软硬件改进上做了不少努力。
索尼早在设计 PS4 时,就做了许多针对障碍玩家的硬件优化和辅助功能。
例如,按钮可以重新编程,文本转语音,文本放大器等功能,都是针对肢体障碍,视障等群体的设计。
在某些需要 QTE的游戏中,玩家可以修改手柄按键功能,将反复点按换成长按不放,也能达到连续按键效果。
任天堂系列产品,也都包含了相应辅助功能,包括触觉和听觉反馈,灰度显示,运动控制,反转颜色等玩法,为有障碍的玩家拓宽了可玩游戏范围。
色盲人士看马里奥是这样的
去年,游戏届奥斯卡奖 The Game Awards还专门设立一项最佳无障碍创新奖,来鼓励游戏厂商们为残障玩家服务。
不止是产品中辅助功能的更新,现在,更多的科技公司开始关注到无障碍相关的技术研发。
比如,眼球追踪技术。
如 Tobii 公司的眼动仪,就允许玩家通过眼球移动来控制数字界面,也已经有更多产品支持这项技术,又如 Tribe Game 的推出的《超点》动作游戏,玩家就能通过眼球追踪技术,完成对整个游戏的操控:
还有众多企业押注的脑机接口技术。
无障碍游戏就是脑机接口核心应用场景之一它能让人们只通过意识就完成机械操控,文字输入等操作
不少科技公司对这项技术投入了研究,其中就包括 SteamG 胖表示,Steam 正在与开源脑机接口平台 OpenBCI 合作,共同开发一项脑机接口软件开源项目
可以明显看到,更多科技公司与平台在关注残障人群无障碍体验文娱服务这件事。
而且这个群体,确实不应被忽略。
以往我们多数人只是在电视新闻中看到有企业机构关注他们的现实生计,刚需,但细想一下,这些听障朋友的精神需求,同样是生活中重要一环。
所幸,这样的需求正在越来越被广泛关注。
除了最直接的影响 —— 对残障人士有益之外,科技走向无障碍本身还有更多额外价值。
对于他们来说,技术人员正在成为智能时代的扫盲僧。
如今,数字化智能化服务为大多数人带来便利,但始终存在这样一批被拦截在技术之外的失语者和局外人。
他们或是不同程度的残障人士,或是行动不便的老年人,又或是那些因为特殊原因不能享受科技福祉的少数群体。
但谁来扛起这个扫盲僧的责任 —— 将科技惠泽到更多群体呢。
如前所述,就是那些原本改变这一切的人,所谓的无障碍场景,正是技术人员的练兵场。
如何练兵该往哪个方向练兵
这就离不开扫盲僧的核心秘籍 —— 企业的以人为本价值观。
甚至从某种意义上说,这种价值观是最终实现的关键一环。
即使输出的产品功能再小,技术也不那么前沿,但只要能物尽其用,它所带来的价值就会更加长远。
这次B站是聚焦听障群体,下次也许就是视障群体,再下次可能就是老年用户 细想一下,一个平台最终不正是这么多小众用户共同组成的么
毕竟,科技本身就应该是无障碍的。
如果哪天,地球上不再存在什么失语者,局外人,技术无障碍的终极意义,也就真正实现了吧。