互联网

您的位置:主页 > 互联网 >

多维对话——走向视听融合的语音交互新体验研究‘沙皇国际官网’

发布日期:2021-01-21 17:46浏览次数:
本文摘要:语音交互、语音交互逐渐沦为表达人们意图、优先与设备沟通(Voice First)。与传统的交互相比,语音交互能使手和眼睛和平,人们能以低廉的成本与设备对话。另外,语音是多维的,除了语言本身的信息外,语言中还包含着非常丰富的感情,使人们能够与设备进行更多的对话。 语音交互也有局限性。语音交互所谓的可视化,更容易减少人们的记忆负担,想象语音搜索信息场景,你可能需要集中精力听,如果你不小心,你很有可能会错过更多的内容。

沙皇国际平台

语音交互、语音交互逐渐沦为表达人们意图、优先与设备沟通(Voice First)。与传统的交互相比,语音交互能使手和眼睛和平,人们能以低廉的成本与设备对话。另外,语音是多维的,除了语言本身的信息外,语言中还包含着非常丰富的感情,使人们能够与设备进行更多的对话。

语音交互也有局限性。语音交互所谓的可视化,更容易减少人们的记忆负担,想象语音搜索信息场景,你可能需要集中精力听,如果你不小心,你很有可能会错过更多的内容。因此,正如人工智能专家吴恩达所说,人和机器沟通的最有效方法是语言,机器和人最有效的沟通方式是给语言增加视角。也就是说,要以听力为基础,带来视觉信息,填补语音交互的严重不足。

从语音延伸到视觉,从语音交互中获取可视化信息已经是业界探索下一代语音交互范式的最重要趋势。(威廉莎士比亚、语音、语音、语音、语音、语音、语音、语音、语音、语音)以智能扬声器为例,除了马斯克林扬声器外,市场上经常出现带屏幕的扬声器。百度人工智能交互设计研究所目前以屏幕智能设备为研究对象,探索系统和内容输入链接的语音交互经验。考虑到屏幕大小差异会影响系统和内容输入体验,可以自由选择两种屏幕大小不同的设备,包括智能扬声器(7英寸)和智能电视(55英寸)。

本期的主要研究问题如下。1)有屏幕设备的指令屏幕对系统体验,主要是指用户输出语音命令后,文本命令的屏幕延迟时间和文本命令出现在屏幕上的适当时间。

2)屏幕设备内容输入所在的音量会妨碍体验,主要是指用户在特定场景(例如,听音乐/看视频)中插入其他操作(例如,查找百科全书)后,在输入其他内容时合理设置音量。第一,有屏幕设备的指令屏幕体验研究具有比没有屏幕的设备更丰富语音交互过程的系统形式。以语音识别阶段为例,在没有屏幕的设备上,用户通常不需要通知输出命令的识别结果。

屏幕设备必须在屏幕上显示说明的识别结果,用户可以像屏幕后面的说明一样轻松地确认识别结果的准确性或错误状态。可以听到周杰伦清华的人。(大卫亚设,Northern Exposure(美国电视连续剧),画面)但是现在很多设备在指示上没有延迟到一定程度,本实验正在对指示画面的合理延迟时间和呈现时间展开研究。

1.指令屏幕延迟时间实验是因为市面上的大部分屏幕设备都是动态屏幕方式,即用户在输出语音命令的同时,开始在屏幕上显示识别结果,所以这个实验只研究动态屏幕。在实验中,我们使用了将屏幕上传到动态稿的方式,并以控制第一个屏幕延迟时间为主要变量。(记录:第一个屏幕延迟时间是指从用户说话到第一个单词屏幕的时间间隔),我们设置了其他第一个字符延迟时间,提供了对指令的屏幕速度的用户满意度评价(5点指标:1-不太失望,2)实验中,我们收到了三个不同长度的指令。实验结果显示,第一个延迟时间越高,用户满意度越高,第一个延迟时间满意度随屏幕大小设备的不同而不同。

我们认为4-比较满意度是用户失望的最高分数,3-通常是用户可以拒绝的最高分数,设备之间用户失望和拒绝允许的屏幕时间如下:1)屏幕扬声器,用户2)智能电视,用户失望的第一个延迟时间为600-700毫秒左右,可接受的第一个延迟时间为1100-1200毫秒左右。市场上对其他设备的研究显示,部分设备的第一个屏幕时间远远超过用户失望的时间上限,少数人可以拒绝的上限。

关于命令画面速度,产品仍有改善和优化的空间。也就是说,语音识别自动语音识别(ASR)技术除了要大大提高识别精度外,还要注意提高识别速度指标。

2、命令画面显示时间实验除了命令画面时间外,还进一步对命令画面后合理的渲染时间进行研究,防止命令显示时间太短,导致用户看不清,或者时间太大,导致整个交互过程延迟。推迟验证。

(约翰肯尼迪,时间) (记录:文字显示时间是文字指示的最后一个单词登上屏幕后所有指示消失的时间间隔)实验中,我们将文字呈现时间作为主要变量。提供不同时间的用户满意度评价。因为语音识别涉及语言模型技术,所以实际命令画面不是原告的方式,所以这部分实验也以指示想看刘德华2010年之前主演的香港电影的方式模拟了一张一张地上传画面的方式。

只有在整个刘德华被认识后才能上传画面。(大卫亚设、Northern Exposure(美国电视剧)、Northern Exposure实验中,我们分别收到了长度不同的三个指示。实验结果显示,没有适合的文字上显示时间,屏幕大小设备之间适合的文字上显示时间没有太大差异。

沙皇国际平台

不同的画面方式之间没有差异。原稿上的画面和各块的画面配合分别表现为:1)原稿上的画面方式,配合指示表示200-500毫秒的间隔。

2)每次一张屏幕的命令表示400-700毫秒的时间间隔。每个块的屏幕方式更像实际产品的屏幕上操作方式,因此建议主要参考400-700毫秒的渲染时间。

需要说明的是,通过动态屏幕显示方式,用户在输出语音命令的同时,可以看到已经上了屏幕的文字。这是因为这与整个识别后上传屏幕的方式大不相同。因此,如果产品使用整体识别后上传屏幕的方式,建议不要参考这一部分的实验结论。其次,除了进一步丰富屏幕设备音量障碍体验研究屏幕设备语音交互的系统外,屏幕引入还扩展了视频内容消费和视频通信功能等以前不可用的功能。

同时,设备的使用也在经历从过去的单个任务到多个任务的变化。看视频的时候,看电视剧《扶摇》的时候,可以随时放入作业查询信息,例如查找演员杨幂信息。这部分实验主要研究用户放入工作后前景内容和背景内容之间的音量阻碍经验。

例如,当前景内容是语音播音员信息时,研究背景视频或音乐的合理音量范围,防止低背景音妨碍用户获取信息。1、在音量障碍实验实验中,用户分别被拒绝在看视频和听音乐的场景下查找信息。设置了两个初始音量(录音:初始音量是用户看视频或听音乐的音量)。60分贝和65分贝,用户找到人物或百科全书信息后,设置其他背景音量(录音:当前前景内容为语音播音员信息,背景内容为视频或音乐),评估对背景音量的满意度。

同时,融合实验后,问卷了解用户的前景和对背景信息展示的态度。由于不同设备的音量刻度范围不同,实验中单独设置了带有屏幕扬声器和智能电视的背景音量。实验结果显示,无论背景是视频还是音乐,用户都不讨厌背景几乎静音(录音:右图中的0表示背景几乎静音)。对于屏幕扬声器和智能电视,如果初始音量约为60分贝,则背景音量的舒适度范围不同。

沙皇国际平台

结果如下:1)屏幕扬声器的情况是,背景视频音量上升到36-53分贝的范围,背景音乐音量上升到39-56分贝的范围,用户的主观感受会更加舒适。(2)对于智能电视,如果背景视频音量上升到39-53分贝范围,背景音乐音量上升到36-53分贝范围,就会感到主观的舒适。

实验中,我们同时研究了初始音量为65分贝时背景音量的舒适度范围。由于实验结果与上述趋势大体相同,篇幅有限,此后没有一一进行。另外,融合实验后问卷调查结果显示,对于背景的广播状态,音乐是背景时用户更偏向播出,而背景是视频时,屏幕扬声器末端偏向视频停止的用户更多。主要是屏幕扬声器末端的背景视频几乎被覆盖,所以用户指出,为了不错过感兴趣的视频内容,背景视频最好停止。

(威廉莎士比亚、模板、录像名言) (威廉莎士比亚、模板、录像)对于前景内容的广播状态,无论画面大小差异和背景媒体类型,大部分用户都预计需要对前景信息展开语音播音员,在一定程度上以文本或图形方式在画面上展示。(大卫亚设,Northern Exposure(美国电视连续剧),全景名言)第三,摘要本文研究有画面设备的语音交互体验,重点探索集成视觉系统后交互对系统及内容输入链接的体验问题。

我们对指令画面的延迟时间和指示时间的研究结果和设计建议,以及输入其他内容时前景和背景的合理音量设置等。(大卫亚设,Northern Exposure(美国电视剧),从语音延伸到视觉,语音交互的边界和外延仍然会发生很大的变化。语音交互和传统交互方式不是物理地址,也就是彼此的关系,未来嵌入将引入听力、视觉、触觉、味觉、嗅觉等多模态交互方式。

未来的交互范式不一定是这种交互方式的非常简单的六角形和列表,而是考虑到特定的场景、人的因素、环境条件等后,有序合理的人造和设计。百度人工智能交互设计研究所也不会持续关注多模态交互领域的研究和设计,并将大大输入我们的研究成果和观点。

未来,语音互动,我们一起探索和改变。版权文章,发布许可禁令。下面,我们来听一下关于刊登的注意事项。


本文关键词:多维,对话,—,走向,沙皇国际平台,视听,融合,的,语音,交互

本文来源:沙皇国际平台-www.yaboyule214.icu

微信扫码 关注我们

  • 24小时咨询热线

    24小时咨询热线074-946386326

  • 移动电话12681419948

Copyright © 2001-2020 www.yaboyule214.icu. 沙皇国际平台科技 版权所有 地址:湖南省怀化市肇东市然一大楼3629号 备案号:ICP备61723446号-9 网站地图 xml地图