免费的网站推广怎么做效果好?,时间轴网站代码,猎头公司前十名有哪些,优企网络摘要
随着技术以令人眼花缭乱的速度发展#xff0c;使人机交互更加顺畅比以往任何时候都更加重要。为了应对这一挑战#xff0c;一个新领域应运而生#xff1a;人机交互#xff08;HRI#xff09;。有效的人机交互被认为是实现技术效益的关键。
用户体验#xff08;UX使人机交互更加顺畅比以往任何时候都更加重要。为了应对这一挑战一个新领域应运而生人机交互HRI。有效的人机交互被认为是实现技术效益的关键。
用户体验UX是指机器对用户的影响–易用性、直观性、实用性以及交互过程中的挫折程度。确保良好的用户体验对于机器人为我们的日常生活带来实质性价值至关重要。
软银机器人公司Softbank Robotics推出的著名仿人社交机器人 Pepper 以其多样化的交互功能而闻名。然而如果要实现更像人类的交流Pepper 目前的能力可能无法满足人们的期望。研究还表明语言处理过程中的延迟和错误会影响用户体验。开发人员准备的对话也很有限很难对用户的深入问题和要求做出回应而且据说 Pepper 的语音识别能力也不足以理解自然语言。
为应对这些挑战预计将使用 ChatGPT 等大规模语言模型。这些先进的系统可以实现更自然、更符合语境的对话并有助于提高 Pepper 的语音识别能力。
本文开发了 Pepper-GPT 系统该系统集成了 Pepper 机器人、Whisper 和 GPT API。它还报告了该方法及其与人类互动的实验结果。这一举措旨在提高与机器人交流的质量为人类生活带来更大价值。
技术
Pepper-GPT 项目采用独特的方法彻底改变人与机器人之间的交流。该项目的核心是两个关键要素BlackBox 和 PepperController。 BlackBox 结合了先进的语音识别和自然语言处理技术负责将用户的语音转换为文本并生成有意义的回复。它使用 OpenAI 的 Whisper 自动语音识别系统和 gpt-3.5-turbo 语言模型。另一方面PepperController 负责管理机器人在现实世界中执行动作的命令。
数据交换基于客户端-服务器模式使用 TCP/IP 协议确保了可靠性和稳定性。这种系统设计确保了从语音输入到生成响应的流畅过程使人机互动更加自然。
Pepper-GPT 扩展了人工智能和机器人技术的潜力使实时互动伴侣不仅仅是一个数字助理。这种方法成功地为机器人提供了先进的通信能力甚至能够进行物理操作。
此外BlackBox 可分为两个模块语音识别模块和 GPT 模块。通过这两个模块BlackBox 可记录用户的语音输入识别语音内容并通过 GPT-3.5 模型生成精确的操作命令或上下文化的响应。生成的结果将发送给 PepperController 执行。
语音识别模块
Pepper-GPT 项目的语音识别工作重点是准确解读用户的语音并做出相应的响应。这一过程的核心是 Whisper ASR 系统它是从三种不同的自动语音识别 (ASR) 模型测试中选出的。之所以选择该系统是因为它具有鲁棒性和出色的性能可以显著提高 Pepper 机器人的语音识别能力。特别是在兼顾处理速度、资源消耗和准确性方面Whisper Small 模型的效率优于其他模型。
语音识别模块的设计是在检测到人声时开始录音在检测到静音时停止录音以防止产生无声音频。它还集成了一个 Silero VAD 模型可以识别人声避免意外生成 谢谢 等短语从而引发不恰当的反应。
录制的音频被保存为文件并由 Whisper Small 模型转换为文本。然后文本被传输到 GPT 模块由该模块负责内容分析和生成回复。不过有时 Whisper Small 模型无法成功转录文本在这种情况下系统会自动提示用户再次发言确保对话流畅、无压力。
GPT 模块
在 Pepper-GPT 项目中引入 GPT 模块旨在使用户与机器人之间的交流更深入、更自然。该模块的核心是使用 gpt-3.5-turbo 模型生成响应。之所以选择该模型是因为它具有出色的理解能力和文本生成能力。它能生成类似人类的回应使 Pepper-GPT 能够实现高度灵活对话的目标。通过理解用户输入并创建相关的、真实的对话该技术可以大大提高用户体验的质量。
在该模块中语音识别模块接收用户的文本分析文本内容并根据情况切换到动作模式或语音模式。在动作模式下用户的要求被转化为 Pepper 机器人可以执行的动作指令。而在语音模式下GPT 模块则充当对话者的角色根据上下文做出回应并继续对话。 不过也可能出现误读。为了解决这个问题GPT 模块提供了双重检查功能。该功能允许对生成的响应进行复核以确定是否合适并在必要时进行修正。这样Pepper 机器人就能对用户的交互做出适当的反应。
GPT 模块的先进设计进一步促进了用户与机器人之间的互动确保当用户要求 Pepper 机器人采取行动或进行对话时它能准确捕捉到用户的意图并做出适当的回应。
Pepper-GPT 项目中的 PepperController 是 Pepper 机器人的中枢神经系统。通过控制机器人的动作和对话该系统使 Pepper 成为一个更具吸引力和活力的实体。具体来说Naoqi ALAnimatedSpeech 代理是执行动作和语音命令的核心技术。对于语音指令PepperController 会将黑盒中的文本转换成语音Pepper 机器人则会根据用户的话语做出特定的动画。
PepperController
Pepper 机器人可以执行的所有动作都存储在一个预先编码的数据集中并根据物理动作指令选择适当的动作。此外在语音识别和生成响应的过程中过渡动画会像 Pepper 在思考一样进行从而使交互流程更加流畅。
在数据传输方面采用了可靠的 TCP/IP 协议以确保 BlackBox 和 PepperController 之间稳定的数据交换。该通信协议具有重传功能可确保数据的可靠收发防止数据丢失。Pepper-GPT 的设计采用了客户端-服务器模式每个客户端都有特定的角色在用户输入指令后相应的指令会被发送到 PepperController从而引导机器人进行下一步操作。
实验和结果
这里进行了两项分析一项是将选定的语音识别应用程序接口与其他应用程序接口进行比较另一项是关于实验的最终结果。
第一步是评估语音识别。为了提高语音识别的准确性和速度在实验之前我们使用三种语音到文本应用程序接口进行了两次测试。
词错误率 (WER) 用于评估准确性。这是一种广泛使用的衡量系统准确性的指标WER 是根据转述、删除和插入错误的数量以及参考词语的总数计算得出的。此外识别时间也被用作一种性能指标用于衡量模型将口语转化为文本的速度。这一点在实际应用中非常重要因为在实际应用中需要即时有效地将语音转换为文本。
语音口音档案数据集也被用作数据集在该数据集中来自 177 个国家的说话者说出了相同的英语句子。这些口音的多样性非常适合评估所选语音识别模型的适应性和性能。该测试包括母语为英语和非母语为英语的国家/地区以测试其在全球交流中的实用性第二个测试使用 日常对话 数据集其中包括日常口语对话。该测试旨在评估语音识别模型识别和转录常见对话的准确度。为了测试模型在实际应用中的性能我们选择了现实世界中可能遇到的五种不同的对话场景。
第一次评估共分析了 24 个组包括英语国家和非英语国家测试使用了三种语音到文本 API并将平均单词错误率WER和平均识别时间作为评估标准。结果表明Whisper 的 WER 明显低于其他 API表现出近乎完美的准确性。 其中在英语国家中美国的 WER 最低而英国的 WER 最高。在非英语国家中印度口音最难理解而阿拉伯语和菲律宾语最容易理解。在平均识别时间方面Whisper 能够在最短时间内将语音转换为文本。 第二个测试使用了 日常对话 数据集以评估在五个不同对话场景中语音识别的准确性和效率。测试结果表明Whisper 的 WER 值一直最低准确率最高平均识别时间最短。 通过这些结果Whisper 的性能明显优于其他语音识别应用程序接口证实了我们的研究方法的适用性。这证明了 Whisper 在语音到文本的转换中的有效性在这种转换中需要高准确性和高效率即使是在现实世界的应用中也是如此。
真人实验
为了探索将 ChatGPT 与 Pepper 机器人集成的意义需要与真人参与者进行试验。奥克兰大学的学生将接受挑战与集成 ChatGPT 的 Pepper 机器人进行自由对话每次对话持续 15 到 20 分钟。 通过在校园公告栏上散发传单的方式招募参与者。对参与者的唯一要求是必须年满 18 周岁能够用英语交流。 知情同意是人类参与式研究的一项基本伦理要求。这可以确保参与者充分了解研究的目的、风险和益处以及他们自己的权利。参与者阅读 参与者信息表 并在 同意书 上签字表示同意。这一程序可保护参与者的隐私和机密并确保研究符合道德标准。研究人员回答参与者的问题帮助他们充分了解研究内容并在知情的情况下做出参与决定。
实验开始前向参与者简要介绍了集成系统的功能和特点以及与机器人开始对话的指南。参与者还配备了麦克风以提高语音识别的准确性。
在实验过程中参与者可以自由地与放置在他们面前的 Pepper-GPT 机器人交谈系统会将他们的对话转录成文本。如果需要技术协助房间一角会有一名研究人员在场。与机器人的互动时间为五到十分钟根据参与者的反应进行调整。
互动结束后参与者填写了两份数字问卷提供了他们的年龄、性别、院系、伦理考虑因素和以前使用 ChatGPT 的经验等信息。此外还收集了他们与机器人互动的反馈意见。所有参与者都获得了一张价值 10 美元的礼品卡。
定量结果显示参与者的英语能力不同他们的体验也不同但许多人认为与 ChatGPT 的互动逼真且引人入胜。不过一些参与者认为系统的直观性还有待提高。总之结果表明实体机器人的存在丰富了 ChatGPT 互动。 在语音识别技术的评估中人们发现词错误率WER和处理时间之间存在明显的相关性。尤其是具有复杂语音特征的英国口音显示出较高的 WER 和较长的处理时间而澳大利亚口音则相反。事实证明WER 和处理时间之间存在线性关系尽管这种趋势并不总是适用于所有情况。
实验显示参与者的英语水平对他们与 Pepper-GPT 的交互体验有很大影响。一般来说Whisper 的语音识别功能在涉及口音的测试中表现良好但英语理解能力较低的参与者不得不重复提问直到机器人准确领会他们的意图。
约有 30% 的参与者拥有丰富的 ChatGPT 使用经验他们对机器人性能的期望值高于偶尔使用的用户而后者在实验结束时往往对系统的功能略感失望。其他挑战还包括难以决定何时与机器人互动以及 Pepper 机器人面部识别技术的准确率较低这就要求参与者多次尝试以引起机器人的注意。
研究表明英语水平、用户期望、交互时间的清晰度以及 Pepper-GPT 的面部跟踪功能都会影响参与者的体验。这些因素是该系统下一次迭代中需要改进的重要方面预计将有助于提高用户满意度和参与度。
总结
本文将 Whisper ASR 和 GPT-3.5 API 集成到 Pepper 机器人中缩小了虚拟人工智能与实体机器人之间的差距大大改善了用户体验。词错误率WER为 1.716%平均处理时间为 2.639 秒超过了谷歌的 ASR 服务。这提高了 Pepper-GPT 的理解能力GPT 模块使机器人能够生成与上下文相关的响应理解用户的指令并采取相应的行动从而使交互更丰富更吸引用户。
对参与者的调查结果显示Pepper-GPT 在人机交互领域具有巨大潜力。超过 90% 的参与者认为该系统用户界面友好一半以上的参与者认为机器人的手势恰当。参与者的积极反馈表明他们喜欢 Pepper-GPT并期待今后与该系统进一步互动。
通过进一步改进预计Pepper-GPT 将发展成为一种更加自然、高效和愉悦的交互体验进一步提升用户体验。