9月25日,OpenAI在X平台上宣布,将为ChatGPT的付费用户推出全新的高级语音模式(Advanced Voice Mode,AVM),这一更新旨在使用户与ChatGPT的交互更加自然流畅。OpenAI将在本周向Plus和Teams套餐用户全量推送该新模式,企业版和教育版用户则将于下周开始获得访问权限。
OpenAI CEO山姆·奥特曼(Sam Altman)转发推文并表示:“希望你觉得等待是值得的。”
在此次更新中,语音模式的设计从外观上得到了改进。现在,语音功能由一个蓝色的动画球体代表,取代了此前OpenAI在5月展示时使用的黑色动态点。当用户在ChatGPT应用中获得高级语音权限后,会在语音图标旁看到一个弹出提示,方便用户快速启用。
为了提升用户体验,ChatGPT新增了五种全新的语音风格供用户选择:Arbor(随和且多才多艺)、Maple(开朗且坦率)、Sol(精明且轻松)、Spruce(冷静且确信)和Vale(聪明且好奇),使得语音总数达到九种。此前的语音包括Breeze(生动且认真)、Juniper(开放且乐观)、Cove(沉着且直率)和Ember(自信且乐观)。这些语音名称均以自然元素为灵感,旨在提供多样化的语气和特征。
值得注意的是,此次更新中没有包含名为Sky的语音。此前,OpenAI在春季更新中展示了Sky的语音,但由于被指与女演员斯嘉丽·约翰逊高度相似,引发了法律纠纷。尽管OpenAI表示并非有意模仿约翰逊的声音,但为了避免争议,仍选择了移除。
ChatGPT高级语音模式现已支持50多种语言,拓展了用户的沟通范围。
官方提供了一个演示视频,视频里有用户问ChatGPT:如何真诚地向只会说普通话的奶奶道歉时,ChatGPT可以用标准的普通话说出:“奶奶,对不起,我迟到了,我不是故意让您等这么久的,我可以怎么补偿您呢?”
高级语音模式还支持自定义指令功能。OpenAI的技术项目经理夏洛特(Charlotte)在演示视频中表示,语音交流包含许多在文本对话中无法体现的元素,如口音、语调、节奏等。OpenAI的研究工程师迈克(Mike)表示,现在用户可以通过设置输入个人信息,定制属于自己的AI模型。
夏洛特在演示中,输入了自己的姓名和居住地,然后询问ChatGPT周末可以做些什么有趣的事情。ChatGPT高级语音模式根据天气和用户所在的地区,提供徒步旅行、野餐或沿着加州1号公路驾车等建议。当夏洛特表示对驾车感兴趣并询问具体路线时,ChatGPT也提供了更为详细的计划。
OpenAI的模型设计师德鲁(Drew)也分享了他的使用体验:“当我在忙其他事情或不需要与ChatGPT交谈时,它会保持安静。当我有问题时,可以直接提出展开深入的对话。”在此过程中,ChatGPT的声音会根据谈话的语气进行调整。他表示,ChatGPT就像是坐在身旁的朋友,不仅提供信息,还能进行思想交流。德鲁认为在日常使用中,用户可以使用高级语音模式来创造面试、讲故事等场景,而且无需担心延迟问题。他强调:“这种延迟非常低,就像和另一个人交谈一样。”
需要注意的是,该高级语音模式目前还没有向欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区开放使用。OpenAI尚未公布这些地区的开放时间。
澎湃科技注意到,OpenAI原计划在6月底推出该语音功能的Alpha版本,但在6月25日表示需要再一个月的时间才能实现。当时该公司表示:“我们正在改进模型能力,使模型能更好地检测内容并拒绝输出某些内容,我们也还在努力改善用户体验,并优化我们的基础设施准备工作,以便能在保持实时响应的情况下,(将新模式)扩展至数百万用户。”
编辑: 陈捷纠错:171964650@qq.com