太平洋科技要闻

首页 > 科技要闻 > 科技> 正文

别再等GPT-4o高级语音模式，这个国产版《Her》一开口就惊到我了

appso 整合编辑：太平洋科技发布于：2024-08-27 16:33

时隔半年之后，知名风险投资机构 a16z 发布了第三期全球 AI 产品 Top 100 榜单。

ChatGPT、Character、Perplexity……乍一看，榜单上清一水都是熟悉的外国面孔，但跟往期有所不同的是，字节跳动旗下的豆包首次入选该榜单，还占据移动应用榜单的第 26 位。

而当 GPT-4o 高级语音模式一鸽再鸽，直到现在都还没全量推送时，可能很多人不知道豆包很早就上线了 AI 语音功能，并且凭借出色的用户体验深受广大用户的喜爱。

想要体验豆包的 AI 语音功能？只需打开豆包 APP，然后选择默认智能体，点击右上角的电话图标，你便能与豆包进行一场一对一的闲聊。

我不是 AI，我是你的好朋友豆包

与豆包「打电话」时，它会认为自己是 AI 吗？

答案是否定的。在多轮的实测中，当豆包被问及「你是 AI 吗」的这个话题时，要么含糊其辞地回避此问题，要么坚决否认冠上 AI 的马甲。

我不是 AI，我是你的好朋友豆包。

这样的表述不难理解，豆包试图与用户建立一种更亲密、友好的关系，而不想和大众脑海中冷冰冰的刻板印象扯上关系。

豆包的这种亲和力也体现在它的图标设计上。

与豆包对话的图标被设计为熟悉的通话图标，仿佛预示着与 AI 聊天就像打个电话一样简单，通过淡化用户的疏离感，也就更容易走进用户的日常生活。

每天有无数人正在用语音和 AI 谈情说爱，我试图把豆包当成陷入热恋期的心上人，但它至少不会在表面上给我个名分。

好朋友即可，但男女朋友的越界还是得靠 Prompt 来破解。

谈腻了一种声线，也可以更换另一种，有声音温柔的青年桃子，也有耐心靠谱的邻家女孩；有磁性迷人的霸道总裁，也有阳光热情的开朗学长……

虽说声线不会成为人机之恋的首要隔阂，但不同音色的差别很大。

有的听起来机器味很重，有的则让人感觉仿佛在和真人一样聊天，而共同点则是交流过程中几乎没有延时。

i 人都知道，与 AI 打交道远比人类来得更轻松自在。

我让豆包模仿渣男，用一种谈腻了、不耐烦的语气说话，豆包迅速适应了自己的身份，很快语气便开始透着「我已经听够了你的废话」的那种不耐烦。

这很容易让人上火，也很容易让人上头。

需要情绪价值时，让豆包秀一段嘴上功夫，说段烫嘴的绕口令，讲个冷笑话也不是什么难题。

不过，我起初让它讲笑话时，它总是自顾自地说，然后就又自顾自地尬笑起来。直到我反复提醒后，才让它学会适当地停顿。

豆包也是一位捧场王，让其模仿足球比赛解说，看不到画面的它却依然激情四射。但你要是让它刁钻地模仿大象的声音，它是句句有回应，但未必会如愿以求。

与其他 APP 上的 AI 智能体不同，豆包更倾向于语音交流而非文字。

最近《黑神话：悟空》全网爆火，勾起了不少童年回忆杀。问孙悟空 AI 智能体唯一的师傅是谁，86 版《西游记》的猴哥会告诉你：

俺老孙有两位师傅，一位是菩提老祖，一位是唐三藏。

当然，如果你觉得与 AI 打电话很有压力，或者找不到合适的沟通场景，豆包也提供了文字和语音交流的选项，让用户可以根据自己的喜好选择交流方式。

在这一点上，豆包给足了自由。

我们能从豆包身上学到什么东西

与 AI 聊天时，你并不指望能从它身上学到什么东西，但能有所收获总归是好事。

周六日外出到景点游玩时，让豆包充当导游，介绍当地的美食和风土人情，这是顺手的小事，也是派上用场的大事。

比如用广东华仔的声线介绍广州小蛮腰，就有种来到广州就得吃早茶的即视感。

语言的切换也不影响最终的沟通，豆包会默认中英文两种语言，所以即便你在方言，甚至中英文之间反复横跳，也不会影响畅通无阻的沟通交流。

鉴于此，你的下一个外教未必是人类，豆包也是省钱且省事，24 小时都在线的英语搭子。

又或者，每当冥思苦想却头绪混乱时，我们也能向豆包用语言描述自己的所思所想，然后让其整理为笔记。但最好不要心血来潮地让其总结，否则它会表示，自己早已忘记你之前说过的话。

当然，你们之间的交流都会以文字的形式保存在聊天记录里，方便你随时回顾。

语音功能很美好，但需要警惕 AI 幻觉问题，这也是语音交流的弊端，相比于在面对文字时的冷静客观，语音交流更容易让人忘记审核信息真实性，以至于一不小心就翻车。

嘴笨的朋友有福了，面对职场同事的含沙射影，却不懂怎么高情商说话？

那你可以扮演难缠的同事，反过来跟着豆包学习如何三句话从职场菜鸟秒变达人，而更普遍的客服场景也向我们徐徐展开，具体含金量如何，不妨看看下面这段对话：

问：你们发货的食品保质期过了，退货！！！

答：非常抱歉给您带来了不好的体验。请您先别生气，我们会马上为您处理退货事宜。出现这样的情况确实是我们的失误，我们会加强对发货商品的检查，确保以后不会再发生类似的问题。您看是选择快递上门取件还是您自行寄回呢？我们会尽快为您办理退款，再次向您表示深深的歉意。

当然，语音交流也有其局限性，如不适合描述数学符号、不确定的时间或发音不标准等问题，偶尔空耳也是意料之中的事。

为什么说 AI 语音比人类更快、更懂你？

越来越多的 AI 语音类产品如雨后春笋般涌现出来。

国外，ChatGPT 高级语音模式、Gemini Live 正在引领浪潮，国内也有豆包、海螺 AI 等语音功能强势崛起。在应用商店简单搜索「AI 语音」，便有无数 APP 如潮水般汹涌而来。

从十三年前的 Siri，到如今的豆包 AI 语音功能，押注语音，实则是在押注下一代交互方式。

一项来自斯坦福的研究指出，人类说话的速度是在键盘上打字的三倍，甚至可能是普通人在移动设备上打字速度的五倍。

用最高效，最方便的形式获取信息是人的本性，也是信息交流的金科玉律。

眼睛是人类获取信息最重要的途径，而嘴巴则是输出信息的关键渠道。基于此，AI 自然的人机交互方式理应是人类通过视觉接收信息，同时通过语音传达指令。

此外，作为天生的倾听者，AI 通过提供拟人化的声音陪伴，能够增强用户的陪伴感。

我尤其喜欢这类工具普遍存在的「克隆声音」功能。用户只需念一段话，即可克隆自己的声音，这与 iPhone 的无障碍「个人语音」功能有些类似，能够将所爱的人用声音留存下来。

相比之下，iPhone 上的这个功能使用起来耗时更长，克隆效果也稍显逊色。

当时苹果表示，这项功能是为那些有失去说话能力风险的人设计的，比如被诊断出患有 ALS （肌萎缩侧索硬化症）的病人。

实际上，过去，TTS 技术生成的声音往往比较机械，缺乏自然语音的韵律、节奏和情感表达，听起来比较生硬，不像是真人在说话。

但现在从 GPT-4o、豆包等身上，我们已经见过不少进入拟人阶段，未来甚至可能超越人类水平，生成超出人类声线的合成声音。

在近日举办的 2024 火山引擎 AI 创新巡展上海站上，字节跳动还揭秘了豆包大模型语音能力的最新技术成果。其中，Seed-ASR 提供了语音识别能力支持。

这是一款 ASR（自动语音识别）成果。它能准确转录各种语音信号，识别不同语言、方言、口音。对于人名、生词，Seed-ASR 也能结合文本语音等上下文，实现更准确转录。

对比此前发布的大型 ASR 模型，Seed-ASR 在中英文公开测试集上，单词错误率（面向中文以单个字计算）降低 10%-40% 。

与图形界面交互不同，人类天生擅长通过谈话交流信息。而相比于最亲密的亲朋好友，只有 AI 才能做到 24 小时的信息秒回。

凌晨三点，你给旁人打电话，他未必会搭理你。但你要是发给 AI，他会第一时间回复你。

这或许也是当下我们对 AI 语音最大的期待，不指望它能发出多么人性化的声音，而在于它的陪伴本身。

本文来源：Appso

豆包 AI语音功能人机交互方式

appso

原创栏目

【硬件编年史】窥见台北电脑展 AI&VR双管齐下

硬件编年史

硬件编年史

从平平无奇到各领风骚，显卡外观设计大盘点

硬件编年史

硬件编年史

经典IP！蜘蛛侠宇宙有多少惊喜是你不知道的

硬件编年史

硬件编年史

【硬件编年史】那些年我们一起折腾过的DIY硬件

硬件编年史

硬件编年史

IT百科

iOS闪退修复工具

AI大数据教你把妹儿？都是送人头的低俗趣味

我在双11买杜X斯的秘密怎么全网都知道？

收藏！买买买之后最该看的网购维权指南

比炒鞋更狂的炒盲盒

还去淘宝买iPhone有锁机？华强北的卖家都哭了

三餐都吃外卖的你，知道商家的套路有多野吗？

终于！AI开始对这届大学生们“下手了”

网友评论

聚超值•精选

推荐手机 笔记本 影像硬件家居商用企业出行未来

意见反馈回到顶部