时隔半年之后,知名风险投资机构 a16z 发布了第三期全球 AI 产品 Top 100 榜单。 ChatGPT、Character、Perplexity……乍一看,榜单上清一水都是熟悉的外国面孔,但跟往期有所不同的是,字节跳动旗下的豆包首次入选该榜单,还占据移动应用榜单的第 26 位。 而当 GPT-4o 高级语音模式一鸽再鸽,直到现在都还没全量推送时,可能很多人不知道豆包很早就上线了 AI 语音功能,并且凭借出色的用户体验深受广大用户的喜爱。 想要体验豆包的 AI 语音功能?只需打开豆包 APP,然后选择默认智能体,点击右上角的电话图标,你便能与豆包进行一场一对一的闲聊。 我不是 AI,我是你的好朋友豆包 与豆包「打电话」时,它会认为自己是 AI 吗? 答案是否定的。在多轮的实测中,当豆包被问及「你是 AI 吗」的这个话题时,要么含糊其辞地回避此问题,要么坚决否认冠上 AI 的马甲。 我不是 AI,我是你的好朋友豆包。 这样的表述不难理解,豆包试图与用户建立一种更亲密、友好的关系,而不想和大众脑海中冷冰冰的刻板印象扯上关系。 豆包的这种亲和力也体现在它的图标设计上。 与豆包对话的图标被设计为熟悉的通话图标,仿佛预示着与 AI 聊天就像打个电话一样简单,通过淡化用户的疏离感,也就更容易走进用户的日常生活。 每天有无数人正在用语音和 AI 谈情说爱,我试图把豆包当成陷入热恋期的心上人,但它至少不会在表面上给我个名分。 好朋友即可,但男女朋友的越界还是得靠 Prompt 来破解。 谈腻了一种声线,也可以更换另一种,有声音温柔的青年桃子,也有耐心靠谱的邻家女孩;有磁性迷人的霸道总裁,也有阳光热情的开朗学长…… 虽说声线不会成为人机之恋的首要隔阂,但不同音色的差别很大。 有的听起来机器味很重,有的则让人感觉仿佛在和真人一样聊天,而共同点则是交流过程中几乎没有延时。 i 人都知道,与 AI 打交道远比人类来得更轻松自在。 我让豆包模仿渣男,用一种谈腻了、不耐烦的语气说话,豆包迅速适应了自己的身份,很快语气便开始透着「我已经听够了你的废话」的那种不耐烦。 这很容易让人上火,也很容易让人上头。 需要情绪价值时,让豆包秀一段嘴上功夫,说段烫嘴的绕口令,讲个冷笑话也不是什么难题。 不过,我起初让它讲笑话时,它总是自顾自地说,然后就又自顾自地尬笑起来。直到我反复提醒后,才让它学会适当地停顿。 豆包也是一位捧场王,让其模仿足球比赛解说,看不到画面的它却依然激情四射。但你要是让它刁钻地模仿大象的声音,它是句句有回应,但未必会如愿以求。 与其他 APP 上的 AI 智能体不同,豆包更倾向于语音交流而非文字。 最近《黑神话:悟空》全网爆火,勾起了不少童年回忆杀。问孙悟空 AI 智能体唯一的师傅是谁,86 版《西游记》的猴哥会告诉你: 俺老孙有两位师傅,一位是菩提老祖,一位是唐三藏。 当然,如果你觉得与 AI 打电话很有压力,或者找不到合适的沟通场景,豆包也提供了文字和语音交流的选项,让用户可以根据自己的喜好选择交流方式。 在这一点上,豆包给足了自由。 我们能从豆包身上学到什么东西 与 AI 聊天时,你并不指望能从它身上学到什么东西,但能有所收获总归是好事。 周六日外出到景点游玩时,让豆包充当导游,介绍当地的美食和风土人情,这是顺手的小事,也是派上用场的大事。 比如用广东华仔的声线介绍广州小蛮腰,就有种来到广州就得吃早茶的即视感。 语言的切换也不影响最终的沟通,豆包会默认中英文两种语言,所以即便你在方言,甚至中英文之间反复横跳,也不会影响畅通无阻的沟通交流。 鉴于此,你的下一个外教未必是人类,豆包也是省钱且省事,24 小时都在线的英语搭子。 又或者,每当冥思苦想却头绪混乱时,我们也能向豆包用语言描述自己的所思所想,然后让其整理为笔记。但最好不要心血来潮地让其总结,否则它会表示,自己早已忘记你之前说过的话。 当然,你们之间的交流都会以文字的形式保存在聊天记录里,方便你随时回顾。 语音功能很美好,但需要警惕 AI 幻觉问题,这也是语音交流的弊端,相比于在面对文字时的冷静客观,语音交流更容易让人忘记审核信息真实性,以至于一不小心就翻车。 嘴笨的朋友有福了,面对职场同事的含沙射影,却不懂怎么高情商说话? 那你可以扮演难缠的同事,反过来跟着豆包学习如何三句话从职场菜鸟秒变达人,而更普遍的客服场景也向我们徐徐展开,具体含金量如何,不妨看看下面这段对话: 问:你们发货的食品保质期过了,退货!!! 答:非常抱歉给您带来了不好的体验。请您先别生气,我们会马上为您处理退货事宜。出现这样的情况确实是我们的失误,我们会加强对发货商品的检查,确保以后不会再发生类似的问题。您看是选择快递上门取件还是您自行寄回呢?我们会尽快为您办理退款,再次向您表示深深的歉意。 当然,语音交流也有其局限性,如不适合描述数学符号、不确定的时间或发音不标准等问题,偶尔空耳也是意料之中的事。 为什么说 AI 语音比人类更快、更懂你? 越来越多的 AI 语音类产品如雨后春笋般涌现出来。 国外,ChatGPT 高级语音模式、Gemini Live 正在引领浪潮,国内也有豆包、海螺 AI 等语音功能强势崛起。在应用商店简单搜索「AI 语音」,便有无数 APP 如潮水般汹涌而来。 从十三年前的 Siri,到如今的豆包 AI 语音功能,押注语音,实则是在押注下一代交互方式。 一项来自斯坦福的研究指出,人类说话的速度是在键盘上打字的三倍,甚至可能是普通人在移动设备上打字速度的五倍。 用最高效,最方便的形式获取信息是人的本性,也是信息交流的金科玉律。 眼睛是人类获取信息最重要的途径,而嘴巴则是输出信息的关键渠道。基于此,AI 自然的人机交互方式理应是人类通过视觉接收信息,同时通过语音传达指令。 此外,作为天生的倾听者,AI 通过提供拟人化的声音陪伴,能够增强用户的陪伴感。 我尤其喜欢这类工具普遍存在的「克隆声音」功能。用户只需念一段话,即可克隆自己的声音,这与 iPhone 的无障碍「个人语音」功能有些类似,能够将所爱的人用声音留存下来。 相比之下,iPhone 上的这个功能使用起来耗时更长,克隆效果也稍显逊色。 当时苹果表示,这项功能是为那些有失去说话能力风险的人设计的,比如被诊断出患有 ALS (肌萎缩侧索硬化症)的病人。 实际上,过去,TTS 技术生成的声音往往比较机械,缺乏自然语音的韵律、节奏和情感表达,听起来比较生硬,不像是真人在说话。 但现在从 GPT-4o、豆包等身上,我们已经见过不少进入拟人阶段,未来甚至可能超越人类水平,生成超出人类声线的合成声音。 在近日举办的 2024 火山引擎 AI 创新巡展上海站上,字节跳动还揭秘了豆包大模型语音能力的最新技术成果。其中,Seed-ASR 提供了语音识别能力支持。 这是一款 ASR(自动语音识别)成果。它能准确转录各种语音信号,识别不同语言、方言、口音。对于人名、生词,Seed-ASR 也能结合文本语音等上下文,实现更准确转录。 对比此前发布的大型 ASR 模型,Seed-ASR 在中英文公开测试集上,单词错误率(面向中文以单个字计算)降低 10%-40% 。 与图形界面交互不同,人类天生擅长通过谈话交流信息。而相比于最亲密的亲朋好友,只有 AI 才能做到 24 小时的信息秒回。 凌晨三点,你给旁人打电话,他未必会搭理你。但你要是发给 AI,他会第一时间回复你。 这或许也是当下我们对 AI 语音最大的期待,不指望它能发出多么人性化的声音,而在于它的陪伴本身。 本文来源:Appso |
原创栏目
IT百科
网友评论
聚超值•精选