“缺乏新意”,是主流声音对苹果AI首秀的评价,苹果股价也跌了2%。 一切原因这场发布会,昨天在WWDC24大会上,iOS18正式发布,苹果智能助手Siri不仅迎来了史诗级进化,首次加入了生成式AI功能,不仅能免费调用ChatGPT了,还能关联GPT-4o。 目前所有最新的AI功能,例如文档总结、图片生成,以及更智能的语音交互,以及跨应用进行AI操作等等,iOS上都应有尽有了。 但大家期待的是苹果能够带来OpenAI级别的成果,而不是一些交互创新。 可是苹果选择的是合作。在iPhone手机植入了GPT-4o的iOS,在跨应用方面的能力,可以说,正是这一能力的出现,使得原先手机上的各大APP形成的信息壁垒,彻底不存在了,这一意义很多人并没有深刻认知。 至此以后,用户无论是写邮件,还是回复短消息,都能通过一个简单的AI指令一气呵成。 例如,要是想把某张照片,添加到备忘录里,只需对Srir说出相应的指令,所有的操作就能直接一步到位地完成,而无需在相册、备忘录之间切换。 更重要的是,在进行跨应用操作时,苹果AI还能“因时制宜”,通过感知屏幕显示内容,理解不同情境,进行针对性操作。 例如,在消息多得看不过来时,AI就会根据消息内容,优先将最重要、最紧急的那条排在前面。 凡此种种,大极大地提升了iOS将来的智能性。 而至于本次大会的其他内容,鉴于相关的文章已经在铺天盖地地报道,在此便不再赘述。 今天我们想重点聊的是,为何对于现阶段的大模型来说,与苹果的结合,是打破自身局限性,并解决交互痛点的关键。 手机交互层面的两大痛点 自从2023年年初,生成式AI的浪潮兴起以来,各路大模型,都始终存在着两个看似不起眼,但实则很影响体验的痛点。 而第一个痛点,正是目前大模型的交互方式。 因为当前大部分的大模型用户,仍在用一种颇为低效的方式,在与大模型进行交互——敲击键盘,逐字逐字地打出相应的提示词。 这种交互方式,有时候真的很反人性,很不流畅。 记得在某个周五的下午,我忙完了一天的工作,躺在椅子上,想和某个大模型探讨下一个存疑已久的问题。 然而,打开了页面许久,我却迟迟没有敲下一个字,原因是那天我太累了,而要问的那个问题又有点复杂,这势必免不了要打一长串提示词。 在PC端,用户往往只能通过打字与模型交流。 在大模型的用户,或者说潜在用户中,有多少人是被类似的原因给劝退了呢? 诚然,目前的某些大模型,虽然也在其APP上开放了语音功能,并且用户自己也可以通过语音输入法来弥补这一痛点。但直到iOS结合ChatGPT-4o才真正解决这一痛点,Siri能识别情绪,连续对话,执行任务。 特别受女性用户青睐的一项新功能,Siri现在能够直接控制iPhone进行图片编辑,简化了图片处理流程。 另外,目前手机系统存在的一大问题,在于由于当前较为单一的交互形式,当用户试图将模型的能力应用在不同的软件、场景时,用户只能每次都很辛苦地在不同软件间切换,并将大量的内容,一步步地转化成输入框里的信息(文字、图片),才能与之进行交互。 不同App之间信息不流通,此为大模型当前的第二大痛点。 例如,在你在淘宝上看到了个想买的东西,拿不准要不要买,想请AI来判断下,这时你就得把整个网页的内容、描述,以及相应的商品截图全都辛苦地保存下来,再一步步上传给模型看。 这样的体验实在复杂,且不通人性。 正是由于上述痛点的存在,当前的大模型,只能成为一种在正式的工作场合才会被经常用到,且主要服务于部分高知群体的技术。 据Quest Mobile报告,在中国12.32亿互联网用户中,只有数百万活跃在AI头部产品上。研究同样显示,只有约50%的受访者听说过ChatGPT等AI工具,而每天使用这些工具的人更是寥寥无几。 这样的情况,全世界都好不到哪去,日本仅有1%,美国稍多一些,有7%。 牛津大学和路透社的一项新研究,对六个国家的约 12,000 人进行了有关人工智能的调查,结果20% 至 30% 的受访者表示他们从未听说过 ChatGPT 或 Copilot 这些AI工具。 那么,苹果的这次AI大更新,究竟将怎样解决这一痛点呢? AI手机带来的第二次交互革命 从这次发布会的内容来看,新版的Siri,由于融入了GPT-4o的能力,在进行语音交互时,直戳到了上述的痛点。 能够理解模糊指令和上下文; 主动理解不同应用的情境。 这就意味着,首先,用户在进行语音交互时,有时不必把话说得特别“明白”,或者有时对话稍微停顿了一下,AI也能理解相应的内容。 例如,倘若用户之前查询了某地的天气情况,即使之后中断了片刻,之后再次进行交互时,只需提及一个较为模糊的“那里”,AI就能知道此处的“那里”正是刚才提到的地点。 这就意味着,此后用户只需用很少的输出,就能得到准确的结果。 而这样的输出—结果交换比,是在网页端通过打字进行交互的大模型,很难带来的一种体验。 此外,除了交互更省事之外,要想让模型更通人性,更准确理解不同的情境,换句话说,就是AI得知我现在用APP在干嘛。 而这一点,考验的正是AI在系统层面的跨应用能力。 像是将证件上的号码填进表格这种操作,就是一个十分考验跨应用能力和情境理解的例子。 过去,要完成这样的操作,首先得打开相册,找到相应的证件照,扫描好相应的文字,再打开备忘录,把扫描好的内容复制进去,最后再打开要填写表格的APP,一条条将信息填写进去, 每填写一栏,就要切一次APP,过程十分繁琐。 要是换成了AI来干这事,通过识别特定的屏幕内容,AI就能知道这是一个需要填写表格的页面,于是就会自动地提取证件上的号码,准确地填到相应的栏位。 这样的操作,给用户体验上的提升实在太大了。 一个搞笑视频显示,你利用Sri定时了明早7点的闹钟,他看了你的备忘录,你要晨练,要咖啡,要读书,于是建议你定在更早的4点半。而当你前一天晚10点还在玩手机,他会提醒你该休息了,“根据你的计划,你明早还要晨练。” 能管你别刷短视频的AI手机,有没有很有趣? 在此之前,很多人一直质疑,手机AI存在的意义和必要性是什么。毕竟,现在的很多大模型,都推出了各自的手机APP。 如果需求能在大模型APP上完成,何必将AI整合进系统里? 而这种跨应用的繁琐操作,则恰恰印证了一个系统级别的AI的意义。因为唯有一个根植于系统中的AI,才能无缝地进行不同APP的协同操作。 总结下就是,这种高度优化的输出—结果交换比,以跨应用的便捷交互体验,正是将来的大模型进一步“破圈”、落地的关键。 必要的“错位” ,苹果仍处最佳位置 发布会之前,很多人都说,苹果这次的AI即使再怎么牛逼,本质上还是要靠OpenAI的技术,既然最关键的AI技术都要受制于人了,就算能力再强,又有什么值得吹的? 但实际上,放眼整个行业来看,这种特殊的“错位”,其实某种程度上,是技术和时代发展的必然性所致。 这种必然性就是:原先主要搞硬件,做手机的厂商,遇到新的生成式AI,目前没一个真正做得好的。这主要是其业务方向和商业模式所致。 即使目前某些国产大模型推出了自研大模型,但就其生成效果来看,与云端大模型相比,实在不忍直视。 对于这些传统手机厂商来说,在此前很长一段时间里,真正能对其产品进行赋能的,是某些专用性较强的传统AI,如摄影、面部识别之类的AI等等。 而专注于模型研发的AI企业,例如OpenAI,本质上定位更接近于一个软件开发公司,本身并不具备硬件的载体。 于是,这种一方缺模型,一方缺硬件的错位现象,就造成了一种特殊的“真空地带”。这种“真空地带”就是:专注于云端大模型的AI公司,很少会针对AI交互进行优化,而有AI交互需求的手机厂商,又难以推出性能足够强大的模型。 于是,在很长的一段时间,用户只能忍受十分低效的交互方式——在键盘上一个一个字地敲出相应的提示词。 并且由于模型交互形式的局限性,这种发生在网页端的交互,往往很难实现跨应用的协同。 因此就现阶段来说,掌握了云端大模型技术的AI企业,与手机厂商进行联合,对用户而言,是一种技术上的最优解。 而国内的手机厂商,将来要在手机AI方面有大的进展,大概率也只能走这条路,但都基于安卓的底层,谁也无法真正系统级融合AI。 毕竟,从术业有专攻的角度来说,专业的AI企业,无疑有着更成熟和先进的模型架构,并且就使用场景而言,真正具有很强的“即时性”,必须直接依靠端侧模型来完成的操作,也并不是那么的广泛。 在这种情况下,性能更强大的云端模型,无疑更容易得到用户的欢迎。 从长远来看,即使这次苹果在AI上的更新,未能像预期的那样引发新一轮的换机潮,但用户毕竟看到了一种更人性化,更舒适的AI交互体验。 在这样的体验下,用户是否还愿意回头忍受目前手机UI迟缓的交互方式? 如果不愿,这或许会倒逼着目前的AI企业,在交互方式上引发一轮新的革命,而这或许正是AI逐渐破圈的开始。 本文来源:AI鲸选社 |
原创栏目
IT百科
网友评论
聚超值•精选