首页 > 科技要闻 > 科技> 正文

剑指OpenAI,Anthropic推出全球首个“混合推理模型”,最新估值615亿美元

腾讯科技 整合编辑:太平洋科技 发布于:2025-02-26 16:23

美国当地时间周一, 由OpenAI前员工创办的人工智能公司Anthropic突发连招。在技术方面,Anthropic宣布推出全球首个 “混合推理”AI模型,向OpenAI、DeepSeek等对手发起挑战。在运营方面,该公司表示即将完成35亿美元融资,估值达到615亿美元。

全球首款 “混合推理”AI模型

Anthropic此次发布的新模型名为Claude 3.7 Sonnet,它赋予了用户前所未有的控制权,允许他们决定AI在生成回答前花费多少时间进行“思考”。与此同时,Anthropic还推出了AI编程助手Claude Code。这些举措标志着Anthropic正大举进军企业AI市场,或将彻底改变企业构建软件和自动化工作的方式。

图片

Claude 3.7 Sonnet引入了“思考模式”切换功能,允许用户根据任务复杂度优化AI的响应时间。Anthropic研究产品管理负责人Dianne Penn表示:“我们认为推理是AI的核心组成部分,而不是需要额外付费才能使用的功能。就像人类一样,AI应该既能快速响应,又能进行复杂思考。对于简单问题,它应该立即给出答案;但对于复杂的任务,它则需要更多的处理时间。”

她补充道:“我们不将推理、规划和自我修正视为AI的独立能力。在理想情况下,模型本身应该能够识别问题是否需要更深入的思考,并自动调整,而不是要求用户来选择不同的推理模式。”

基准测试数据支持了Anthropic的雄心。在扩展思考模式下,Claude 3.7 Sonnet在研究生级别的推理任务中,准确率达到78.2%,不仅对OpenAI的最新模型发起挑战,还超越了DeepSeek-R1的表现。

以下为Anthropic官文全文:

今天,我们正式推出Claude 3.7 Sonnet,这是我们迄今为止最智能的模型,也是市场上首款“混合推理”模型。Claude 3.7 Sonnet能够生成近乎即时的响应,也能进行长时间的推理,并将这些思考过程展示给用户。API用户还可以精细控制模型的思考时间。

Claude 3.7 Sonnet在编程和前端Web开发方面表现尤为突出。伴随着新模型的发布,我们还推出了一款命令行工具Claude Code,专门用于辅助编程。Claude Code目前以有限研究预览的形式提供,允许开发者直接从终端将大量工程任务委托给Claude完成。

Claude 3.7 Sonnet现已登陆所有Claude订阅计划(包括免费版、Pro版、Team版和企业版),并支持Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI平台。除了免费版Claude之外,其他版本都可以使用扩展思考模式。

无论是标准模式还是扩展思考模式,Claude 3.7 Sonnet的定价均与之前版本保持一致:每百万输入token收费3美元,每百万输出token收费15美元(其中包含思考token)。

Claude 3.7 Sonnet:让前沿推理变得实用

Claude 3.7 Sonnet的开发理念与市场上其他推理模型截然不同。就像人类的大脑既可以处理快速反应,也能进行深度思考,我们认为推理应该是前沿模型的集成能力,而非完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。

Claude 3.7 Sonnet通过多种方式体现了这一理念:

——双重模式:Claude 3.7 Sonnet既是普通的大语言模型(LLM),也是推理模型。用户可以选择让模型在正常模式下给出快速响应,或进行更长时间的思考后再回答。在标准模式下,Claude 3.7 Sonnet是Claude 3.5 Sonnet的升级版;在扩展思考模式下,它会在回答问题前进行自我反思,从而在数学、物理、指令遵循、编程等任务中表现更佳。我们发现,无论在哪种模式下,提示模型的方式都相似。

——精细控制:通过API使用Claude 3.7 Sonnet时,用户可以设置思考的token预算,最高可达128K token。这使得用户能够在速度(和成本)与回答质量之间做出权衡。

——现实任务优化:在开发推理模型时,我们减少了对数学和计算机科学竞赛题的优化,转而更关注反映企业实际使用LLM的现实任务。

早期测试表明,Claude的编程能力处于行业领先地位。

Cursor表示,Claude再次成为处理实际编程任务的最佳选择,特别是在处理复杂代码库和高级工具使用方面取得了显著进展。

Cognition发现,Claude在规划代码变更和处理全栈更新方面远超其他任何模型。

Vercel强调了Claude在复杂代理工作流中的卓越表现,而Replit成功利用Claude从零开始构建复杂的Web应用和仪表盘,而其他模型则难以胜任。

Canva的评估显示,Claude始终能生成生产级代码,设计品味出众,且错误率大幅降低。

在SWE-bench Verified和TAU-bench等基准测试中,Claude 3.7 Sonnet均达到了最先进的性能水平,展现了其解决现实世界软件问题和复杂任务的能力。

图注:在SWE-bench Verified基准测试中,Claude 3.7 Sonnet的性能表现最佳。该测试旨在评估AI模型解决现实世界软件问题的能力

图注:Claude 3.7 Sonnet在TAU-bench基准测试中表现优异。该测试框架专注于评估AI模型在复杂现实任务中的表现,包括与用户和工具的交互

图注:Claude 3.7 Sonnet在指令遵循、通用推理、多模态能力以及智能体编码方面表现卓越,其扩展思考模式在数学和科学任务中尤为突出,显著提升了性能。不仅如此,在传统基准测试之外,其表现甚至在内部Pokémon游戏测试中超越了所有之前的模型

Claude Code:增强开发者编程体验

自2024年6月以来,Sonnet已成为全球开发者的首选模型。今天,我们进一步赋能开发者,推出首款智能体级编码工具Claude Code,并以有限研究预览的形式提供。

Claude Code是一个活跃的协作者,能够搜索和读取代码、编辑文件、编写和运行测试、提交代码到GitHub,并使用命令行工具——同时让用户随时掌握每一步进展。

尽管Claude Code尚处于早期阶段,但它已成为我们团队不可或缺的工具,尤其是在测试驱动开发、调试复杂问题和大规模重构方面。在早期测试中,Claude Code一次性完成了通常需要45分钟以上手动工作的任务,明显减少了开发时间和工作量。

未来几周,我们将根据使用情况不断改进Claude Code,包括增强工具调用的可靠性、支持长时间运行的命令、优化应用内渲染,并扩展Claude对其自身能力的理解。

我们还改进了Claude.ai的编码体验。GitHub集成现已覆盖所有Claude订阅计划,使开发者能够直接将代码库连接到Claude。

Claude 3.7 Sonnet是我们迄今为止最强大的编码模型。通过对个人、工作和开源项目的深入理解,它成为修复漏洞、开发新功能和构建文档的强力伙伴。

展望未来

Claude 3.7 Sonnet和Claude Code标志着AI系统朝着真正增强人类能力的方向迈出了重要一步。通过深度推理、自主工作和高效协作能力,它们使我们更接近一个AI能够丰富和扩展人类成就的未来。

即将完成35亿美元融资 估值达615亿美元

在发布新模型的同时,知情人士透露Anthropic即将完成一轮35亿美元融资,估值达615亿美元。这轮融资显示,尽管DeepSeek的崛起带来了冲击,但投资者仍对潜力巨大的人工智能公司充满信心。

最初计划融资20亿美元,但在与投资者洽谈后成功提高了融资额度。该公司由前OpenAI员工于2021年创立,之前的估值为180亿美元,现已成为少数几家拥有足够人才和资金与OpenAI竞争的AI初创公司。

此次融资使得Anthropic的估值攀升至615亿美元,这一估值包含了公司此次融资所筹集的资金。

本轮融资的投资者包括风险投资公司Lightspeed Venture Partners、General Catalyst和Bessemer Venture Partners。此外,总部位于阿布扎比的MGX投资公司也在与Anthropic商谈参与投资事宜。

虽然Anthropic在消费者用户市场上仍落后于OpenAI,但其推出的Claude聊天机器人在程序员和企业客户中逐渐获得青睐。

知情人士透露,Anthropic的年化收入(基于近期销售数据推算的未来12个月收入)已达约12亿美元。尽管如此,该公司目前仍处于亏损状态,计划利用此次融资支持开发更强大的AI模型。

相比之下,OpenAI在2024年10月的融资轮中透露,预计2024年的收入将达到37亿美元。

自从DeepSeek发布了一款与美国最强大AI模型相媲美的新型AI模型后,硅谷的一些投资者对Anthropic等公司的前景表示担忧。DeepSeek的模型不仅开发成本极低,而且可以免费使用。

对此,Anthropic首席执行官达里奥·阿莫代伊(Dario Amodei)在一篇博客中指出,DeepSeek的成功并未改变开发AI技术的经济逻辑。

这轮大规模融资表明,投资者仍然愿意押注于像Anthropic这样开发专有AI模型的公司。

与此同时,OpenAI也在洽谈筹集高达400亿美元的资金,估值为3000亿美元。此外,埃隆·马斯克旗下的xAI公司也正在进行非正式的融资洽谈,计划进行一轮大规模融资。

本文来源:腾讯科技

腾讯科技
鐠囧嫯顔� 閻愮绂�0 +1 閺€鎯版+1

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部