Claude發(fā)布全球首款混合推理模型,這會是AI的新標(biāo)準(zhǔn)?
北京時間 2 月 25 日,Anthropic 最新發(fā)布的 Claude 3.7 Sonnet 和 Claude Code,讓 AI 技術(shù)圈再次炸開了鍋。
對于開發(fā)者來說,基于 Claude 3.7 Sonnet 模型打造 Claude Code 是一份意外驚喜。作為一個面向代碼編輯、測試和命令行交互的 AI 工具,Claude Code 的亮相迅速引發(fā)了開發(fā)者的熱議,很多開發(fā)者在進(jìn)行了開發(fā)嘗試后,都在 X(原 Twitter)上直呼「哇塞」。
有人用一句話就創(chuàng)建出了「立等可玩」的仿《我的世界》游戲:
圖/ X
有人用一句話寫好了一個動效自然的天氣卡片:
圖/ X
還有人用一句話直接生成了一個帶光影變化的 3D 城市:
圖/ X
但如果把視角拉遠(yuǎn),從 AI 發(fā)展的產(chǎn)品策略來看,更值得關(guān)注的可能還是:Claude 3.7 Sonnet 是全球第一個混合推理模型。
簡單來說,Claude 3.7 Sonnet 擁有標(biāo)準(zhǔn)模型和擴(kuò)展模型(高級推理)兩種模式,前者是 Claude 3.5 Sonnet、(OpenAI)GPT-4o、DeepSeek V3 這類「傳統(tǒng)模型」,后者則是 DeepSeek R1、OpenAI o1 這類「推理模型」。
但不同于 OpenAI、DeepSeek 將兩種模型獨(dú)立運(yùn)行,Claude 3.7 Sonnet 選擇了「融合」:既可以像傳統(tǒng)模型那樣迅速給出回答,又能在復(fù)雜問題上調(diào)用更深層次的推理能力進(jìn)行思考,并給出更好的回答。
圖/ Claude
在此之前,AI 需要在「快」和「準(zhǔn)」之間做選擇。要么是 GPT-4o 這樣的傳統(tǒng)模型,獲得快速但不一定嚴(yán)謹(jǐn)?shù)幕卮;要么轉(zhuǎn)向 DeepSeek R1 或 OpenAI o1 這樣的推理模型,等待更久,但換來更高的計算精度和更合理的回答。
現(xiàn)在,Claude 3.7 Sonnet 試圖打破這個割裂,讓 AI 在效率和智能之間找到平衡,而 Anthropic 邁出的這一步,也在試圖定義 AI 未來的產(chǎn)品形態(tài)。
Claude 3.7 Sonnet 升級,不只是編程能力提升
和所有 AI 版本升級一樣,Claude 3.7 Sonnet 的強(qiáng)大,首先可以從各類 Benchmark 跑分中直觀地體現(xiàn)出來。
在 MMLU(大規(guī)模多任務(wù)語言理解)、GSM8K(數(shù)學(xué)推理)和 HumanEval(代碼生成)等測試中,Claude 3.7 Sonnet 的表現(xiàn)全面超越 3.5 版本,甚至在部分任務(wù)上已經(jīng)能與 Claude 3 Opus(教師模型)相媲美。
Anthropic 甚至還讓 Claude 3.7 Sonnet 跑了《寶可夢》游戲測試,也展現(xiàn)出了超越前代模型的決策與規(guī)劃能力。
圖/ Claude
不過更明顯的升級,還是體現(xiàn)在代碼理解這類高度依賴推理能力的任務(wù)上,Claude 3.7 Sonnet 取得了跨代式的躍遷,本來就公認(rèn)領(lǐng)先的軟件開發(fā)能力,又有了大幅提升。
圖/ Claude
但跑分只是冰冷的數(shù)字,真正讓人印象深刻的,是它在實際應(yīng)用中的表現(xiàn)。對于開發(fā)者來說,最直觀的感受來自編程能力的提升,Claude 3.7 Sonnet 能給出比前代更高效的代碼邏輯,甚至可以檢測潛在的安全漏洞,提出合理的修復(fù)方案。
當(dāng)然,Claude 3.7 Sonnet 在數(shù)學(xué)推理上的級也不可不提。之前 Claude 3.5 Sonnet 在 GSM8K 這類測試中表現(xiàn)并不算頂尖,偶爾還會翻車,給出錯誤答案。
但 3.7 版本的升級,顯然補(bǔ)齊了這塊短板——有人測試發(fā)現(xiàn),它在涉及多步推理的題目上正確率明顯提高,甚至可以在解答數(shù)學(xué)題時,自己檢查并修正推導(dǎo)過程,就像一個經(jīng)驗豐富的考生,答完題后還會主動回頭檢查答案。
而這一切提升,最終導(dǎo)向了 Claude 3.7 Sonnet 最核心的變革——混合推理模式。
正如前文所提,Claude 3.7 Sonnet 在原本標(biāo)準(zhǔn)模型的基礎(chǔ)上融入了新的擴(kuò)展模型,實現(xiàn)了「一個模型,兩種思考方式」,既能快速反應(yīng),又能深入思考。
圖/ Claude
作為 Claude 3.5 Sonnet 的升級版,Claude 3.7 Sonnet 除了編程和工具調(diào)用能力,在標(biāo)準(zhǔn)模式下的整體性能升級其實不大。而在擴(kuò)展模式下,Claude 在回答前會進(jìn)行自我反思(思考鏈),從而提高了在數(shù)學(xué)、物理、指令遵循、編碼和其他許多任務(wù)上的表現(xiàn)。
更重要的是,你可以選擇何時讓模型正;卮,何時讓它思考更長的時間后再回答。同時針對 API 調(diào)用,Claude 3.7 Sonnet 還支持自定義「思考鏈」的長短限制,允許開發(fā)者根據(jù)實際場景在回答質(zhì)量(以及成本)與速度之間進(jìn)行權(quán)衡。
推理模型的痛點(diǎn),Claude 一招就破解了?
OpenAI o1、DeepSeek R1 這類推理模型流行后,相信大家都發(fā)現(xiàn)了,雖然 推理模型確實在數(shù)學(xué)、代碼、邏輯推理等任務(wù)上遠(yuǎn)勝傳統(tǒng)模型,但它們普遍存在一個致命短板:思考過程長、響應(yīng)延遲明顯。
輸入一個問題,往往要等待十幾秒甚至更長時間,才能得到答案。
如果說面對復(fù)雜問題,推理模型往往能夠給出準(zhǔn)確度更高的答案,值得等待;但如果只是日常聊天或信息檢索,這種等待顯然過于昂貴,更遑論推理模型的「幻覺」并沒有減少,甚至可能更高。
這也導(dǎo)致,用戶如果想在「速度」和「深度」之間做選擇,就必須在兩個不同模型之間切換。比如,日常交流時用 GPT-4o 或者 DeepSeek V3,但如果遇到復(fù)雜的數(shù)學(xué)推理或者代碼邏輯問題,改用 OpenAI o1 或 DeepSeek R1 這類推理模型。
圖/ X
但這種選擇真的「繞不開」嗎?在當(dāng)前的技術(shù)架構(gòu)下,AI 的推理能力和響應(yīng)速度,幾乎是一個此消彼長的關(guān)系。推理模型的核心優(yōu)勢是更強(qiáng)的邏輯能力,但代價是計算量更大,生成速度更慢,甚至需要額外的服務(wù)器資源支持。
而這,正是 Claude 3.7 Sonnet 沒有簡單復(fù)制 o1 或 R1,而是選擇了「混合推理」模式的關(guān)鍵原因。
采用混合推理模式,AI 可以在標(biāo)準(zhǔn)模式和擴(kuò)展模式之間自由切換。打個比方,這就像是一個經(jīng)驗豐富的咨詢師,面對簡單問題可以立刻給出答案,而面對復(fù)雜問題時,會停下來認(rèn)真思考,而不是讓客戶自己去決定該用哪種方式。
這也直接帶來了兩個好處:普通用戶不用煩擾選擇,開發(fā)者也可以靈活調(diào)整 AI 的思考方式。
一方面,在普通對話、搜索信息、文案寫作等日常任務(wù)中,Claude 3.7 Sonnet 依舊保持流暢的響應(yīng)速度,和 GPT-4o 這樣的模型表現(xiàn)類似。但當(dāng)提出數(shù)學(xué)計算、編程、邏輯推理等高復(fù)雜度任務(wù)時,根據(jù)需要進(jìn)行適度的「深度思考」,實現(xiàn)效果、體驗與成本的平衡。
另一方面,在對實時性要求較高的場景或者應(yīng)用(比如 AI 語音助手、客服系統(tǒng))中,開發(fā)者可以盡可能縮短 AI 的思考鏈,甚至僅使用標(biāo)準(zhǔn)模型,保證最快地響應(yīng)。可以在對精度要求較高的任務(wù)(比如代碼審計、法律分析、金融預(yù)測)中,適當(dāng)調(diào)整模型推理的深度,讓 AI 更仔細(xì)地思考每個步驟。
混合推理會成為AI主流趨勢?
圖/ Claude
當(dāng)然,混合推理模式并非完美無缺,比如 AI 如何判斷某個任務(wù)是否需要進(jìn)入「深度推理」?這個判斷一旦出錯,要么導(dǎo)致延遲過長(不必要地進(jìn)入深度模式),要么導(dǎo)致答案不夠精準(zhǔn)(應(yīng)該深度推理但沒有執(zhí)行)。
但從產(chǎn)品策略來看,它極有可能成為 AI 未來的主流趨勢。因為它抓住了一個核心問題:用戶并不想糾結(jié)于模型的選擇,只關(guān)心 AI 對話的結(jié)果和體驗。
換句話說,如果 Anthropic 能進(jìn)一步優(yōu)化動態(tài)判斷的精準(zhǔn)度,并通過 API 讓開發(fā)者可以更靈活地調(diào)整推理策略,「混合推理模式」可能會成為大模型發(fā)展的下一個標(biāo)準(zhǔn)配置。
屆時,OpenAI 和 DeepSeek 等大模型廠商也可能會一起跟進(jìn),將自己的推理模型與傳統(tǒng)模型進(jìn)行整合,共同促成一次 AI 產(chǎn)品范式的轉(zhuǎn)變。
來源:雷科技
原文標(biāo)題 : Claude發(fā)布全球首款混合推理模型,這會是AI的新標(biāo)準(zhǔn)?

最新活動更多
-
10月23日火熱報名中>> 2025是德科技創(chuàng)新技術(shù)峰會
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
即日-11.25立即下載>>> 費(fèi)斯托白皮書《柔性:汽車生產(chǎn)未來的關(guān)鍵》
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
-
10 大模型的盡頭是開源
- 1 特斯拉工人被故障機(jī)器人打成重傷,索賠3.6億
- 2 【行業(yè)深度研究】退居幕后四年后,張一鳴終于把算法公司變成AI公司?
- 3 人形機(jī)器人廠商,正在批量復(fù)刻宇樹G1
- 4 AI 時代,阿里云想當(dāng)“安卓” ,那誰是“蘋果”?
- 5 特斯拉機(jī)器人獲得10,000臺訂單?馬斯克抄底成功
- 6 華為公布昇騰芯片三年計劃,自研HBM曝光
- 7 硬剛英偉達(dá)!華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
- 8 機(jī)器人9月大事件|3家國產(chǎn)機(jī)器人沖刺IPO,行業(yè)交付與融資再創(chuàng)新高!
- 9 谷歌“香蕉”爆火啟示:國產(chǎn)垂類AI的危機(jī)還是轉(zhuǎn)機(jī)?
- 10 00后華裔女生靠兩部AI電影狂賺7.8億人民幣,AI正式進(jìn)軍好萊塢