號(hào)稱(chēng)“史上最強(qiáng)大開(kāi)源模型”的Llama3,憑什么價(jià)值百億美金?
作者:小巖
編輯:彩云
4月19日,F(xiàn)acebook母公司Meta重磅推出了Llama3。
即便大家現(xiàn)在對(duì)于大廠(chǎng)和巨頭頻繁迭代AI模型的行為已經(jīng)見(jiàn)怪不怪,Meta的Llama3仍舊顯得與眾不同,因?yàn)檫@是迄今最強(qiáng)大的開(kāi)源AI模型。
Meta推出了重磅級(jí)產(chǎn)品Llama,顯然是劍有所指的,其中的寓意也很明顯,即是要在激烈的行業(yè)競(jìng)爭(zhēng)中追趕領(lǐng)先者OpenAI。由此,我們也能看出Mata在AI領(lǐng)域的雄心壯志。
成為最強(qiáng)開(kāi)源模型,Llama3究竟是怎樣煉成的?
之所以說(shuō)Llama3是“最強(qiáng)開(kāi)源”,是因?yàn)樗谀P图軜?gòu),預(yù)訓(xùn)練數(shù)據(jù),擴(kuò)大預(yù)訓(xùn)練規(guī)模以及指令微調(diào)方面都做出了重要的調(diào)教。
在模型架構(gòu)方面,Llama 3 采用了相對(duì)標(biāo)準(zhǔn)的純解碼器 transformer 架構(gòu)。與 Llama 2 相比,Llama 3更進(jìn)行了幾項(xiàng)關(guān)鍵改進(jìn)。Llama 3 使用了一個(gè) 128K token 的 tokenizer,它能更有效地編碼語(yǔ)言,從而大幅提高模型性能;Meta還在 8B 和 70B 大小的模型中都采用了分組查詢(xún)關(guān)注,以便提高Llama3的運(yùn)行效率;此外,Meta還在8192 個(gè) token 的序列上對(duì)模型進(jìn)行了訓(xùn)練,并使用掩碼來(lái)確保自注意力不會(huì)跨越文檔邊界。
訓(xùn)練數(shù)據(jù)方面,Meta 表示,要訓(xùn)練出最佳的語(yǔ)言模型,最重要的是策劃一個(gè)大型且高質(zhì)量的訓(xùn)練數(shù)據(jù)集。根據(jù)數(shù)據(jù)現(xiàn)實(shí),Llama 3 在超過(guò) 15T 的 token 上進(jìn)行了預(yù)訓(xùn)練,訓(xùn)練數(shù)據(jù)集是 Llama 2 的7倍,包含的代碼數(shù)量達(dá)到了Llama 2 的4倍。為了應(yīng)對(duì)多語(yǔ)言使用情況,Llama 3 的預(yù)訓(xùn)練數(shù)據(jù)集中有超過(guò)5%的部分是高質(zhì)量的非英語(yǔ)數(shù)據(jù),涵蓋 30 多種語(yǔ)言。而為了確保Llama 3始終在最高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練,Meta還開(kāi)發(fā)了一系列數(shù)據(jù)過(guò)濾管道,諸如啟發(fā)式過(guò)濾器,NSFW 過(guò)濾器,語(yǔ)義重復(fù)數(shù)據(jù)刪除方法,文本分類(lèi)器等,以便更好的預(yù)測(cè)數(shù)據(jù)質(zhì)量。與此同時(shí),Meta還進(jìn)行了大量實(shí)驗(yàn),確保 Llama 3 在各種使用情況下都能表現(xiàn)出色,包括瑣事問(wèn)題,STEM,編碼,歷史知識(shí)等。
在擴(kuò)大預(yù)訓(xùn)練規(guī)模方面,為了讓Llama 3 模型有效利用預(yù)訓(xùn)練數(shù)據(jù),Meta 為下游基準(zhǔn)評(píng)估制定了一系列詳細(xì)的 scaling laws。這些 scaling laws 使他們能夠選擇最佳的數(shù)據(jù)組合,并就如何更好地使用訓(xùn)練計(jì)算做出最佳決定。更重要的是,在實(shí)際訓(xùn)練模型之前,scaling laws允許他們預(yù)測(cè)最大模型在關(guān)鍵任務(wù)上的性能,這有助于 Llama 3 在各種用例和功能中都能發(fā)揮強(qiáng)大的性能。
在指令微調(diào)方面,為了在聊天用例中充分釋放預(yù)訓(xùn)練模型的潛力,Meta 對(duì)指令微調(diào)方法進(jìn)行了創(chuàng)新,在后期訓(xùn)練方法中結(jié)合了監(jiān)督微調(diào)(SFT),拒絕采樣,近似策略?xún)?yōu)化(PPO)以及直接策略?xún)?yōu)化(DPO)。
官方表示即將推出400B+版本...開(kāi)源的400B+足夠令人期待。
此次Llama3的發(fā)布,還有一點(diǎn)惹人矚目,那就是Meta官方表示,即將在不久的未來(lái)推出400B+版本。
Meta 官方表示,Llama 3 8B 和 70B 模型只是 Llama 3 系列模型的一部分,他們后續(xù)還將推出更多版本,其中就包括模型參數(shù)超過(guò) 400B 的 Llama 3 版本,這一版本目前仍在訓(xùn)練中。
在接下來(lái)的幾個(gè)月中,Meta會(huì)持續(xù)推出新功能:屆時(shí)會(huì)有更多的模態(tài);更長(zhǎng)的上下文窗口;更多不同大小版本的模型;更強(qiáng)的性能等。關(guān)于Llama 3研究論文也一應(yīng)推出。
另外,Llama 3 模型將很快會(huì)在AWS,Databricks,Google Cloud,Hugging Face,Kaggle,IBM WatsonX,Microsoft Azure,NVIDIA NIM 以及Snowflake 上提供,并得到 AMD,AWS,Dell,Intel,NVIDIA 以及Qualcomm 硬件平臺(tái)的支持。
當(dāng)然,大家最期待的,還是即將推出的,參數(shù)超過(guò)400B+的版本。目前Llama3模型的最強(qiáng)參數(shù)是70B。這個(gè)數(shù)據(jù)已經(jīng)十分優(yōu)秀了,完全有能力和GPT-4-Turbo,Mistral-Large,Claude3-Opus相媲美。不過(guò),相較于巨頭的最強(qiáng)模型,仍舊存在不小的差距。這也是大家如此期待400B+版本的重要原因。
400B+的版本仍在訓(xùn)練中,單就目前釋放出的評(píng)測(cè)結(jié)果來(lái)看已經(jīng)非常強(qiáng)了,堪稱(chēng)Llama開(kāi)源size中的“超大杯選手”。據(jù)悉,該模型的訓(xùn)練成本會(huì)達(dá)到1億美元。 目前我們還不清楚Meta是否會(huì)開(kāi)源“超大杯”。一旦開(kāi)源,對(duì)于國(guó)內(nèi)的大模型公司來(lái)說(shuō)無(wú)疑是個(gè)重大利好。相信在此之后,也會(huì)有很多公司爭(zhēng)先跟上,推出后續(xù)的應(yīng)用。但凡事都有兩面,對(duì)于OpenAI,Anthropic,Mistral,Google這些巨頭而言,這未必是個(gè)好消息。
“開(kāi)源大模型”時(shí)代以來(lái),AI會(huì)越來(lái)越失控嗎?
AI大模型如雨后春筍般不斷冒出,大家在見(jiàn)識(shí)到AI愈發(fā)強(qiáng)大,愈發(fā)智能的同時(shí),也會(huì)感知到危機(jī)感。
AI是否會(huì)變得越來(lái)越失控?
對(duì)此,Meta CEO 馬可.扎克伯格也在最近接受的訪(fǎng)談中表達(dá)了自己的觀(guān)點(diǎn)。他認(rèn)為,AI的定位應(yīng)該在于“一項(xiàng)非;A(chǔ)性的技術(shù)”。它的存在應(yīng)該像計(jì)算機(jī)一樣,將催生一系列全新的應(yīng)用。人們之所以會(huì)誕生AI會(huì)失控,很大程度上是因?yàn)樗l(fā)展的速度太快了,一時(shí)之間我們無(wú)法適應(yīng)。
但在扎克伯格看來(lái),這種情況不太可能發(fā)生,因?yàn)檫@其中存在很多物理方面的限制。但有一點(diǎn)毋庸置疑:AI將真正改變我們的工作方式,為人們提供創(chuàng)新的工具去做不同的事情。它將使人們能夠更自由地追求他們真正想做的事情。
事實(shí)上,我們無(wú)法預(yù)知AI未來(lái)的發(fā)展路徑究竟是怎樣的,是會(huì)真的造福人類(lèi),還是會(huì)給人類(lèi)帶來(lái)災(zāi)難。但有一點(diǎn)值得肯定:開(kāi)源的AI系統(tǒng)確實(shí)有助于建立一個(gè)更公平,更平衡競(jìng)技場(chǎng)。如果開(kāi)源的機(jī)制可以運(yùn)作成功,那應(yīng)該會(huì)成為大家所期待的未來(lái)。
原文標(biāo)題 : 新火種AI|號(hào)稱(chēng)“史上最強(qiáng)大開(kāi)源模型”的Llama3,憑什么價(jià)值百億美金?

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
12月18日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
推薦專(zhuān)題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹(shù)機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 踢館大廠(chǎng)和微軟,剖析WPS靈犀的AI實(shí)用主義
- 6 特朗普要求英特爾首位華人 CEO 辭職
- 7 AI版“四萬(wàn)億刺激”計(jì)劃來(lái)了
- 8 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線(xiàn)
- 9 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 10 蘋(píng)果把身家押在Siri上:一場(chǎng)輸不起的自我革命