訂閱
糾錯
加入自媒體

AI大潮下,搭建本地大模型的成本在急速降低

2024-06-14 10:37
雷科技
關(guān)注

小白用戶(hù)也能自己搭建本地大模型。

edf9b18343874822816499dea064c5ae.jpg

誒,大伙有沒(méi)有發(fā)現,這兩年的科技趨勢,和以往幾年都不大相同。  

AI大模型,成為了科技圈的香餑餑。  

用戶(hù)需求的日益增長(cháng),推動(dòng)了AI技術(shù)的進(jìn)化。隨著(zhù)大語(yǔ)言模型的應用場(chǎng)景日益增多,它們開(kāi)始在我們的生活中扮演著(zhù)越來(lái)越重要的角色。  

尤其是休閑娛樂(lè )和實(shí)際工作中,大語(yǔ)言模型的應用變得越來(lái)越普遍。這些模型以其自然的語(yǔ)義能力、強大的數據處理能力和復雜任務(wù)的執行效率,為用戶(hù)提供了前所未有的便利,甚至是以往人們不敢想象的數字陪伴感。  

不過(guò),隨著(zhù)大語(yǔ)言模型的高速普及下,云端大模型的局限性逐漸顯現出來(lái)。 

006fbYi5gy1g55967pef2j30g40h83zw.jpg

  

連接緩慢,成本高昂,還有成為熱議話(huà)題的數據隱私問(wèn)題,沒(méi)有人可以輕易忽視。最重要的是,基于各種制度和倫理道德的云端審核制度,進(jìn)一步限制了大語(yǔ)言模型的自由。 

本地部署,似乎為我們指引了一條新的道路。 

隨著(zhù)本地大模型的呼聲越來(lái)越高,今年Github和Huggingface上涌現出不少相關(guān)的項目。在多番研究后,我也順藤摸瓜,拿到了本地部署大模型的簡(jiǎn)單方法。 

So,本地部署對我們的AI體驗來(lái)說(shuō),到底是錦上添花,還是史詩(shī)級增強? 

跟著(zhù)小雷的腳步,一起來(lái)盤(pán)盤(pán)。 

本地大模型到底是個(gè)啥?  

開(kāi)始前,先說(shuō)點(diǎn)閑話(huà)。  

就是咋說(shuō)呢,可能有些讀者還是沒(méi)懂「本地大模型」的意思,也不知道這有啥意義。  

總而言之,言而總之。  

現階段比較火的大模型應用,例如國外的ChatGPT、Midjourney等,還有國內的文心一言、科大訊飛、KIWI這些,基本都是依賴(lài)云端服務(wù)器實(shí)現各種服務(wù)的AI應用。

image.png

(圖源:文心一言)

 它們可以實(shí)時(shí)更新數據,和搜索引擎聯(lián)動(dòng)整合,不用占用自家電腦資源,把運算過(guò)程和負載全部都放在遠端的服務(wù)器上,自己只要享受得到的結果就可以了。 

換句話(huà)說(shuō),有網(wǎng),它確實(shí)很牛逼。 

可一旦斷網(wǎng),這些依賴(lài)云端的AI服務(wù)只能在鍵盤(pán)上敲出「GG」。 

作為對比,本地大模型,自然是主打在設備本地實(shí)現AI智能化。 

除了不用擔心服務(wù)器崩掉帶來(lái)的問(wèn)題,還更有利于保護用戶(hù)的隱私。

006APoFYly1gok20yfp32g30dc0dcmyx.jpg

 

畢竟大模型運行在自己的電腦上,那么訓練數據就直接存在電腦里,肯定會(huì )比上傳到云端再讓服務(wù)器去計算來(lái)得安心一點(diǎn),更省去了各種倫理道德云端審核的部分。 

不過(guò),目前想要在自己的電腦上搭建本地大模型其實(shí)并不是一件容易的事情。 

較高的設備要求是原因之一,畢竟本地大模型需要把整個(gè)運算過(guò)程和負載全部都放在自家的電腦上,不僅會(huì )占用你的電腦機能,更會(huì )使其長(cháng)時(shí)間在中高負載下運行。

 其次嘛… 

從Github/Huggingface上琳瑯滿(mǎn)目的項目望去,要達成這一目標,基本都需要有編程經(jīng)驗的,最起碼你要進(jìn)行很多運行庫安裝后,在控制臺執行一些命令行和配置才可以。 

別笑,這對基數龐大的網(wǎng)友來(lái)說(shuō)可真不容易。 

那么有沒(méi)有什么比較「一鍵式」的,只要設置運行就可以開(kāi)始對話(huà)的本地應用呢? 

還真有,Koboldcpp。

 工具用得好,小白也能搞定本地大模型

簡(jiǎn)單介紹一下,Koboldcpp是一個(gè)基于GGML/GGUF模型的推理框架,和llama.cpp的底層相同,均采用了純C/C++代碼,無(wú)需任何額外依賴(lài)庫,甚至可以直接通過(guò)CPU來(lái)推理運行。

image.png

(圖源:PygmalionAI Wiki) 

當然,那樣的運行速度會(huì )非常緩慢就是了。 

要使用Koboldcpp,需要前往Github下載自己所需的應用版本。 

當然,我也會(huì )把相對應的度盤(pán)鏈接放出來(lái),方便各位自取。 

目前Koboldcpp有三個(gè)版本。

koboldcpp_cuda12:目前最理想的版本,只要有張GTX 750以上的顯卡就可以用,模型推理速度最快。

koboldcpp_rocm:適用于A(yíng)MD顯卡的版本,基于A(yíng)MD ROCm開(kāi)放式軟件棧,同規格下推理耗時(shí)約為N卡版本的3倍-5倍。

koboldcpp_nocuda:僅用CPU進(jìn)行推理的版本,功能十分精簡(jiǎn),即便如此同規格下推理耗時(shí)仍為N卡版本的10倍以上。

 image.png

(圖源:Github) 

打開(kāi)軟件后,首先可以關(guān)注一下Presets選項。

軟件首頁(yè)的Presets里,分為舊版N卡、新版N卡、A卡、英特爾顯卡等多種不同模式的選擇。

默認情況下,不設置任何參數啟動(dòng)將僅使用CPU的OpenBLAS進(jìn)行快速處理和推理,運行速度肯定是很慢的。

作為N卡用戶(hù),我選用CuBLAS,該功能僅適用于Nvidia GPU,可以看到我的筆記本顯卡已經(jīng)被識別了出來(lái)。

屏幕截圖 2024-06-13 154007.png

(圖源:雷科技)

對于沒(méi)有Intel顯卡的用戶(hù),可以使用CLblast,這是OPENCL推出的、可用于生產(chǎn)環(huán)境的開(kāi)源計算庫,其最大的特征是更強調通用性,至于性能方面本人并沒(méi)有做過(guò)詳細測試。

另一個(gè)需要在主頁(yè)調節的部分是Context Size。

想要獲得更好的上下文體驗,最好將其調整至4096,當然Size越大,能記住的上下文就越多,但是推理的速度也會(huì )受到顯著(zhù)影響。 

屏幕截圖 2024-06-13 154706.png

(圖源:雷科技)

再往下,就是載入大模型的部分。

目前開(kāi)源大模型主要都在huggingface.co下載,沒(méi)有出海能力的話(huà),也可以在國內HF-Mirror鏡像站或是modelscope魔搭社區下載。

結合個(gè)人實(shí)際體驗,我推薦兩款不錯的本地大模型:

CausalLM-7B

這是一款在LLaMA2的基礎上,基于Qwen 的模型權重訓練的本地大模型,其最大的特征就是原生支持中文,顯卡內存8G以下的用戶(hù)建議下載CausalLM-7B,8G以上的可以下載CausalLM-14B,效果更好。

image.png

(圖源:modelscope) 

MythoMax-L2-13B

原生語(yǔ)言為英語(yǔ)的大模型,特征是擁有較強的文學(xué)性,可以在要求下撰寫(xiě)出流暢且具有閱讀性的小說(shuō)文本,缺點(diǎn)是只能通過(guò)輸入英語(yǔ)來(lái)獲得理想的輸出內容,建議普通消費者使用MythoMax-L2-13B。

如果只是想使用大語(yǔ)言模型的話(huà),其他部分不需要做調整,直接點(diǎn)擊啟動(dòng),你選擇的模型就可以在本地加載好了。 

一般來(lái)說(shuō),接下來(lái)你還得給大模型部署前端才能使用。 

不過(guò)Koboldcpp最大的特點(diǎn),就是在llama.cpp的基礎上,添加了一個(gè)多功能的Kobold API端口。 

這個(gè)端口,不僅提供了額外的格式支持、穩定的擴散圖像生成、不錯的向后兼容性,甚至還有一個(gè)具有持久故事、編輯工具、保存格式、內存、世界信息、作者注釋、人物、場(chǎng)景自定義功能的簡(jiǎn)化前端——Kobold Lite。 

大致上,界面就像這樣。

image.png

(圖源:雷科技)

功能也很簡(jiǎn)單。

人工智能、新會(huì )話(huà)就不用說(shuō)了,點(diǎn)擊上方的「場(chǎng)景」,就可以快速啟動(dòng)一個(gè)新的對話(huà)場(chǎng)景,或是加載對應角色卡。

image.png

(圖源:雷科技) 

像這樣,加載你擁有的AI對話(huà)情景。

「保存/加載」也很一目了然,可以把你當前的對話(huà)保存下來(lái),隨時(shí)都能加載并繼續。

「設置」中,你可以調節一些AI對話(huà)的選項。

image.png

(圖源:雷科技) 

其中,Temperature代表著(zhù)對話(huà)的隨機性,數值越高,生成的對話(huà)也就會(huì )越不可控,甚至可能超出角色設定的范圍。

Repetition Penalty. 可以抑制對話(huà)的重復性,讓AI減少重復的發(fā)言。 

Amount to Gen.是生成的對話(huà)長(cháng)度上限,上限越長(cháng),所需時(shí)間也會(huì )更長(cháng),重點(diǎn)是在實(shí)際體驗中,過(guò)高的生成上限會(huì )導致AI胡言亂語(yǔ),個(gè)人并不建議把這個(gè)值拉到240以上。

Max Ctx. Tokens. 是能給大模型反饋的關(guān)鍵詞上限,數據越高,前后文關(guān)系越緊密,生成速度也會(huì )隨之變慢。

完成設置后,就可以和todd howard來(lái)場(chǎng)酣暢淋漓的對話(huà)了。

image.png

(圖源:雷科技) 

聊不下去了? 

點(diǎn)擊左下角的聊天工具,可以讓大模型根據你的前文自動(dòng)生成答復來(lái)推進(jìn)對話(huà)。 

image.png

(圖源:雷科技)

 

回答錯了,或是對話(huà)走向不如人意? 

點(diǎn)擊右下角的聊天工具,不僅可以讓你重復生成AI問(wèn)答,甚至還能自己出手編輯回復以確保對話(huà)走向不跑偏。

 

image.png

 

當然,除了對話(huà)以外,Kobold Lite還有更多可能性。

你可以將它和AI語(yǔ)音、AI繪圖的端口連接在一起,這樣在對話(huà)的同時(shí),可以自動(dòng)調用AI語(yǔ)言為生成的文本進(jìn)行配音,也可以隨時(shí)調用AI繪圖來(lái)畫(huà)出當前二人交談的場(chǎng)景。

新建項目.jpg

 

在此之上,你甚至可以使用更高階的SillyTarven前端,來(lái)實(shí)現GIF、HTML內容在對話(huà)中的植入。

當然這些,都是后話(huà)了。

 總結 

好,部署本地大模型的教程就到這了。 

文章里面提到的軟件和大模型,我都已經(jīng)傳到百度網(wǎng)盤(pán)里了,感興趣的讀者可以自取。 

就我這大半年的體驗來(lái)看,目前本地大模型的特征還是「可玩性強」。

src=http___c-ssl.duitang.com_uploads_item_202004_06_20200406030636_HQmZB.jpg&refer=http___c-ssl.duitang.jpg

 

只要你的配置足夠,你完全可以把大語(yǔ)言模型、AI語(yǔ)音、AI繪圖和2D數字人連接在一起,搭建起屬于自己的本地數字人,看著(zhù)在屏幕中栩栩如生的AI角色,多少讓人有種《serial experiments lain》那樣的恍惚感。 

不過(guò)這類(lèi)開(kāi)源大模型,通常數據都會(huì )比較滯后,因此在專(zhuān)業(yè)性知識上會(huì )有比較明顯的欠缺,實(shí)測大部分知識庫都是到2022年中旬為止,也沒(méi)有任何調用外部網(wǎng)絡(luò )資源的辦法,輔助辦公、查閱資料時(shí)會(huì )遇到很大的局限性。 

在我看來(lái),理想的大語(yǔ)言模型體驗應該是端云互動(dòng)的。

即我可以在本地,利用自己的大模型建立自己的知識庫,但是需要用到時(shí)效性信息的時(shí)候,又能借助互聯(lián)網(wǎng)的力量獲取最新資訊,這樣既可以保護個(gè)人資料的隱私性,也算是有效解決了開(kāi)源大模型信息滯后的問(wèn)題。 

至于本地角色交流這塊,如果大家感興趣的話(huà)…… 

要不,我把雷科技的角色卡給整出來(lái)?

來(lái)源:雷科技

       原文標題 : AI大潮下,搭建本地大模型的成本在急速降低

聲明: 本文由入駐維科號的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權或其他問(wèn)題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長(cháng)度6~500個(gè)字

您提交的評論過(guò)于頻繁,請輸入驗證碼繼續

暫無(wú)評論

暫無(wú)評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號