在不久前發(fā)布的《技術(shù)實(shí)戰 | OK3588-C開(kāi)發(fā)板上部署DeepSeek-R1大模型的完整指南》一文中,小編為大家介紹了DeepSeek-R1在飛凌嵌入式OK3588-C開(kāi)發(fā)板上的移植部署、效果展示以及性能評測,本篇文章不僅將繼續為大家帶來(lái)關(guān)于DeepSeek-R1的干貨知識,還會(huì )深入探討多種平臺的移植方式,并介紹更為豐富的交互方式,幫助大家更好地應用大語(yǔ)言模型。![]() 1.移植過(guò)程 1.1 使用RKLLM-Toolkit部署至NPU RKLLM-Toolkit是瑞芯微為大語(yǔ)言模型(LLM)專(zhuān)門(mén)開(kāi)發(fā)的轉換與量化工具,可以將訓練好的模型轉化為適應瑞芯微平臺的RKLLM格式。該工具針對大語(yǔ)言模型進(jìn)行了優(yōu)化,使其能高效地在瑞芯微的NPU(神經(jīng)網(wǎng)絡(luò )處理單元)上運行。上一篇文章中提到的部署方式即為通過(guò)RKLLM-Toolkit進(jìn)行的NPU部署。具體步驟如下: (1) 下載RKLLM SDK: 首先從GitHub下載RKLLM SDK包,并上傳至虛擬機。SDK下載鏈接: [GitHub - airockchip/rknn-llm](https://github.com/airrockchip/rknn-llm)。 ![]() (2) Python版本檢查: 確保安裝的SDK版本與目標環(huán)境兼容(目前只支持python3.8或python3.10)。 ![]() (3) 準備虛擬機環(huán)境: 在虛擬機中安裝rkllm-toolkit輪子,輪子包路徑(rknn-llm-main\rkllm-toolkit)。
![]() (4) 下載模型: 選擇需要部署的DeepSeek-R1模型。
![]() (5) 使用示例代碼進(jìn)行模型轉換: 在rknn-llm-main\examples\DeepSeek-R1-Distill-Qwen-1.5B_Demo路徑下,使用RKLLM-Toolkit提供的示例代碼進(jìn)行模型格式轉換。
![]() (6) 編譯可執行程序: 通過(guò)運行deploy下build-linux.sh腳本(將交叉編譯器路徑替換為實(shí)際路徑)直接編譯示例代碼。這將在目錄中生成一個(gè)文件夾,其中包含可執行文件和文件夾。
![]() 進(jìn)行交叉編譯生成可執行文件。
![]() (7) 部署模型: 將已編譯好的 _W8A8_RK3588.rkllm 文件和librkllmrt.so動(dòng)態(tài)庫文件(路徑為:rknn-llm-main\rkllm-runtime\Linux\librkllm_api\aarch64 ),一同拷貝到編譯后生成的 build_linux_aarch64_Release 文件夾內,然后將此文件夾上傳到目標板端。 接著(zhù),為目標板端build_linux_aarch64_Release文件夾中的 llm_demo 文件添加執行權限并執行它。
優(yōu)勢與不足: - 優(yōu)勢:部署至NPU后,大語(yǔ)言模型能高效運行,性能表現優(yōu)異,且對CPU資源的占用較少。 - 不足:相較于其他方法,部署過(guò)程稍顯復雜,需要較強的技術(shù)背景和經(jīng)驗。 1.2 使用Ollama一鍵部署至CPUOllama是一個(gè)開(kāi)源的本地化大型語(yǔ)言模型(LLM)運行框架,支持在本地環(huán)境下運行各種開(kāi)源LLM模型(如LLaMA、Falcon等),并提供跨平臺支持(macOS、Windows、Linux)。 通過(guò)Ollama,用戶(hù)可以無(wú)需依賴(lài)云服務(wù),輕松部署和運行各種大語(yǔ)言模型。盡管Ollama支持快速部署,但由于DeepSeek-R1尚未在RK3588芯片上進(jìn)行優(yōu)化,因此只能在CPU上運行,可能會(huì )占用較高的CPU資源。具體步驟如下: (1) 下載Ollama: 根據需要下載并安裝Ollama,
若下載速度較慢,可參考以下鏡像方式進(jìn)行加速。
![]() (2) 查看Ollama結果: 確認Ollama正確安裝,并運行相關(guān)命令查看部署結果。
![]() (3) 下載DeepSeek-R1: 從Ollama官網(wǎng)渠道獲取下載DeepSeek-R1模型的指令。 ![]() (4) 運行DeepSeek-R1: 通過(guò)Ollama命令行接口啟動(dòng)DeepSeek-R1模型。
優(yōu)勢與不足: - 優(yōu)勢:部署過(guò)程簡(jiǎn)便快捷,適合快速測試和應用。 - 不足:因模型未針對RK3588優(yōu)化,在CPU上運行時(shí)可能導致較高的CPU占用,影響性能。 2.在FCU3001平臺上部署其他大模型 除了DeepSeek-R1,Ollama還支持部署其他大語(yǔ)言模型,如通義千問(wèn)(Qwen)等,這展示了Ollama的廣泛適用性。接下來(lái),我們以通義千問(wèn)為例,在飛凌嵌入式推出的一款搭載英偉達處理器的AI邊緣計算終端 FCU3001(基于NVIDIA Jetson Xavier NX處理器)上部署大語(yǔ)言模型: FCU3001通過(guò)其強大的計算能力和優(yōu)化的軟件支持,能夠高效地運行Ollama所支持的大語(yǔ)言模型,如通義千問(wèn)。在部署過(guò)程中,我們可以充分利用Ollama提供的靈活性和易用性,確保大語(yǔ)言模型在FCU3001上穩定、流暢地運行。步驟如下: (1) 安裝CUDA環(huán)境: 可以使用NVIDIA Jetson Xavier NX的GPU來(lái)運行模型。Ollama的安裝方法可以參考上述。
(2) 進(jìn)入Ollama官網(wǎng): 瀏覽Ollama支持的其他模型。 ![]() (3) 選擇版本: 從Ollama支持的模型列表中選擇千問(wèn)Qwen 1.8B版本。 ![]() (4) 運行模型: 在Ollama環(huán)境下,使用命令ollama run qwen:1.8b啟動(dòng)通義千問(wèn)模型。
3.交互方式 在前述的部署方式中,交互方式主要基于串口調試,缺少圖形界面,無(wú)法展示圖片、表單等元素,也不能呈現歷史對話(huà)。為了提升用戶(hù)體驗,我們可以通過(guò)集成ChatboxUI或WebUI等方式,提供更為豐富的交互體驗。 3.1 Chatbox UIChatbox是一款集成多種語(yǔ)言模型的AI助手工具,支持如ChatGPT、Claude等多種模型。它不僅具備本地數據存儲和多語(yǔ)言切換功能,還支持圖像生成、Markdown和LaTeX等格式,提供人性化的界面和團隊協(xié)作功能。Chatbox支持Windows、macOS、Linux系統,用戶(hù)可在本地快速實(shí)現對大語(yǔ)言模型的交互。步驟如下: (1) 下載Chatbox: 從Chatbox官網(wǎng)(https://chatboxai.app/zh)下載適合的安裝包。 ![]() (2) 安裝并配置: 下載完成后是一個(gè)Chatbox-1.10.4-arm64.AppImage的文件,其實(shí)就是一個(gè)可執行文件,添加權限即可運行,就可以配置本地ollama API下的LLM模型了。
![]() 搭建WebUI環(huán)境。
(2) 啟動(dòng)Web UI: 使用open-webui serve啟動(dòng)Web UI應用,服務(wù)器的IP地址和端口號為0.0.0.0:8080。 open-webui serve 出現以下紅框信息證明啟動(dòng)成功。 (3) 訪(fǎng)問(wèn)Web UI: 在瀏覽器中輸入IP地址和端口號,打開(kāi)Web UI界面,開(kāi)始與大語(yǔ)言模型互動(dòng)。 注冊賬號 4.總結 本文全面展示了OK3588-C開(kāi)發(fā)板及FCU3001邊緣AI網(wǎng)關(guān)上大語(yǔ)言模型的多種移植方式,并介紹了如何通過(guò)ChatboxUI和WebUI等多種交互方式提升用戶(hù)體驗。 飛凌嵌入式推出了多款嵌入式AI產(chǎn)品,如OK3588-C、OK3576-C、OK-MX9352-C、OK536-C等開(kāi)發(fā)板,還有AI邊緣計算終端FCU3001,算力范圍從0.5TOPS到21TOPS不等,可以滿(mǎn)足不同客戶(hù)的AI開(kāi)發(fā)需求。如果您對這些產(chǎn)品感興趣,歡迎隨時(shí)與我們聯(lián)系,飛凌嵌入式將為您提供詳細的技術(shù)支持與指導。 |
微信圖片_2025-04-24_112628_443.png (101.79 KB)
微信圖片_2025-04-24_112633_707.png (115.88 KB)