英特爾就第一時間優化并驗證了80億和700億參數的Llama 3模型,憑借英特爾銳炫顯卡的強大性能,開發者能夠輕松在本地運行Llama 3模型,為生成式AI工作負載提供加速。
Meta此前已經發布了新一代Llama 3大語言模型,在發布后不久,英特爾就第一時間優化并驗證了80億和700億參數的Llama 3模型在英特爾AI產品組合上的運行情況。在客戶端領域,測試表明憑借英特爾銳炫顯卡的強大性能,開發者能夠輕松在本地運行Llama 3模型,為生成式AI工作負載提供加速。
此外,英特爾酷睿Ultra H系列處理器展現出了高于普通人閱讀速度的輸出生成性能,而這一結果主要得益于其內置的英特爾銳炫GPU,該GPU具有8個Xe核心,以及DP4a AI加速器和高達120 GB/s的系統內存帶寬。
英特爾酷睿Ultra處理器和英特爾銳炫顯卡在Llama 3模型發布的第一時間便提供了良好適配,這彰顯了英特爾和Meta攜手為本地AI開發和數百萬設備的部署所作出的努力。英特爾客戶端硬件性能的大幅提升得益于用于本地研發的PyTorch和英特爾PyTorch擴展包等豐富的軟件框架與工具,以及用于模型部署和推理的OpenVINO工具包。
而根據具體的測試樣例來看,在使用IPEX-LLM庫運行70億參數的Mistral模型時,銳炫A770 16GB顯卡每秒可以處理70個token(TPS),比使用CUDA的GeForce RTX 4060 8GB的TPS高出70%。英特爾內部測試表明,銳炫A770 16GB顯卡在運行大模型時能夠提供卓越的性能。相比RTX 4060,銳炫A770 16GB顯卡在運行大多數模型時具備極有競爭力或領先的性能,這也使其成為在本地運行大語言模型的更優選擇。