让AI无处不在！Intel祭出全新VPU：超高能效碾压GPU_全球快看

AI，人工智能，這個東西其實一旦都不新鮮。

從早些年的科幻作品，到后來的逐步落地，從1997年IBM超級電腦深藍”擊敗國際象棋大師卡斯帕羅夫，到2016年Google AlphaGo戰勝圍棋冠軍李世石，AI一直都在進步，也一直在演化。

但因為算力算法、技術能力、應用場景等方面的種種限制，AI一直有些空中樓閣的感覺。

(資料圖片僅供參考)

直到出現了ChatGPT，AI才真正引燃了普通人的熱情，讓我們編程客棧發現，AI竟然如此強大，又如此唾手可得，讓眾多個體、企業為之興奮，為之癲狂。

眾所周知，足夠強大與合理的硬件、算法，是實現高效、實用AI的兩大基石，而在這一番AI熱潮中，NVIDIA之所以春風得意，就得益于其在高性能計算領域多年來的布局和深耕，非常適合超大規模的云端AI開發。

當然，AI無論實現方式還是應用場景都是多種多樣的，既有云側的，也有端側的。

NVIDIA的重點在云側和生成式AI，Intel在云側生成式、端側判定式同時出擊，而隨著越來越多的AI跑在端側，更貼近普通用戶日常體驗，所帶來的提升越來越明顯，Intel更是大有可為。

端側AI有幾個突出的特點：

一是用戶規模龐大，應用場景也越來越廣泛；

二是延遲很低，畢竟不需要依賴網絡將指令、數據傳到云側處理再返回；

三是隱私安全，不用擔心個人信息、商業機密等上傳后泄露；

四是成本更低，不需要大規模服務器和計算，只需本地設備即可完成。

端側AI，說起來大家可能會感覺很陌生，但其實，人們習以為常的背景模糊、視覺美顏、聲音美化(音頻降噪)、視頻降噪、圖像分割等等，都是端側AI的典型應用場景，背后都是AI在努力。

這些應用要想獲得更好的效果，就需要更完善、復雜的網絡模型，對于算力的需求自然也在快速增長。

比如噪音抑制，算力需求已經是兩年前的50倍，背景分割也增長了10倍以上。

更不要說生成式AI模型出現后，對算力的渴求更是飛躍式的，直接就是數量級的提升，無論是Stable Diffusion，還是語言類GTP，模型參數都是非常夸張的。

比如GPT3的參數量達到了1750億左右，相比GPT2增加了幾乎500倍，GPT4估計可達到萬億級別。

這些都對硬件、算法提出了更苛刻的要求。

Intel自然也早就開始關注并投入AI，無論是服務器級的至強，還是消費級的酷睿，都在以各種方式參與AI，XX代智能酷睿處理器”的說法就在很大程度上源于AI。

在此之前，Intel AI方案主要是在CPU、GPU的架構、指令集層面進行加速。

比如從十代酷睿和二代可擴展至強加入的基于深度學習的DL Boost，包括VNNI向量神經網絡指令、BF16/INT8加速等等。

比如11代酷睿加入的高斯網絡加速器GNA 2.0，相當于NPU的角色，只需消耗很低的資源，就能高效進行神經推理計算。

比如代號Sapphire Rapids的四代可擴展至強上的AMX高級矩陣擴展，使得AI實時推理和訓練性能提升了多達10倍，大型語言模型處理速度提升了足有20倍，同時配套的軟件和工具開發也更加完善豐富。

在Intel看來，沒有單一的硬件架構適用于所有的AI場景，不同硬件各有特點，有的算力強大，有的延遲超低，有的全能，有的專攻。

AI作為基礎設施也有各種各樣的場景應用和需求，負載、延遲都各不相同，比如實時語音和圖像處理不需要太強的算力，但是對延遲很敏感。

這時候，Intel XPU戰略就有著相當針對性的特殊優勢，其中CPU適合對延遲敏感的輕量級AI處理，GPU適合重負載、高并行的AI應用。

Intel另一個無可比擬的優勢就是穩固、龐大的x86生態，無論應用還是開發，都有著廣泛的群眾基礎。

現在，Intel又有了VPU。

將在今年晚些時候發布的Meteor Lake，會首次集成獨立的VPU單元，而且是所有型號標配，可以更高效地執行特定AI運算。

Intel VPU單元的技術源頭來自Intel 2017年收購的AI初創企業Movidius，其設計的VPU架構是革命性的，只需要1.5W功耗就能實現4TOPS的強大算力，能效比簡直逆天，最早用于無人機避障等，如今又走入了處理器之中，與CPU、GPU協同發力。

VPU本質上是專為AI設計的一套新架構，可以高效地執行一些矩陣運編程客棧算，尤為擅長稀疏化處理，其超低的功耗、超高的能效非常適合一些需要長期打開并執行的場景，比如視頻會議的背景虛化、移除，比如流媒體的手勢控制。

之所以在已經有了CPU、GPU的情況下，還要做一個VPU，Intel的出發點是如今很多端側應用是在筆記本上進行，對于電池續航非常敏感，高能效的VPU用在移動端就恰如其分。

另一個因素是CPU、GPU作為通用計算平臺，本身就任務繁重，再給它們增加大量AI負載，執行效率就會大打折扣。

具體到應用場景，VPU也是非常廣泛的，比如說視頻會議，現在的CPU AI已經可以實現自動構圖(Auto-Framing)、眼球跟蹤、虛擬頭像/人像、姿勢識別等等。

加入低功耗、高算力的VPU之后，還可以強化背景模糊、動態降噪等處理，讓效果更加精準，比如說背景中的物體該模糊的一律模糊、人手/頭發等不該模糊的不再模糊。

有了高效的硬件、合適的場景，還需要同樣高效的軟件，才能釋放全部實力、實現最佳效果，這對于擁有上萬名軟件研發人員的Intel來說，真不是事兒。

Meteor Lake還沒有正式發布，Intel已經與眾多生態伙伴在VPU方面展開了合作適配，獨立軟件開發商們也非常積極。

比如Adobe，很多濾鏡、自動化處理、智能化摳圖等，都可以用VPU來跑。

比如Unreal Engine虛幻引擎的數字人，比如虛擬主播，VPU都能很好地實時捕捉、渲染處理。

Blender、Audacity、OBS、GIMP這個名單可以拉出很長一串，而且還在不斷增加。

更重要的是，CPU、GPU、VPU并非各行其是，而是可以聯合起來，充分發揮各自的優勢，達到最好的AI體驗效果。

比如說基于GIMP里就有一個基于Stable Diffusion的插件，可以大大降低普通用戶使用生成式AI的門檻，它就能充分調動CPU、GPU、VPU各自的加速能力，把整個模型分散到不同IP之上，彼此配合，獲得最好編程性能。

其中，VPU可以承載VNET模塊運行，GPU用來負責編碼器模塊執行，通過這樣的合作，生成一張復雜的圖片也只需20秒左右。

在這其中，VPU的功耗是最低的，CPU次之，GPU則是最高的。

Intel已經充分意識到AI對于PC體驗增強的重要性，而為了迎接這一挑戰，Intel正在硬件、軟件兩個層面全力推進，對AI在的端側的發展、普及打下堅實的基礎。

硬件層面，CPU、GPU、VPU將組成無處不在的底層平臺；軟件層面，OpenVINO等各種標準化開發軟件將大大推動應用場景的挖掘。

未來，搭載Meteor Lake平臺的輕薄筆記本就可以輕松運行Stable Diffusion這種大模型來實現文生圖，大大降低AI的應用門檻，無論判定式AI還是生成式AI都能高效執行，最終實現真正的AI無處不在。

關鍵詞：

責任編輯：Rex_06

讓AI無處不在！Intel祭出全新VPU：超高能效碾壓GPU_全球快看