到底深度學習效能相當於 250 台 x86 超級電腦的 NVIDIA DGX-1 長甚麼樣子?在 GTC 2016 的展示區中,擺放了一台展示用的主機,這款超級電腦的尺寸大約是 4U 伺服器的尺寸,但卻一口氣放了八塊 NVIDIA Tesla P100 模組,相較去年發表的 DIGITS DevBox 的 GPU 數量多了一倍。

主要的原因仍在於 DGX-1 所採用的 Pascal 架構的 Tesla P100 採用 HBM2 記憶體搭配 16nm FinFET 製程,使 GPU 主板上少了原本用於配置記憶體的位置,加上通道棄用 PCIe 而採用基於光纖的 NVLink ,也使 GPU 主板設計不用屈就 PCIe 的金手指接腳,尺寸也更為微縮化。

在與現場工作人員詢問下, Pascal 在架構上終於實現原本預計於 Maxwell 就要導入的統一記憶體技術,意味著 DGX-1 當中的八張各 16GB RAM 的 Tesla P100 共能獲得高達 128GB 的共享記憶體,並透過高速的 NVLink 使各 GPU 能夠快速地存取跨 GPU 之共享記憶體中的資料。

不過可惜的是 Intel 的 Xeon 並不支援 NVLink 技術,故在 DGX-1 的設計上,八張 Tesla P100 透過一張具備 NVLink 通道的主板連接之後,再透過橋接晶片轉換成 PCIe 通道與 CPU 溝通,也 Xeon 也還無法透過 NVLink 與 GPU 進行對等的命令。

gtcd103.jpg

這是因為對於目前開發者而言, x86 架構還是比較熟悉的開發環境,雖 IBM Power 8 CPU 架構能夠支援 NVLink 使 Pascal 技術獲得最佳效能,但最終仍選擇基於 x86 架構的 Intel Xeon 作為 CPU 。

不過相較過去的架構,由於 NVLink 使得 GPU 與 GPU 之間可以相互溝通,此外 GPU 記憶體也可進行共享,故對 CPU 而言它並非控管 8 張 GPU ,而是一個大型的 GPU 加速器,相較過往的平行運算,也減少 CPU 與多 GPU 反覆溝通的次數,效能也有著飛躍性的提升。

NVIDIA 也在稍早主題演講中表示搭載 Tesla P100 的伺服器也將在第一季陸續出貨,意味著這些新式伺服器也可能如 DGX-1 一樣透過 NVLInk 主板將 GPU 連接後,再透過 PCIe 通道與 x86 CPU 進行溝通。

 

引用來源:https://www.cool3c.com/article/104773  癮科技

arrow
arrow

    大當家 發表在 痞客邦 留言(0) 人氣()