迎接開普勒第一彈:最強GPU最全爆料!
架構方面,開普勒會有什么變化?
Tahiti的GCN架構和沿用多年的VLIW架構相比,可謂面目全非了。
Tahiti徹底拋棄VLIW架構
通過Tahiti的整體架構圖我們看到,傳統的SIMD流處理器陣列消失了,取而代之的是GCN陣列,Tahiti總計擁有2048個流處理器,這樣每個GCN陣列里面擁有64個流處理器。現在來看看GCN陣列的微觀結構。
GCN與GF100的SM何其相似
Tahiti的GCN陣列微觀結構
GCN陣列里有4組SIMD單元,每組SIMD單元里面包括16個流處理器、或者說是標量運算器。GCN架構已經完全拋棄了此前5D/4D流處理器VLIW超長指令架構的限制,不存在5D/4D指令打包-派發-解包的問題,所有流處理器以16個為一組SIMD陣列完成指令調度。簡單來說,以往是指令集并行,而現在是線程級并行。
GF100的SM(流處理器簇)微觀結構
可以這么理解,一個GCN陣列與GF100當中的一組SM相當,GF100的一組SM當中有4組共計32個流處理器,而Tahiti的一組GCN當中有4組共計64個流處理器。
在流處理器部分,終于不用費勁的把AMD和NVIDIA GPU架構分開介紹了,因為GCN與SM已經沒有本質區別。剩下的只是緩存容量、流處理器簇的數量、線程調度機制的問題,雙方根據實際應用自然會有不同的判斷,自家的前后兩代產品也會對這些數量和排列組合進行微調。
在流處理器部分,我們看到Tahiti與GF100如此相似,那么接下來看到緩存設計時,您可能會要驚呼了……看圖說話:
Tahiti的緩存結構
最直觀的,Tahiti有一個容量為768KB二級緩存,這個容量與GF100的L2完全相同,都可以進行讀寫操作。
架構方面AMD的浮點性能游戲性能一直不錯,通用計算方面則比較落后,反之NVIDIA最需要改進的就是對游戲性能影響很到的單精度浮點計算能力。總的來說NVIDIA的CUDA核心被AMD借鑒了個八九不離十,而AMD的三屏,公版數字供電很有可能在開普勒身上看到,趨勢顯而易見——兩大顯卡巨頭,在競爭的同時一直在互相模仿,取長補短。
有消息說GK104的單精度浮點效率0是Fermi的1.5-2倍,請注意這是效率,如果沒有架構的真正革新,是不會有如此之大的提升的。又有小道消息說GK104居然會有1536流處理器!大家知道GF110才有512 CUDA核心,即便是28nm工藝也無法集成這么多的傳統CUDA核心!
既然AMD都借鑒NVIDIA的架構了,NVIDIA會不會也來個拿來主義?這次開普勒是否會借鑒AMD的架構優點而彌補自身的缺點?或者之前流傳的規格都是錯的,小道消息才是正解?架構方面NVIDIA之開普勒身上會不會有AMD架構的影子?
也許上面的預測比較大膽,但有一點現在基本可以確定,ALU(Pixel Shader)規模的大幅放大以及分頻方案的放棄了。天下大勢合久必分分久必合,因為合有合的道理,分有分的原因。當初的G71核心中,NV首次將ALU頻率和核心頻率分開,之后的G80開始ALU頻率可以自由設定,到GT200的固定倍頻,最后GF100ALU頻率是核心雙倍。
這些其實都是綜合考量當時的游戲和硬件需求而設計的。
在Fermi時代雙倍頻設計讓NV得以用30%的ALU規模達成了60%的吞吐總量。節約了寶貴的晶體管強化周邊緩沖資源。
但ALU的頻率也不是沒有極限的,一方面過高的ALU運行頻率造就更高的局部發熱,另一方面核心頻率無法運行在更高的水平。當工藝改進,核心頻率可以攀登更高水平的時候,棄用分頻技術也是情理之中。
胡謅指數:★★★;
關注我們



