流處理器緣何差6倍!A/N GPU架構(gòu)解析
G92雖然有著眾多G80所不具備的新特性,但本質(zhì)上來講它是G80削減成本的產(chǎn)物。而NVIDIA真正第二代DX10核心應(yīng)該是GT200才對,下面我們就看看GT200相對于G80的改進(jìn)。
● GT200架構(gòu)的變化
眾所周知,GT200最大的變化就是擁有240個流處理器,而且顯存位寬高達(dá)512bit,當(dāng)然這只是表象,真正核心架構(gòu)方面的改進(jìn)如下:
G80/G92擁有128個流處理器,這些流處理器分為8組TPC(線程處理器簇),每組16個SP(流處理器),這16個SP又分為兩組SM(多核流處理器),SM是不可拆分的最小單元,是8核心設(shè)計。
GTX200將TPC數(shù)量從8個擴(kuò)充至10個,而且在每個TPC內(nèi)部,SM從2個增加到3個,SM依然是8核心設(shè)計。如此一來,GTX200核心的流處理器數(shù)量就是,8×3×10=240個,幾乎是G80的兩倍,但卻不是256個。
紋理單元部分,GTX200的每個TPC內(nèi)部擁有8個TF,這樣總共就是8×10=80個紋理單元。G80/G92的流處理器與紋理單元的比率是128:64=2:1,而GT200的流處理器與紋理單元的比率是240:80=3:1,正是GT200微架構(gòu)方面的變化造成了這一結(jié)果。
● GTX200核心微架構(gòu)改進(jìn)
GTX200核心在流處理器、紋理單元數(shù)量上的擴(kuò)充是很容易理解的,其實除了擴(kuò)充規(guī)模之外,在架構(gòu)的細(xì)微之處還有不少的改進(jìn),這些都有助于提高新核心在未來游戲或通用計算中的執(zhí)行效能:
1. 每個SM可執(zhí)行線程上限提升:G80/G92核心每個SM(即不可拆分的8核心流處理器)最多可執(zhí)行768條線程,而GTX200核心的每個SM提升至1024條,而且GTX200擁有更多的SM,芯片實力達(dá)到原來的2.5倍!

2. 每個SM的指令寄存器翻倍:GTX200與G80核心在SM結(jié)構(gòu)上基本相同的,但功能有所提升,在執(zhí)行線程數(shù)增多的同時,NVIDIA還將每個SM中間的Local Memory容量翻倍(從16K到32K)。Local Memory用于存儲SM即將執(zhí)行的上千條指令,容量增大意味著可以存儲更多的指令、超長的指令、或是各種復(fù)雜的混合式指令,這對于提高SM的執(zhí)行效能大有裨益。

雙倍寄存器的優(yōu)勢:代表DX10性能的3DMarkVantage得分直接提升15%
當(dāng)前和未來的DX10游戲,越來越多的使用復(fù)雜的混合式Shader指令,一旦排隊中的超長指令溢出或者在N個周期內(nèi)都排不上隊,那么就會造成效率下降的情況,此時雙倍寄存器容量的優(yōu)勢就體現(xiàn)出來了。由于Local Memory并不會消耗太多晶體管,因此將其容量翻倍是很合算的。
關(guān)注我們


