PCIE X1都夠用?顯卡到底需要多少帶寬
泡泡網顯卡頻道9月5日 電影《功夫》里的終極BOSS火云邪神說過一句話:“天下武功,無堅不破,唯快不破”,功夫再高也怕被人瞬間秒殺。這說明無論是防守還是進攻,速度都是決定性因素,對速度有著極度需求的還有電腦上的系統總線。系統總線是是用來連接處理器與其他部件的一束信號線, 通過系統總線架起了處理器與其他部件之間進行信息傳遞的通道。
它的歷史悠久,三十年前個人電腦剛剛問世的時候就開始存在,但是相比PC部件中的CPU、顯卡1-2年就要換一代的發展速度,系統總線的發展可謂龜速,自從IBM于1982主導制定了ISA標準以來,目前只有ISA、92年發布的PCI和2001年發布的PCI Express三種標準規范,基本上每隔10年才更換一次架構,目前的主流是PCI-E 2.0。
PCI-E總線在顯卡上應用的如此成功,以至于一提到PCI-E,很多人第一個想到的就是顯卡,實際上PCI-E更多地是作為系統總線存在的,不僅是顯卡的數據要通過它,就連我們使用最多的USB、SATA等其他接口的數據最終都是通過PCI-E總線才能與CPU鏈接。
正因為此,主板上PCI-E通道數量的多少往往成為衡量主板性能等級的重要指標之一,別看有些主板提供了三條或者四條顯卡插槽,但是由于芯片組或CPU提供的PCI-E通道不足,實際使用中會有很大局限。
目前PCI-E的主流標準是2.0,下一代PCI-E 3.0標準也公布了很久了,只是相關的硬件還沒有完全到位,只有CPU、主板和顯卡同時支持之后我們才能享受到PCI-E 3.0帶來的快感。
單位換算:“位(bit)”和“字節(byte)”的關系大家都知道了,理論上1byte=8bit,1GB=8Gb,1GBps=8Gbps,還有一個單位是Transfer/s(縮寫T/s),這是一個速率單位,在AMD的HT和Intel的QPI介紹中很常見,1T/s與1bps/s可以看作是等價的,即1B=8b=8T/s。
● 需要注意的是,在一些新的技術標準中,為了防止數據在高速傳輸中出錯而加入了校驗碼,比如PCI-E 2.0、USB 3.0和SATA 3.0中采用的是8/10編碼,每10位編碼中只有8位是真實數據,這時單位換算就不再是1:8而是1:10了,USB 3.0的5Gbps速度實際上是理論500MB/s而非理論625MB/s,SATA 6Gbps的理論速度則是600MB/s而非750MB/s。
● 帶寬計算:PCI-E的帶寬計算與顯存帶寬(B/s)=運行頻率(MHz)*數據倍率*顯存位寬(bit)?相類似,只是前者公式略微復雜一些,串行PCI-E帶寬(B/s)=PCIE時鐘頻率*每周期數據位(bit)*總線通道數*編碼方式?,以最常見的PCI-E 2.0 x16插槽為例,其時鐘頻率為5GHz(通過基準頻率和PLL鎖相環得到),每周期可傳輸2bit數據,16條通道,8/10編碼,其傳輸總帶寬=5000*2*16*8?0?=16GB/s。
首先,向大家簡單講解一下PCI-E接口的針腳定義。從顯卡金手指部分的走線上可以非常清楚的分辨出單個通道的線路。如下圖所示,顯卡正面,每個紅色箭頭指向一個PCI-E通道。黑色圓圈內為顯示核心的PCI-E第十三根通道連接顯卡第十三根PCI-E通道金手指的PCB走線,正面每通道只有兩根走線是數據所用,與GPU連接,其余為地線。相同的,每根PCI-E通道都可以通過此方法來分辨出來。
我們通過用膠帶覆蓋顯卡PCI-E接口金手指的方法來屏蔽,由于PCI-E每個通道彼此互相獨立,并且支持通道數量向下兼容(如果x16設備插在x1槽上,則自動降為x1)。
其中數據分通道傳輸模式即PCI-E總線的x1、x2、x4、x8、x12、x16和x32多通道連接,x1單向傳輸帶寬即可達到250MB/s,雙向傳輸帶寬更能夠達到500MB/s。目前我們所用的PCI-E顯卡就是基于分通道傳輸模式的x16通道連接。
● 注意:PCI-E通道只支持 x1、x4、x8、x16、x32模式,如果屏蔽了16根中的1根是無法達到PCI-E x15模式的,系統會將之降級為PCI-E x8模式。因此,想玩非主流的同學會有所失望。
為了充分體驗出PCI-E接口不同通道數的性能差距,我們選用了當前最高端但核心顯卡某品牌GTX580來做測試用卡,平臺配置如下圖所示。
關于為什么用GTX580會比較準確的問題的解釋。GTX580有512個CUDA核心,擁有相當強大的計算性能,因此對帶寬的要求會很高。
測試項目介紹:3D Mark Vantage、3D Mark 11、ComputeMark 2.1、IghashGPU、Cyber LinkMediaShow 6.5、《街霸4》、《鷹擊長空》、《塵埃2》、《地鐵2033》。其中3D Mark Vantage和3D Mark 11是測試各模式下顯卡的理論3D性能,ComputeMark 2.1測試顯卡的DirectCompute通用計算性能,IghashGPU測試顯卡CUDA的暴力破解密碼能力,CyberLink MediaShow 6.5測試CUDA視頻轉碼性能,游戲則是用來測試實際3D性能用的,為了測試出最真實的性能成績,所有游戲分辨率為1920x1200,特效均開到最高并且開啟4xAA和16xAF。
● DX10理論性能測試:3DMark Vantage
3DMark Vantage已于2008年4月28日發布,是業界第一套專門基于微軟DX10 API打造的綜合性基準測試工具,并能全面發揮多路顯卡、多核心處理器的優勢,能在當前和未來一段時間內滿足PC系統游戲性能測試需求。和3DMark05的DX9專用性質類似,3DMark Vantage是專門為DX10顯卡量身打造的,而且只能運行在Windows Vista SP1操作系統下。它包括兩個圖形測試項目、兩個處理器測試項目、六個特性測試項目。
● DX11理論性能測試:3DMark 11
PC游戲隨去年Windows 7的發布進入DirectX 11時代,然而眾多“參賽選手”DX11顯卡早已磨拳擦掌準備上陣廝殺,我們卻遲遲沒有一個權威性的基準測試軟件,來衡量游戲顯卡DX11性能的高低。終于,DX11時代的3DMark在今天來到了我們面前。
我們通過圖表可以更為清晰的得到PCI-E接口在各個模式下的總體性能。對于3D Mark Vantage來說,x1模式下,PCI-E接口成了系統性能的最大瓶頸,相比x4模式低了約3000分,當PCI-E通道數達到了x4,性能就比較穩定了,與x8、x16差距不是很明顯,這主要是由于3D Mark對GPU的要求是第一位的,對于PCI-E通道帶寬需求并不明顯。相同的,3D Mark 11也是如此。
● 超級街霸4:
《超級街頭霸王4:Super Street Fighter IV》是繼《街頭霸王IV》后CAPCOM推出的“街霸”最新作,如名所示,本作在《街頭霸王IV》的系統基礎上追加眾多新要素,T.Hawk等過去作品的登場角色將在本作中出現,除此之外還加入如“茱莉(ジュリ)”等新角色。
實際游戲測試中對于GPU要求不高的《街頭霸王4》顯現出了PCI-E高帶寬下的優勢,從PCI-E x1到PCI-E x16模式,性能提升了接近一倍。每提升PCI-E接口的一個檔次,性能也隨之提升一個檔次,直到PCI-E x8提升為PCI-E x16性能提升率才略有下降。
● 鷹擊長空:
《HAWX》的故事背景設定在2012年,私人企業武裝力量日趨強大,世界正處在分崩離析陷入大戰的邊緣。玩家可以駕駛超過50種戰機在高空中打擊敵方力量。除了單人游戲外,游戲還將支持4人協同的編隊模式,以及最高16人的對戰模式。
在對GPU性能需求略有提升的《鷹擊長空》中,PCI-E x1與其他模式差距依然很大。直到提升到x8模式,性能得到顯著的提升,當提升到x16模式的時候,性能與x8模式的差距基本上不是很明顯。
● 塵埃2:
良好的賽車穩定性、制動性和簡單的賽道設計大大降低游戲難度,即使是賽車菜鳥也可以容易上手;比賽結束后的重播功能讓玩家可以自由選擇視角和控制播放進度,加上出色的畫面、良好的駕駛手感、杰出的單人游戲設定、在各種跑道上的不同操控感覺,極具臨場感的《科林麥克雷:塵埃2》絕對適合所有喜愛賽車游戲的玩家。
在《塵埃2》測試中,PCI-E x1模式依然與其他模式有很大差距,x4、x8、x16各模式下性能差距也很明顯。
● 地鐵2033:
《地鐵2033》題材基于俄羅斯最暢銷小說Dmitry Glukhovsky。由烏克蘭4A游戲工作室開發,采用4A游戲引擎,而且PC版支持nvidia的PhysX物理特效。 2013年,由于大面積的核泄漏,導致幾乎所有的人類都被消滅,而且地面已經被污染無法生存,極少數幸存者存活在莫斯科的深度地下避難所里(俄羅斯的地鐵站在建造之初就有防空防炸防核防輻射的設計)人類文明進入了新的黑暗時代。直至2033年,整整一代人出生并在地下成長,他們長期被困在“地鐵站”的城市。
《地鐵2033》是目前對GPU性能要求最高的游戲之一,PCI-E x1模式依然是性能瓶頸,當提升到x4模式的時候性能與提升到x8、x16的差距微乎其微,都是很卡。
● GPU加密解密測試:
GPU破解RAR密碼,這是一個相當有趣的小工具,能夠讓你用 GPU 暴力破解密碼。
GPU CUDA解密貌似對PCI-E帶寬非常非常非常不敏感,不管是x1、x4、x8還是、x16模式,解密的速度都是一樣的。
● DirectCompute理論測試:
微軟在DX11中引入了通用計算接口標準DirectCompute,并在渲染架構中新增了Compute Shader,都是為了發揮GPU的并行計算優勢,將其應用范圍從單純的圖形渲染拓展到更多計算領域,因此通用計算性能的高低將在今后成為衡量顯卡整體性能的一部分。
ComputeMark由捷克硬件和游戲網站CzechGamer.com的Robert Varga開發完成,技術上基于Jan Vlietinck的Fluid3D Demo,號稱是“第一個百分之百的DX11 Compute Shader基準測試工具”,一般情況下能夠調動99%的GPU資源,CPU占用率只有0-1%,因此在考察GPU通用計算性能的同時,也能考驗顯卡的穩定性,對超頻亦有所幫助,另外測試的時候還可以自行選擇運行時間(單位秒)。

ComputeMark要求純粹的DX11環境才能運行,包括Windows 7 32/64位操作系統、DX11 API和DX11顯卡。
DirectCompute通用計算ComputeMark測試得出的成績顯示出GPU對于PCI-E帶寬非常不敏感,PCI-E x1就足夠發揮出全部性能了。
● GPU視頻轉碼測試:
MediaShow Espresso是第一款同時支持CUDA與Stream加速的視頻轉換軟件,除此之外它還對Intel?Core i7處理器的超線程及SSE4指令集做了優化,因此無論純CPU轉碼還是GPU加速,其速度比傳統軟件都要快。
在視頻轉碼測試中,PCI-E x1的帶寬明顯不足,與其他模式下的成績有很大差距,當通道數x4模式以上時,性能的提升已經不是很明顯,每提升一個模式,可以獲得2s的性能提升。
● 全文總結:
就目前的GPU性能來看,PCI-E x16 2.0的帶寬對于單芯單卡已經足夠用,目前的瓶頸是GPU的性能。
對于游戲來說,GPU可能需要更高的接口帶寬,游戲的FPS越高,GPU就需要頻繁的與CPU互換數據,此時就需要很高的帶寬支持。而如果FPS很低的話,對于接口帶寬要求就很低了。
由于時間的限制編輯并沒有做雙卡及多卡的測試,相信多卡模式下對PCI-E帶寬的要求會非常高。單卡下GTX580都如此,甚至編輯覺得一些低端顯卡完全都用不上x16的高帶寬。眼看著PCI-E 3.0即將來到我們的身邊,將為我們帶來32GB/s的傳輸速率,當然這是為下一代高端顯卡準備的。
不過對于通用計算來說,顯然CPU與GPU之間的數據交換遠不如游戲中那么頻繁,對于接口帶寬的要求很低,很多時候PCI-E X1都夠用了?!?/P>
擴展閱讀《帶寬不是問題!物理子卡實際應用測試》<
關注我們


