多芯顯卡被詛咒?SLI七大優勢戰勝宿
前幾天,筆者的一個偷天換日大改造 單槽NF4挑戰雙卡SLI文章得到了很多讀者朋友的肯定,在這里,筆者真心感謝大家的肯定,并希望更多的朋友參與進我們的討論當中,共同營造良好的技術研究的氣氛。

SLI采用了兩塊顯卡協同工作,這個創意其實是很普通的,1+1>1的道理我們在小的時候就知道,小的時候我們就受到教育,一根筷子很容易折斷,但是一把筷子就不容易折斷了。
這個最簡單的道理發展到了如今這個電子的時代,對于計算機的圖形系統性能的增強,人們也在這個方面作出了不斷的努力。
SLI技術本身也不是第一個提出的多顯示芯片協同工作的,在這之前,很多方案都曾經采用了這個方法。

其實,對于多處理器協同工作這件事情,我們如果把視線放寬,就會容易理解很多。
據個最明顯的例子就是CPU的聯合運算,目前,CPU的聯合運算已經發展到了很成熟的地步,一臺高性能的計算機通常擁有多顆處理器,甚至是由網絡連接的很多太計算機的集合。

藍色基因
高端的多處理器應用自然是走在了前面,因為它們是不需計較成本的,對于現在,很多朋友已經可以注意到,個人計算機上也有往多處理器上發展的趨勢,這當然不是簡簡單單的說至強之類的平臺,而是指多核處理器的趨勢,這一點我想大家應該在我們報道的新聞中有所感受了。<
那么為什么芯片的發展會朝這個方向發展呢?我想最大的因素還是我們目前的芯片技術不能夠滿足日益增長的性能要求。
首先,隨著應用領域的擴展以及應用的深度的增加,需要處理的數據越來越多,我們有可能需要處理海量的網絡請求,也有可能需要處理海量的氣象數據,這就需要更強的CPU的性能。這些數據有一個共同的特點就是并行度非常高,數據量非常大。
大規模數據是高性能計算機應用的重要方面
另一方面我們可能需要處理一個非常復雜的三維模型的空間變換,或者逼真的各種視覺特效,這就要求我們的圖形處理器要性能強勁。
然而,各種處理器的發展是遵循客觀的規律的,不能用手指頭一指就變出一個性能無敵的計算機來,這個研發的過程中遵循的很多客觀規律都在約束著技術的發展速度。
工藝的提高是芯片發展永恒的話題
這些客觀規律中最為人所熟悉的就是摩爾定律了,當然具體到電路的實現過程中,目前最大的困難卻是“焦耳定律”,也就是電流能夠產生熱量的這一基本原理。
目前,很多芯片不能夠在集成度上大幅增加,主要就是因為熱量的困惑,當然,人們為克服它而做的工藝上的提高也是非常有效的。
在這樣的歷史環境下,多處理器協同工作便成了一個很巧妙的方法。在顯示系統這種方法也曾經多次采用,不過離我們最近的當數NVIDIA的SLI技術了。
這里大家應該看到的是,多處理器協同工作,無論是采用多核心的方案,多處理器的方案或是SLI采用的多顯卡的方案,在本質上是相同的。它們的實現形式不同,但其實都是充分發揮兩顆圖形處理器的性能的解決方案。
不過,不可否認的是,這些方案實現的成本將會高的多,這是很自然的事情,為了追求最高的性能,大家就自然要付出更多,因為廠商提供給你的時候付出了更多的東西。< 比起圖形系統的多處理器應用,CPU的多處理器應用可以說是已經有了豐富的經驗了,從單主板多處理器,到多主板多處理器,到集群式計算機,到網格計算,多處理器的應用的形式是多種多樣的。
顯示系統的多處理器協作雖然也有很多嘗試,但是我們不得不承認,之前的各種方案并不都是非常的成功。
雙CPU+雙GPU
為什么會出現這樣的情況呢?這要和顯示系統的處理過程和普通的運算有著截然不同的特點。
對于CPU的運算,我們知道,通常都是運算一些海量的數據的,數據的處理過程要求越快越好,很多情況下數據之間的相互聯系并不是很大,這樣就能讓多處理器并行的處理數據。另外需要處理的數據很多情況下也是有充足的供應的,一種可能就是通過存儲器來獲取事先輸入的數據,另外就是通過IO端口獲得數據。
顯卡不知道你下一步作什么
但是,對于顯示系統,情況就不一樣了,顯示系統自然也是要求速度越快越好,但是顯示系統有和CPU的運算有一個很大的不同,這就是它要求即時性能非常高。
這句話怎么理解呢?就是說,顯示系統中處理的內容,將隨時變化,因為作為游戲,是不可能要求用戶做什么樣的動作的,用戶的任何一個動作都是不可預知的,所以3D圖形處理過程中大部分的數據是臨時出現的,系統必須在比較短的時間內處理完一系列的運算,但是又不能提前運算下一步的工作,因為你不知道用戶將做怎么樣的操作。
渲染動畫用的腳本是預設好的
當然,這樣的情況并不是針對預先制定好的腳本的,對于渲染復雜的三維動畫的過程是不同的,不過這樣的應用相對于3D游戲的應用來講可以說是鳳毛麟角了。
所以,這樣的特性造就了圖形處理器必須時刻要求能夠有非常高的性能。任何一個時間段的處理能力不能滿足需求都是不行的。
接下來,我們就來熟悉一下之前的各種多GPU的解決方案。<
首先我們應該說的就是最為人們所熟悉的兩塊Voodoo2 SLI了,這里的SLI指的是ScanLineInterleave,也就是掃描線交錯的意思。

相信老鳥們一定不會忘記當年的Voodoo2——把3Dfx王朝推向顛峰的最火爆的顯卡。在當時來說Voodoo2的性能只能用驚世駭俗來形容。

Voodoo2 SLI工作原理
在那個時代,3Dfx就是一個神話,Voodoo2的“對手”更是難以望其項背。記得當時有媒體是這樣評價Voodoo2的:“Voodoo2準備發行的日子,不知有多少玩家翹首以待。它使Voodoo成為一個神話,它使所有的游戲都以Only 3Dfx為榮,它為我們帶來了夢寐以求的SLI,它是玩家砸鍋賣鐵非買不可的顯卡。”Voodoo2的人氣,現在有哪塊顯卡能及?
對于Voodoo2的工作原理,我想大家也應該非常熟悉了,Voodoo2在工作的時候,兩塊卡將畫面按照奇偶線進行分配,分別負責它們的填充工作。據個例子,如果原始的畫面為800*600的分辨率,按奇偶線分配以后,每塊顯卡負責的就是一個400*600的畫面,兩塊顯卡協同工作從而達到提升性能的目的。
失敗指數:可以說并不失敗,甚至是將3dfx推向了輝煌。
失敗因素:技術局限性造成不可能在后期得到發展。<
說過了Voodoo2 SLI,就不能不說說3Dfx最后的絕唱Voodoo5 系列了,Voodoo5系列一直是全球的玩家爭相收藏的對象。
3dfx SLI改進版,Voodoo5,一卡雙芯(VSA-100),每顆獨享32MB顯存,可獨立進行紋理復制。
相對應于早先Voodoo2的SLI技術,使用這種技術可以聯合多塊相同芯片同時并行處理。這款先進的處理器是VSA-100,支持每個系統最多可使用32個芯片并行處理,使用可編程的scan-line interleaving(SLI)技術,在VSA-100的內核中是一個新的先進的3D引擎,它能使“超級”填充率變成現實。
Voodoo5 AGP版
對于消費市場來說,基于VSA-100芯片的產品將使用16MB~128MB顯存,1至4塊芯片,可生成每秒 333M像素到1.47G像素的填充速度。在專業市場,Quantum3D將利用8到32塊芯片,128MB至2GB顯存來制造系統,將在Aalchemy系列產品中實現遠超過每秒3G像素的填充率。
VSA-100由超過1400萬個晶體管組成,使用了增強的0.25微米工藝,6層金屬半導體工藝。標準的工業樣本模型支持的新3D特性包括32位色渲染,24位深度Z-Buffer和W-Buffer,DXTC和FXT1貼圖壓縮支持,最大支持2048×2048尺寸貼圖。額外提供的支持是同時可用于AGP 4×和PCI,DVD硬件補償, Voodoo4、Voodoo5便是采用了VSA-100的3D加速卡。
Voodoo5 PCI版
Voodoo5 5000 PCI使用雙VSA-100芯片和32MB顯存。Voodoo5 5000 PCI顯卡,每個時鐘頻率周期渲染4個像素,將提供667M到733M每秒的填充率;Voodoo5 5500 AGP將使用4個VSA-100芯片處理器和64MB顯存。64MB顯存允許更高的分辨率和像素深度,當全屏抗鋸齒打開和T-Buffer效果打開時,更多的顯存將可以作為貼圖存儲器。
失敗因素:比較失敗,強弩之末的V5已經無力回天,再加上技術局限性不支持T&L,高性能的填充率就好比好鋼沒有用到刀刃上。
2002年年中的時候,一條消息讓很多人都很驚訝。一家新興的圖形芯片開發商Talon Graphics最新宣布他們正在開發一款全新的顯示芯片,而我們為了支持新興廠商,決定為大家介紹一下這款Apocalypse(天啟?)顯示芯片。
Apocalypse采用的散熱設備將比目前最優秀的CPU散熱設備還要優秀,雙風扇設計,核心頻率約為GeForce4系列顯卡的兩倍,全新的顯存架構令它的像素填充率為GeForce4系列顯卡的3到4倍。
該顯示芯片能夠支持非常多的圖形技術,如類似于Wildcat III的全屏抗鋸齒技術,3DFX的T-Buffer,Matrox的Surround Gaming技術,最多可支持五個顯示器同時顯示(我的天啊!)。
顯卡體積方面,雖然Apocalypse最大將擁有四個處理芯片,但它的體積將絕對不會和Voodoo5 6000一樣達到驚人的30厘米,Apocalypse 1500的設計體積不會超過Voodoo5 5500,Apocalypse 1000的設計體積不會超過GeForce4 Ti,而Apocalypse 500將不會超過Radeon8500。
以下是這三款顯示芯片的部份技術特性:
Apocalypse 1500 - 四芯片,SLI應用,512M(16X A-A)
Apocalypse 1000 - 雙芯片,SLI應用,256M(12X A-A)
Apocalypse 500 - 單芯片,128M(8X A-A)
芯片設計已經接近完成,而顯卡的設計也正在進行當中,Talon方面希望在這個月內完成對芯片的設計,在未來3到4個月的時間里完成顯卡的所有設計,之后就是開發驅動,而后開始進入生產階段。Talon表示將全力完成這個計劃,沒有其它的顯卡能夠和Apocalypse一樣。
產品將于一年的時間之內上市,時間或者可以更短。
Talon表示如果使用SLI技術的話,他們極有可能陷入和NVIDIA的法律訴訟當中,但他們將嘗試向NVIDIA購買使用授權,Talon相信這將為未來顯卡的發展起到一個重要的啟發作用。
Talon Graphics開發隊伍:
Ryan Warner - 芯片及顯卡設計(創辦人)
Josh Anderson - 芯片及顯卡設計(創辦人)
Seth Gilpin - 散熱系統設計
Shawn Middleton - 驅動開發
雖然上面可能真的只有他們四人在開發這款產品,但我相信只要用心去做一件事情,事情沒有可能辦不到的,更多相關的消息可以在這個連接中找到。
不過,關于這款產品,至今誰也沒有見過,網上也不曾出現更加詳細的介紹,直到今天,可能還有很多人不知道這個東西呢。
失敗因素:小打小鬧的隊伍加上沒能拿到專利,沒有理由會成功。<
Talon Graphics說到跳票,Bitboys就笑了。

Bitboys的Glaze3D一直是硬件跳票的典范,自1999年Bitboys已數次公布Glaze3D的規格,不過卻沒有作出一塊芯片樣品,不知此次是否會有樣品推出,以下得到的芯片規格:
0.17um制程
顯存工作頻率250MHz
高級幾何操作
高精度紋理
可編程像素操作
64位浮點色深
嵌入式顯存(eDRAM, EmbeddedDRAM)
獨特顯存架構提供16GB/S或更高的顯存帶寬
整個芯片帶寬為30GB/S

據稱,Glaze3D也支持多芯片協同工作。BitBoy的方案更多地類似于Metabyte:將3D場景分割為方塊(大小為16x16,32x32或者64x64),每個處理器都負責一定數量方塊的渲染。和Metabyte的方案一樣,兩個處理器的三角形設置單元都可在這種方法中得以有效利用;但不一樣的是,BitBoys的方案基本保證了每張卡負載的平衡。


Glaze3D樣卡
這是由于屏幕上半部分的顯示通常沒有下半部分細致。對Metabyte的方案來說,根本沒辦法來解決這種不一致。而采用BitBoys的方案,上半部分會分割成多個單元;每個處理器都拿到上半部分的一些內容,以及下半部分的一些內容。盡管負載尚未達到象雙ASIC方案那樣均衡的程度,但仍然有效解決了處理器同步的問題,同時兩個三角形設置單元均得到了有效利用(3dfx的SLI方案則不然)。此外,雙ASIC要求為每個處理器都準備一個全屏幕幀緩沖。而采用BitBoys的方案,每個處理器都只需使用一半幀緩沖。
BitBoy的方案也保證了顯卡帶寬的倍增。Glaze3D/2400的eDRAM內存帶寬高達每秒19.2GB(注意總共有兩個eDRAM)。要想使顯卡產生超出2000MTex的填充速度,這一帶寬是必需的!
最后他們的方案失敗的原因卻是十分的離奇,就是生產線關閉了,生產不出產品。
失敗因素:好想法沒有得到實施,全都敗在了最后的生產環節,實在可惜。<
Metabyte公司的PGC技術是另一個多GPU共同處理的典型例子。
Metabyte提出了一種新方法,要求每張卡負責渲染一半的3D場景。但問題也隨之產生:大多數情況下,對于填充速度/帶寬/三角形,每一半提出的要求是各不相同的。也就是說,一張卡可能在10毫秒內完成了它那一半任務,而另一張需要20毫秒才能完成。
Metabyte的古董級顯卡Wicked3D
提早完事的顯卡不得不無聊地等候另一張卡完成。只有兩張卡的任務全部完成,場景才會正式顯示出來。顯然,這種方式嚴重影響了效率。另外還有一個小問題:兩半渲染的結果有時不能精確地對齊!為此,Metabyte宣布它們的新驅動程序能解決這個問題。但無論如何,事實已經證明,當初炒得火熱的Metabyte多顯卡方案(PGC)永無出頭之日!
Metabyte公司推出了Stepsister技術,這項技術的官方名稱是PGC(Parallel Graphic Configuration,并行圖形配置)。PGC技術將需要渲染的任務分成兩部分——AGP顯卡負責一幀畫面的上半部分渲染,PCI顯卡則負責下半部分渲染。不過待到PGC技術逐漸成熟,即將走向市場之際,新一代顯卡已經完全采用AGP接口,而且顯卡廠商和消費者對PCI顯卡的熱情也所剩無幾。
另外,PGC技術自身也有先天缺陷,它始終沒有有效地平衡兩塊顯卡的工作量。最終這項技術被Alienware公司收購,而Metabyte公司也不知所終。
Metabyte專門為顯示卡進行優化設計,比如以前曾經推出過一種專門的圖形技術PGC:Parallel Graphics Configuration,并行圖形結構。PGC與3dfx SLI技術的作用類似,可以把一張圖象分成上下兩部分進行渲染,并能在任何卡上實現這種功能。因為當時AGP顯示卡還沒有流行,用兩張PCI顯示卡就能使游戲速度加倍,這種辦法還不錯,但是單純以增加成本并不是所有人能夠接受(那時候兩張TNT1要2500元,呵呵)。
失敗因素:技術設計中的嚴重缺陷,無法平衡顯卡的工作。<
提到雙芯片,我們就不能不提ATI的Rage Fury MAXX。Rage Fury MAXX是當年ATi為抗衡nVIADIA Geforce 256,效仿3Dfx 的Voodoo5而采用的第一款雙芯片顯卡。當年的3DFX的Voodoo2,90M Pixels/s像素填充率、具備Z-Buffering、Anti-Aliasing、單周期雙紋理等當時的最新的技術和指標,已經可以讓當時所有的對手黯然失色,而它的性能翻倍SLI技術,更讓對手瞠目結舌。
RAGE FURY™ MAXX
在開發之時,這款顯卡被寄以厚望,這一點從其名字中就可以看出來—“MAXX(曙光女神)”是美國空軍秘密研發的高超音速偵察機的名字,據說它采用一種全新的推進技術,可以在6萬多米的高空上以8馬赫(8倍音速)的速度飛行。ATi認為他的新顯卡將沒有對手,采用這個名稱名副其實。Rage FURY MAXX集成了兩枚Rage 128 Pro圖形芯片,雖然它是一種單顯卡形態,但與Voodoo 2 SLI、Metabyte PGC方案并沒有本質性區別,都是兩顆芯片“分工合作”實現性能大幅提升。不過在具體的任務指派機制上,Rage FURY MAXX又有不同:它沒有采用畫面分割、分別渲染、合成的套路,而是讓一顆Rage 128 Pro芯片渲染第一幅畫面,另一顆Rage 128 Pro芯片渲染第二幅畫面,完成之后第一顆芯片再渲染第三幅畫面,依此類推。相比前兩者,Rage FURY MAXX的好處是只需用到一條AGP槽,但付出的代價是單塊顯卡高昂的價格!
Rage FURY MAXX各方面的規格都是極為強悍的。不過,Rage 128 Pro芯片并非類似Geforce256的GPU芯片,大量的工作仍然依靠CPU來完成,致使在低端CPU平臺中Rage FURY MAXX的實際表現非常差勁,只有在1600×1200的離譜高分辨率下它才比GeForce256來得快,但在這樣的分辨率下,不管GeForce256還是Rage FURY MAXX都慢得可憐,毫無實用價值可言,難以讓人們滿意。不過即便如此,Rage Fury MAXX還是成為當時唯一可在性能上與GeForce256較量一番的顯卡,但它的市場成績一片慘淡。雙芯片加上復雜的板卡設計,導致其生產難度大,成本也居高不下,同物美價廉的GeForce256相比毫無競爭力可言,最終Rage Fury MAXX也不得不黯然收場。
一個意大利硬件站提供了一張使用了兩顆9800PRO芯片顯示卡的圖片,并聲稱這是正在臺北進行的Computex 2003電腦展上展出的一塊來自Sapphire(蘭寶石)的顯示卡,這款極其夸張的產品的清晰圖片如下(點擊放大):
據稱這款顯卡配備了雙DVI接口,并且搭配了512MB的顯存,這是由于每顆顯示芯片可以最高對256MB的顯存進行尋址。這款產品的出現估計連ATI都會感到吃驚,因為連ATI原廠目前都沒有這樣的產品出現,不過可惜的是這款顯卡將不會正式銷售。
采用多顆GPU的顯示卡曾經是顯示卡廠商為了突破單顆顯示芯片的處理能力而采用的一種方法,曾經的VOODOO5500/6000,ATI RAGE MAXX都是這樣的產品,在顯示芯片發展突飛猛進的近幾年間似乎并不多見了,Sapphire這次推出的這款雙GPU的顯示卡采用了目前最優異的顯示芯片,它無疑將是目前性能最強勁的一款產品,不過目前我們暫且沒有其他的關于這款產品的消息, ATI目前還沒有對此事予以評論,請繼續關注我們的報道。
前兩天我們報道的Computex 2003:驚爆雙芯片9800PRO MAXX 又有了后續消息,一家加拿大網站拿到了這塊卡,并且揭開了散熱片,下面有清晰大圖為證(點擊查看1000x641大尺寸原圖):
看來這塊卡原來的那張圖并非為PhotoShop所修改的假圖,請再來看看那張圖片:
但是目前還沒有人將這塊卡運行過,從顯示芯片上看,這的確是由兩顆9800的芯片制成的,而且我們知道即將發布的R420的規格是和R350兼容的,所以這種創新的設計會不會在R420上實踐?究竟蘭寶石是為了演示一種創新的理念還是真正展示其雄厚的技術力量?
失敗因素:除了這些圖片,我們至今不知道這款卡能不能運行,按說從Radeon開始ATI的卡已經支持T&L了,兩顆9800如何分配工作,我們不得而知。<
雙芯片顯卡始終是各個廠家所一直割舍不下的情結,XGI也推出了他們的雙芯片顯卡,Volari Duo。


XGI Volari系列圖形芯片發布于2003年9月份Computex2003大會上,完全支持DX9。Volari系列圖形芯片包括V5和V8兩款芯片7種不同規格,針對低、中、高端市場。V5和V8圖形芯片都采用.13微米工藝,由UMC生產。
Club3D本次發布的Volari Duo V8 Ultra顯卡,采用雙V8芯片,核心頻率350MHz,配備256MB DDR2顯存,頻率800MHz,該顯卡的零售價格還沒有公布。根據國外網站測試,XGI雙內核Volari顯卡的3Dmark03成績達到5370分。
失敗因素:不主流,既然都能上市,但是幽靈一樣到處都見不到,所以它的失敗,主要還是廠商的認可度不夠。<
看到這里,可能有朋友該提出異議了,因為在顯卡的世界中,采用多芯片的方案決不僅僅只有這些。很多專業顯卡采用的都是多芯片的方式。
誠然,這說得一點也沒有錯,不過我們今天討論的是基于并行結構的多GPU圖形運算的事情。這些卡采用的多芯片方案通常不是并行的結構。

3Dlabs Wildcat Realizm 800
這些專業顯卡雖然有多顆處理芯片,但是每個芯片的工作是不一樣的,比如,有的芯片負責的就是3D模型中的變換,所作的工作就是計算大量的矩陣,來實現3D模型中每一個點的變換。
有的芯片負責的是后期的貼圖,生成2D畫面等工作,所需要的就是填充率的提高。這種流水線式的工作方式有兩個特點,一是,不必設計過為復雜的芯片,每個芯片能完成更大量的運算,提高性能是非常明顯的,這通常在專業的3D應用體現。
另外一點,就是成本會很高很高,專業卡的價格,通常個人所難以接受的,關于專業卡的信息,大家可以查閱本站原來的文章狂增經驗值 解讀專業顯示卡的六大誤區 。<
看過了之前的各個廠商的多GPU協同工作的事跡,我們很容易得到一個這樣的結論,這就是凡是做多芯片協同工作的顯卡,無論是坐在一塊卡上,還是多卡協同工作,都很難最終獲得很大的成功。

這些顯卡或者解決方案中,Voodoo2 SLI是最典型的一個情況了,這不但因為它開創了雙顯卡協作的典范,而且在市場上當初也是備受歡迎的,但是價格上卻是非常的貴。
Voodoo2 SLI的技術最后沒有被延續下來還是因為這種方式的技術局限性,因為它所做的奇偶交錯掃描線的分配方式只能對填充率有提高,對于3D圖形的加速起不到作用。
對于其他的方案,顯得都不如Voodoo2 SLI那么成功,這里面的因素是多方面的。
1 技術局限性,對于高性能的圖形處理系統,僅僅提高填充率是不夠的,如何在頂點處理上加強性能是非常關鍵的。
2 專利問題,SLI的技術專利已經由3dfx的被收購而轉移到了NVIDIA公司中,其他公司要想用這個專利,恐怕不是那么容易。
3 平衡負載的問題,Metabyte公司的PGC技術無法保證兩塊顯卡的平衡,實際的使用效果很差,導致了他們的失敗。
4 驅動的問題,ATI Rage Fury Maxx不能保證在Win2000以后的驅動更新,就等于拒絕了很多用戶。
5 生產環節,Bitboys的Glaze3D給我們提供的規格是多么讓人興奮啊,但是敗就敗在生產線的關閉上。
6 市場的把握,一些小的品牌要在新的產品上闖出一片天空,可以說是非常難的,我們看到的一些公司在多芯片顯卡上的失利,不能不說和市場對品牌的認可度有著很大的關系。
7 信息的發布 對于一些技術方面的問題,理論上講應該屬于機密,但是如果像一些公司那樣根本沒有消息透露出來,消費者對這種技術一無所知的話,是不會輕易掏錢的,XGI的V8就是這樣。<
通過前面我們已經知道,多芯片顯卡或者類似SLI的多顯卡的方案,可以說幾乎都沒有得到很好的結果,這些年來,這個怪圈一直籠罩著顯卡廠商,很多廠商都妄圖在這個領域獲得成功,然而結果卻都不盡如意。
然而,今年,NVIDIA來了。

今年NVIDIA推出的SLI技術讓人們非常的興奮,因為它帶來的性能提升是明顯的,關鍵這并不是空口無憑的,各處的成績都已經證實了他們的成功。
如果我們回顧NVIDIA的歷史,從Riva到TNT,再到目前已經發展到第六代的GeForce系列,這么長的時間內,NVIDIA從來沒有碰過這個領域,因為他們知道,多芯片協作是一根高壓線,在沒有成熟的時候是碰不得的。

對于多芯片協作的方案,無論是多顯卡或者單顯卡多芯片,都是非常復雜的事情,兩塊顯卡或者說是兩顆芯片如何共同完成一件事情是最大的問題。
當然,做這件事情不光是技術的難度在里面,很多歷史環境的條件都制約著多芯片協同工作這件事,例如,Voodoo2能夠成功,那個時代的3D頂點運算全靠的CPU,游戲的模型也不復雜,所需要增強的僅僅是填充率而已。但是現在的顯卡是自己完成頂點運算的,這個整個的3D圖形處理的過程復雜了很多,所以之前的基于填充率增強的技術可以說是不可能有發展的。
那么NVIDIA為什么能夠在按兵不動10年后做出這樣大的動作,難道他們就沒有擔心么?那些陷阱他們是如何避免的?請看我們接下來的分析。<
對于3D圖形處理,可能很多朋友已經清楚了,這里筆者就不妨再解釋一遍,讓那些不熟悉的朋友有所了解。
對于3D圖形的處理,通常經過兩大部分,第一部分就是3D模型的運算的部分,第二部分就是將3D的模型轉換成為我們能夠看到的二維的圖像顯示在顯示器上。在真正的3D顯示器發明出來之前,這一模式就不會變。
在原來的時候,3D模型的運算,也就是指3D模型中每一個頂點的運算,都是靠CPU完成的,顯示芯片所進行的工作僅僅是往每一次變換后的3D模型中填充紋理,也就是把原來的點和線像糊風箏那樣貼上貼圖。
這個事情直到GeForce 256的出現才有所改變,GeForce 256的顯示芯片支持硬件T&L,也就是3D模型的變換,這一意義非常大,可以說改變了傳統的3D加速卡的傳統架構。
當然我們這里不是強調GeForce 256的意義,我們要說明的是在GeForce256出現之前,所有的多芯片顯示卡或者多顯卡的協作,完成的只是填充到2D輸出的這一部分。
3D的圖形在一個畫面中顯示,它和2D的貼圖是有著很大的不同的,這就是因為3D的模型中頂點和頂點之前的聯系是千絲萬縷的,它們的變換也是依靠著這些聯系的,一個六面體的一個頂點進行的移動,必然要帶動著其他的7個頂點的移動。
說到這里,可能已經有朋友大概理解了,這里面的問題就是說對于一個模型我們不可能把這些點分離開來交給不同的GPU完成。
這也就是我們不可能通過Voodoo2的SLI的方式,按照奇偶線分配這些點給兩顆圖形顯示芯片。同樣的,采用類似于Rage Fury Maxx的按照隔幀來分配也不是隔很好的辦法。
也正是因為這樣的原因,我們可以注意到,Voodoo2和ATI的Rage128都是不支持硬件T&L的。

NVIDIA是第一個推出支持硬件T&L功能的顯示芯片的公司,他們的后續產品也都是支持這一基本特性的,那么他們的SLI技術是采用怎么樣的方式來分配需要處理的內容的呢?可能大家都已經很熟悉了,他們采用的方法是將畫面分為上下兩個部分,這樣,每個畫面的內容是連貫的,就不存在無法對3D頂點運算無法進行分配的事情了。< NVIDIA發布了SLI技術之后,我們注意到他們的宣傳重點放在了負載平衡的動態分配兩塊顯卡的任務上。
我個人認為,這個方案非常好,因為作為兩塊顯卡,如果要同時處理一個畫面的時候,對于如何分配它們的工作量是一個非常關鍵的事情。這就像能力完全一樣的兩個人來共同完成一件事情,要達到最好的效果,一定要將工作量進行平分。

靈活的動態負載平衡技術
但是對于顯示卡,如何將工作量平分卻并不是那么容易的。因為,對于畫面來講,畫面的內容是不固定的,所以如果按照固定的比例來平分所作的內容是不現實的。

對于這個最大的難題,NVIDIA采用的是這樣一種方法,就是將畫面從中間分為兩個部分,這個分配的比例是動態的,就是說當第一塊顯卡完成上部的內容的時候有困難的時候,第二塊就會幫它多分擔一些。
這樣一來NVIDIA就很好的解決了兩顆GPU之間的分配問題。<
專利方面,我想大家不用說就能夠想到NVIDIA收購3dfx的事情了,2000年的12月,3dfx公司宣布把立體圖像芯片技術連同Voodoo品牌售給對手NVIDIA公司,一共作價7000萬美元加100萬股NVIDIA普通股票(市值約3000萬美元)。

3dfx已經逝去
根據3dfx公司在聲明中表示,出售核心業務是為了保障債權人和股東的利益。事實上,3dfx過去一年不時傳出被人收購的傳聞,其中死對頭NVIDIA更是熱門之選。
對于3dfx的最輝煌的Voodoo2 SLI,自然在收購后也成為了NVIDIA的一項技術,在收購之初,NVIDIA并沒有急于將SLI投入實際的應用,這個時間,人們還在紛紛議論這件事情,人們普遍的言論都是3dfx被NVIDIA收購算是完了,NVIDIA把這么好的技術藏起來糟蹋了。
但是如果我們現在回過頭來看NVIDIA的這個舉動,我們就很容易理解了,因為那種SLI技術雖然的確能夠帶來性能提升,但是卻沒有辦法解決當時所遇到的問題,這就是3D頂點運算的問題,讓GPU能夠獨立完成3D場景的渲染才是關鍵。
NVIDIA把這個技術“藏起來”其實是對的,因為當時的Voodoo2的SLI技術已經不能滿足當時的需求了。
無論NVIDIA在收購了3dfx的日子里做了什么,我們都不能否認他們的成功,因為在這段日子里,GeForce系列蓬勃發展,成為了目前最深入人心的一個3D圖形芯片系列。
對于SLI技術,我們已經看到和之前的3dfx的SLI有了質的區別,這就說明,在這段日子里,NVIDIA并沒有守著這個3dfx留下的SLI而止步,他們創造了全新的SLI,一個完全獨立的SLI系統,這種不固守于現狀而開拓創新的精神值得我們學習,這也是對3dfx當年的那種精神的一種發揚。<
說到一些很不知名的公司要想打翻身仗,是十分困難的。這其中的原因就在于固有的用戶群的大小。
對于一個消費者來講,如果第一次選擇了一個公司的產品,如果沒有特別嚴重的問題的話,使用下來肯定會對這個公司產生很深的印象,在下一次的選擇中,很有可能仍然選擇該公司的產品。

一個深入人心的標志
我們注意到一些公司的產品,在產品的本身上是具備了很好的特性的,但是最終就默默的消亡了,這和這個公司之前的用戶群是有著很大的關系的,特別是對于顯示卡這種特殊的產品,其數據是一方面,使用過程中又是另一方面。
所以,對于一些初來乍到的產品,消費者的接受度通常會比較低。
對于NVIDIA,這個問題絲毫不存在,NVIDIA在全球擁有的用戶群是超級龐大的,所以更多的用戶就有認可這種機會的可能性。
關于市場,除了用戶還有一個就是市場的渠道的問題,占有如此分量的NVIDIA的銷售渠道同時也能為NVIDIA SLI的產品的推廣起到重要的作用。<
對于前面我們談到的另外一方面的因素,就是說對于信息的發布,其實是非常重要的,用戶只有大致理解你的方案以后才能決定是否信賴你。
這個情況其實是很普遍的存在的,對于技術型的產品,人們總是希望了解的更多,例如一款顯卡,光知道能跑多少分是不夠的,這也就是為什么每一款新的產品出現的時候,廠商通常會告訴用戶這款產品的新特性都有那些,規格是什么樣的。
對于NVIDIA的SLI技術,我們可以深刻的感受到NVIDIA對于信息的及時傳遞是多么的重視,在SLI技術宣布以來,僅僅我們就不知道報道了多少關于SLI的訊息,這些訊息及時的把最新的情況傳達給讀者,讓他們的知情權得到充分的保證,這才是能夠讓消費者對這項技術產生信心的根本。

SLI技術的動態負載平衡已為人所熟悉
之前,一些失敗的多芯片顯卡的技術部分對于廣大的消費者來說就幾乎是空白,唯一泄漏出的幾個成績完全讓人摸不到頭腦。這怎么能夠讓消費者愿意掏錢呢?
NVIDIA的SLI技術的在這方面做的很好,雖然這項技術是他們的專利技術,可以說是商業機密,但是過于SLI技術,我們已經了解的非常全面,這一點就讓消費者對NVIDIA的SLI技術保持了很高的熱情。<
前面我們講到及時的信息的發布重要性,不過有一個例子卻和前面我們說得恰恰相反,這就是Bitboys的例子。
他們的Glaze3D顯示芯片,即時的將很多信息透露出來,特別是其芯片內部集成的緩存以及多芯片協作的原理的信息真是吊足了人們的胃口。
當人們正為這款即將誕生的具備了創新意義的芯片流口水的時候,噩耗傳來,這款Glaze3D胎死腹中,原因卻令人大跌眼鏡,就是因為生產線關閉,他們造不出這款芯片了。
這個慘痛的教訓,會不會還發生在NVIDIA身上呢?答案是不會的,這其中的原因有兩點:
1 NVIDIA的SLI技術是基于的已經存在的芯片,芯片已經是穩定量產的型號,沒有生產不出來的可能。
2 NVIDIA的SLI技術采用的是一種可變的解決方案,并不是必須只有SLI才可以使用,用戶可以選擇一次購買兩塊顯卡或者先購買一塊,另外的一塊可以選擇隨后增加。<
ATI的Rage Fury Maxx最終因為驅動沒有在Windoows 2000以后繼續更新而失敗,這一舉動讓很多消費者為之動怒。
援引一位網友在網上的話:“當我接到ATI給我的信時,我差點吐血身亡了,他們(ATI)竟然很“遺憾的”告訴我他們沒有能力開發Fury Maxx的WIN2000驅動!!!這是什么話!我可是花了2750.00大洋呀!!!!!”
不過,之前的ATI放出來的驅動也不是很理想,在國內最大的驅動網站驅動之家中這款卡最新的一版驅動的介紹居然是這樣的:“ATi官方一共發布了4個正式版本的驅動,其中第一版的驅動未能發揮這塊卡的潛能,第二版的驅動跑3dmark2001時會死機,而后兩個版本的驅動取消了AGP讀寫,性能有所下降,尤其是OpenGL,但改正了部分貼圖錯誤。4款驅動都存在不少bug,比如用powerDVD是的面板花屏,使用硬件加速時,DVD畫面的抖動,控制面板的bug…….。針對這些問題,熱心網友JerryKing做出了這款綜合版的曙光女神加速驅動。…”
驅動程序是顯示芯片廠商的售后服務中的最重要的環節,如果保證不了驅動的更新,那和空談有什么區別….
那么NVIDIA的SLI架構的驅動程序如何呢?首先我們已經知道,目前的支持SLI的驅動程序已經很完備了,雖然對于負載平衡部分驅動的開發存在著很大的困難,但是我們還是及時的看到成型的驅動程序了,隨著時間的發展,我們相信,數百具有豐富經驗的開發人員一定會保證NVIDIA的驅動隨時得到更新的。<
多芯片顯卡系統,無論是多芯多卡或者是多芯單卡,實現起來是非常有難度的,我們可以從之前的各種實現了或者是沒有實現成的各種方案中看到一二。雖然我們不是這方面的專家,但是我們可以看到的事實已經證明了這一點。
為什么高性能的圖形處理會走上并行的道路呢?
1 人們對高性能圖形處理有迫切的需求。高細節游戲已經讓很多顯卡承受不了了,因為做游戲的他只要把細節做到更加豐富,很多顯卡就應付不了了,對于如何提高效率,提升性能,那全是微軟或者顯示芯片商的事情。
2 人們要求彈性的解決方案。對于圖形處理系統的要求,人們的要求不全相同,所以有的人要求非常高的圖形性能,而有的人根本用不到3D加速。所以一個彈性的解決方案是必須的,用戶可以根據自己的需求決定要什么。
3 串行的多芯片方案效率低下,成本高。類似于專業卡的那種模式也是不適合的,那種顯卡幾乎相當于一個小型的計算機了,甚至有的理論數據都在很多大型計算機之上,這樣的產品的成本過高,不是個人用戶能夠用的起的。
由此看來,很多條件已經決定了多芯片應用的這種方式的,這也是為什么大家在這個問題上已經前赴后繼了這么多年的原因。
前面我們已經看到了之前的種種失敗的例子,這些失敗的案例的原因各不相同,例如專利問題,生產問題,市場問題等等,但是吸取了這些經驗的NVIDIA推出了SLI技術,這種技術在這些問題上已經做了相當明顯的改進。
但是,SLI技術會不會像其他的技術一樣曇花一現呢?筆者對這件事情的考慮是:
1 SLI基于的是時下最時興的PCI-E技術,而不是像當年的一些其他技術一樣沒有預見性。
2 SLI的成本提升主要在顯示卡上,主板部分將很容易讓人接受,從之前的那篇文章中我們也能看到,其他的廠商往SLI上湊還趨之若騖呢。
3 彈性的配置方式,讓消費者可以提前做準備,留有的升級空間比較大。
4 SLI技術對于芯片的限制并不是功能性的,所以在隨后的顯示芯片上實現應該不是問題。
筆者的分析也許并不是很正確,但是的確是筆者自己的想法,我們在看到新的技術的時候,應該抱有希望它能夠成功的心里,畢竟它的出現是為了實現目前實現不了的事情為目的的。
歡迎大家踴躍的在我們的評論中進行討論,希望您能夠提出真正有價值的意見,我們BS一切單純的罵街行為。<
關注我們


