迎接開普勒第一彈:最強GPU最全爆料!
泡泡網顯卡頻道3月6日 “2012.1.9日注定成為顯卡發展史上光輝的一天。這一天過后,全世界的骨灰玩家們不用再為選擇GTX580還是HD6970而發愁了。腳踩28nm祥云,手持DX11.1利劍,2048sp的HD7970如約而至,發出的卻不是高端顯卡司空見慣的怒吼,而是沁人心扉的天籟梵音!”這是小編撰寫HD7970首測時的開場白。說句實話,目前來看HD7970憑借臺積電28nm工藝所帶來的低功耗和高頻率,確實是無敵真寂寞,性能效率完全和上一代40nm顯卡明顯拉開了距離!
緊接著,AMD的中高端HD7800發布,中端主力HD7700發布,憑借著全新GCN架構及28nm制造工藝的出色發揮,NVIDIA熱賣產品相繼被斬落馬下,這完全是一場不對等的比賽,畢竟是不同工藝、不同架構的兩代產品。由于NVIDIA遲遲未能發布新一代產品,一些原本意志不太堅定的Nfan開始表現出移情別戀的跡象。兩地分居時間長了還離婚呢,這傳說中最接近神卡的開普勒你是等呢,還是不等呢?
這個對于媒體來說諱莫如深的敏感話題在這個山雨欲來的敏感時期還真是介于不說憋屈,說了矯情之間,其中最最關鍵的問題就是HD7000系列顯卡理想中的對手“開普勒”現在還是千呼萬喚全遮面,雖然云里霧里的消息的爆出了不少,但真實性都令人懷疑。國外網站頻頻爆出了開普勒各種規格以及售價及發布日期等信息,但都真假難辨,小編今天綜合各種消息,結合對顯卡的理解,毅然決定來一個開普勒全系列大預測。
說對了,請鼓鼓掌!萬一說錯了,也非刻意為之,也請鼓鼓倒掌~
根據此前的某些爆料,NVIDIA將會跳過GTX 600系列產品直接推出GTX 700,不過目前來看這種說法是錯誤的。開普勒系列產品使用臺積電28nm工藝制造,直接對手就是AMD的HD 7000系列。其中看來最正常,最全面,最靠譜的基本就是下面的規格了。
開普勒系列最高端為雙芯產品GTX690,采用兩顆GK110核心,因此核心面積達到了比較獨特的1100mm2,共擁有2048個流處理器,64個光柵單元與112個紋理單元。搭載3.5GB的GDDR5顯存顆粒,默認頻率為850/5000MHz。顯存位寬2×256bit。
單芯旗艦產品GTX680將采用GK110核心,擁有1024個流處理器,32組SM、64組ROP,核心面積640mm2,搭載2GB的GDDR5顯存,核心顯存頻率為850/5500MHz。
GTX670也采用了GK110核心,不過流處理器被閹割至896個,擁有28組SM、56個ROP,核心面積還是640mm2,核心顯存頻率為800/5000MHz。
GTX660Ti采用了GK104核心,流處理器512個,擁有24組SM、48個ROP,核心面積是320mm2,核心顯存頻率為1024/5500MHz,顯存規格為2GB/256bit。
GTX660采用了GK104核心,擁有與GTX570相同的448個流處理器,16組SM、32個ROP,核心面積320mm2,核心顯存頻率為900/5500MHz,顯存規格為1GB/256bit。

傳說中的GK104核心完全體?
以上產品與HD 7900系列顯卡一樣都支持PCI-E 3.0標準,如果本次消息屬實的話,開普勒將不會讓大家失望,對HD 7000做出最有力的反擊。雖然出來的晚了點,但是卻能夠全面領先對手產品。
胡謅指數:★★★★;
根據爆料,GTX 680在性能方面將會強于HD7970 20%左右,售價為649美元,發布時間3月下旬;
GTX 670將比HD7950性能強10%,售價499美元,發布時間是4月;
GTX 660 Ti將會與目前的GTX 580差不多,售價399美金,發布時間大約在第二季度;
GTX 660性能與目前的GTX 570類似,售價319美元,發布4月;
GTX 650 Ti性能與目前的GTX 560Ti類似,售價249美元,發布時間與GTX 660 Ti一致;
GTX 650性能與目前的GTX 560持平,售價179美元,發布時間4月;
GTX 640性能與目前的GTX 550 Ti持平,售價139美元,發布時間4月。
至于雙芯產品GTX 690,現在只知道發布時間在第三季度,售價及性能都是未知數。入門級產品的規格及售價也都沒有公布,根據命名來看無非是GT 630/620/610,發布時間q3。
售價一般都是最后敲定,除非是NVIDIA高層重大爆料,否則沒有必要早早透露,而且如此性能如此便宜讓我有點不敢相信,大家YY一下就好。
胡謅指數:★★★★;
繼前不久首張基于GK107的顯卡PCB設計圖曝光后,今日來自Youtube的會員上傳了首張Kepler的測試視頻,數據顯示GK107顯卡雖然定位入門級,不過產品性能已然上升到主流級別,3DMark 11得分直達P3818。
這位來自Kepler的用戶詳細的測試了GK107顯卡性能,測試工具包括了主流的3DMark 06、3DMark Vantage、3DMark 11和《生化危機5》Benchmark。
不管是哪個規格傳言,但是性能暴增已成定局。GK104作為kepler的次高端核心,究竟能否秒殺HD7970?
上面是一張來自NVIDIA官方的PPT,橫軸顯然代表時間,縱軸上赫然寫著DP GFLOPS Per Watt,翻譯成中文就是每瓦運算能力,或者能效比。如果說Fermi理論計算能力是2008年T10核心的1.6倍左右的話,Kepler則高達5倍左右。即至少是Fermi的3倍!
顯而易見,這里的Kepler指的是GK110核心,上文說過它是一個擁有1024個流處理器,32組SM、64組ROP,核心面積550mm?的怪獸,所以推算出來的耗電量應該比529mm?的Fermi只多不少。
那現在我們做個比較合情合理的假設——Kepler和Fermi功耗相同。那我們會得出這樣的結論——Kepler的理論計算性能是Fermi的3倍!
當然這只是理論性能的推算,在具體游戲性能方面依然會有出入,畢竟對不同游戲的優化支持和游戲引擎本身更適合于那種架構對結果的影響還是蠻大的。但是小編則保守的估計:GK110對應的顯卡性能必然強于HD7970,但是GK104則會弱一些……
胡謅指數:★★;
從最初的幾百萬到現在的幾十億晶體管,GPU成為了電腦內部最復雜的芯片,也是運算能力最強的處理器。
但作為電腦內部最為復雜和重要的配件之一,顯卡同樣是功耗最大和最不好伺候的配件。不知道從什么時候開始,主板供電滿足不了顯卡的胃口了,外接供電成了高級顯卡的象征,從4Pin、6Pin、8Pin到6+6Pin、6+8Pin。電源也從當初的額定200w夠用到現在的400w以下捉襟見肘。
熱設計功耗的不斷攀升讓顯卡越來越費電,體積越來越龐大,廢熱也越來越多,進而引起噪音的肆虐。AMD HD7970雖然在能效比上超出上代顯卡很多,但就功耗絕對值來說依然增加了不少,NVIDIA GK110如果規格真是如此之強大,性能又是如此之卓越,那耗電量絕對是個大問題!
那功耗發熱的問題如何解決?其實有些廠家早就有成熟的方案推出。其中最為杰出的當屬GTX 560 Ti HOF顯卡,這款顯卡在供電部分采用了CHiL+IR3550M DrMOS的組合。供電PWM型號為CHL8266,支持6相供電管理,開關頻率達1MHz,為模擬PWM的3倍以上。而且在輕負載會動態調整至1-2相供電,是目前最主流的數字供電解決方案。
影馳GeForce GTX 560 Ti HOF
配合IR公司新推出IR3550M PowIRstage Dr MOS,6相最多提供360A電流輸出,最高能夠支持400W功耗的顯卡穩定運行,簡化大電流以及高性能的多相運作設計,15A電流下轉換效率高達95.7%。與常規單項PWM電路最高的30A相比和87%左右的轉化率,影馳名人堂顯卡所配的元件無論是轉換效率還是最大電流都明顯領先。
更高的轉換效率意味著更低的功耗,意味著更低的發熱和噪音、更長的使用壽命、更小的電源壓力,開普勒既然不可能為了降低功耗而犧牲太多性能,那最大可能就是在供電方面做文章。
至于旗艦之外的高端產品,5+2相供電設計足矣。外接供電部分采用2個6pin PCI-E或者6pin PCI-E + 8pin PCI-E。
另外GK104可能會采用雙SLI橋以方便多卡SLI,看來NVIDIA勢要將GK104作為高端產品來推廣。而現實輸出方面NVIDIA終于加強了設計,2個DVI接口、1個HDMI和1個DisplayPort接口,為三屏輸出埋下伏筆。
接下來一張實物圖幫助我們更加清楚的了解了這款產品的具體規格,顯卡核心采用了外露式設計,這在NVIDIA大核心方面尚屬首次,另外8顆顯存讓我們進一步確認顯卡采用了256Bit顯存位寬設計。
長久以來,高端A卡公版都使用了數字供電,深受Afan的喜愛和推崇,非公版則普遍縮水,與之相反N卡公版稍顯不足,卻涌現出很多超公版產品,這次NVIDIA寄予厚望的年度重磅產品開普勒是否會使用全數字供電而減小電源不能承受之重呢?
胡謅指數:★★★
各大論壇最近有這么一種說法,NVIDIA新一代產品將完美支持3屏輸出!下面我們粗略的分析一下這種說法的可信度。
在2009年之前,多屏輸出還是一個和家用電腦風馬牛不相及的專業術語。雖然當時Matrox和NVIDIA/ATI都在專業2D領域擁有四頭甚至多頭輸出的解決方案,但這些技術都只在專業顯卡領域生存,在消費級市場上空白一片。
后來Matrox努力推行三頭輸出技術?終于在之前DualHead2Go的基礎上,成功的研發了三頭輸出的TripleHead2Go,中文名稱為3D環幕儀。Matrox帶來的3D環幕儀能夠像變魔術一樣讓一個顯卡的輸出口擴展為三個,由此實現三屏幕環幕游戲或者是四屏幕專業作圖顯示。
但ATI拿出了驚人的設計方案,在首顆DX11 GPU RV870當中直接集成了一個6通道的顯示控制器以后,這種產品就銷聲匿跡了。HD5870無需任何外接芯片或者輸出方案,核心六個通道都能支持2560x1600分辨率的10bit色顯示!
(普通版本因為要集成兩個Dlink DVI,所以只支持3屏)。AMD管這個方案稱之為Eyefinity,中文寬域。
一晃就是三年過去了,人家AMD Eyefinity都2.0了,但因為專利的約束,NVIDIA到現在位置依然沒有屬于自己的多屏技術,在最新的Fermin產品中雖然可以實現3屏,但必須借助雙卡。理由是目前單卡性能不足,單卡3屏意義不大。
果真是這樣么?在Dirt3等最新游戲中,現在的高端顯卡也可以毫不費力的帶動1080PX3分辨率+全特效運行。這個理由顯然是站不住腳的。
倒是旗艦一些終端顯卡合作廠商們有點耐不住寂寞了。比如說影馳,素以玩家需要為指向,技術科研實業為基礎的影馳就在多屏方面的有著自己的優勢。推出了自己的“Eyefinity”技術N卡。

影馳GTX570四星黑將顯卡搭配了3個DVI-D、1個DVI-I和一個Mini HDMI接口輸出,能夠輕松實現兩屏、三屏以及四屏不同需求的輸出。搭配IDT出品的VMM1403芯片,可以為顯卡提供另外3個DVI-D輸出接口。芯片會將1個Dual link DVI分為3個Single link DVI輸出接口。單就這個芯片來看,其擴展模式下最高可支持5760x1080(50Hz)分辨率,也就是說每個顯示器最高分辨率剛好為1920x1080(50Hz)。
這本是一個題外話,但證明了兩點:
1、類似Eyefinity的技術,并不是多余或者可有可無的。
2、Eyefinity作為3年前就成熟了的技術,顯卡廠商可以實現,NVIDIA想要支持也難度不大。
其次,顯卡技術多了不一定都用的上,但少了競爭對手無限夸大,揪著不放。一向心高氣傲的NV已經忍了三年了,怎能繼續退縮?所以開普勒支持多屏顯示技術,這一傳聞的可信度比較高,究竟成與不成,就看專利地雷是否可以成功繞開了。
胡謅指數:★★;
架構方面,開普勒會有什么變化?
Tahiti的GCN架構和沿用多年的VLIW架構相比,可謂面目全非了。
Tahiti徹底拋棄VLIW架構
通過Tahiti的整體架構圖我們看到,傳統的SIMD流處理器陣列消失了,取而代之的是GCN陣列,Tahiti總計擁有2048個流處理器,這樣每個GCN陣列里面擁有64個流處理器。現在來看看GCN陣列的微觀結構。
GCN與GF100的SM何其相似
Tahiti的GCN陣列微觀結構
GCN陣列里有4組SIMD單元,每組SIMD單元里面包括16個流處理器、或者說是標量運算器。GCN架構已經完全拋棄了此前5D/4D流處理器VLIW超長指令架構的限制,不存在5D/4D指令打包-派發-解包的問題,所有流處理器以16個為一組SIMD陣列完成指令調度。簡單來說,以往是指令集并行,而現在是線程級并行。
GF100的SM(流處理器簇)微觀結構
可以這么理解,一個GCN陣列與GF100當中的一組SM相當,GF100的一組SM當中有4組共計32個流處理器,而Tahiti的一組GCN當中有4組共計64個流處理器。
在流處理器部分,終于不用費勁的把AMD和NVIDIA GPU架構分開介紹了,因為GCN與SM已經沒有本質區別。剩下的只是緩存容量、流處理器簇的數量、線程調度機制的問題,雙方根據實際應用自然會有不同的判斷,自家的前后兩代產品也會對這些數量和排列組合進行微調。
在流處理器部分,我們看到Tahiti與GF100如此相似,那么接下來看到緩存設計時,您可能會要驚呼了……看圖說話:
Tahiti的緩存結構
最直觀的,Tahiti有一個容量為768KB二級緩存,這個容量與GF100的L2完全相同,都可以進行讀寫操作。
架構方面AMD的浮點性能游戲性能一直不錯,通用計算方面則比較落后,反之NVIDIA最需要改進的就是對游戲性能影響很到的單精度浮點計算能力。總的來說NVIDIA的CUDA核心被AMD借鑒了個八九不離十,而AMD的三屏,公版數字供電很有可能在開普勒身上看到,趨勢顯而易見——兩大顯卡巨頭,在競爭的同時一直在互相模仿,取長補短。
有消息說GK104的單精度浮點效率0是Fermi的1.5-2倍,請注意這是效率,如果沒有架構的真正革新,是不會有如此之大的提升的。又有小道消息說GK104居然會有1536流處理器!大家知道GF110才有512 CUDA核心,即便是28nm工藝也無法集成這么多的傳統CUDA核心!
既然AMD都借鑒NVIDIA的架構了,NVIDIA會不會也來個拿來主義?這次開普勒是否會借鑒AMD的架構優點而彌補自身的缺點?或者之前流傳的規格都是錯的,小道消息才是正解?架構方面NVIDIA之開普勒身上會不會有AMD架構的影子?
也許上面的預測比較大膽,但有一點現在基本可以確定,ALU(Pixel Shader)規模的大幅放大以及分頻方案的放棄了。天下大勢合久必分分久必合,因為合有合的道理,分有分的原因。當初的G71核心中,NV首次將ALU頻率和核心頻率分開,之后的G80開始ALU頻率可以自由設定,到GT200的固定倍頻,最后GF100ALU頻率是核心雙倍。
這些其實都是綜合考量當時的游戲和硬件需求而設計的。
在Fermi時代雙倍頻設計讓NV得以用30%的ALU規模達成了60%的吞吐總量。節約了寶貴的晶體管強化周邊緩沖資源。
但ALU的頻率也不是沒有極限的,一方面過高的ALU運行頻率造就更高的局部發熱,另一方面核心頻率無法運行在更高的水平。當工藝改進,核心頻率可以攀登更高水平的時候,棄用分頻技術也是情理之中。
胡謅指數:★★★;
一如其在DX10.1上的率先支持一樣,HD 7970的發布也讓AMD再一次在DX規格支持上獲得領先。
GCN架構圖中明確指示說支持“下一代圖形API”,也就是DX11.1了
● DX11.1升級了什么?
從小數點后的步進來看,DX11.1只是一次版本上的小步快跑而非大步飛躍,所以不會有什么激動人心的功能變化,但是這不代表DX11.1沒有亮點,相反DX11.1的看點還是挺多的。
1.加入3D立體支持
DX11發布后的這兩年,DX圖形技術沒啥變化,但是伴隨3D電影興起的3D游戲也火了起來,體驗過3D游戲之后大多數人都會覺得很震撼(也有人覺得很暈),栩栩如生的感覺不再是“科幻”。DX11.1很重要的一點改進就是增加了D3D 3D API,可以讓開發者通過D3D實現3D渲染。
微軟提供通用3D立體顯示支持可謂DX11.1眾多新功能中最耀眼的一個了
之所以這么說是因為目前實現3D立體顯示的技術要么是部分繞過D3D API而使用四倍緩沖器(Quad Buffer)實現3D游戲或應用,要么就是利用驅動/中間件實現的。在DX11.1中,3D渲染可以通過新增的D3D API實現,而且微軟的D3D 3D API并非排他性的,依然支持其他驅動/中間件方案。換句話就是DX11.1之后,開發者多了一個實現3D的選擇。
2.支持TBDR渲染
TBDR(Tile Based Deferred Render,延遲渲染貼圖)也是DX11.1中新增的一個操作指令。它原本是Power VR公司使用的3D渲染技術,主要用在智能手機以及平板、游戲機等設備上。與傳統z緩沖的渲染過程相比,TBDR不需要渲染不可見像素,這樣極大地減少了數量運算量,非常適合移動設備使用。
這項技術對桌面圖形計算來說并沒有太大意義,只是DX11.1并不只會用在桌面顯卡上,還承載著微軟擴張移動領域疆土的希望,TBDR依然是DX11.1中的重要功能,低功耗設備的福音。
3.TIR目標獨立光柵化
TIR(Target Independent Rasterization,目標獨立光柵化)的功能要求有所不同,因為前面的兩項技術只需升級DX11.1運行時程序即可,而TIR卻需要更改硬件設計,因此只有新一代顯卡才能支持,無法在原有顯卡上直接升級。
Rasterization光柵化是圖像處理的后期過程,DX11.1支持目標獨立光柵化,可以將原本CPU負責的工作完全轉移到GPU上,進而提高D2D的抗鋸齒性能。
4.支持雙精度浮點運算
雙精度浮點運算(Double-precision shader functionality)或者叫FP64不僅在GPU計算上意義非凡,在圖形渲染中也大有用武之地。雖然DX11中其實已經包含了FP64雙精度支持,但是功能有限,DX11.1中才真正實用化。
5.圖形與視頻之間的操作性更靈活
DX11.1強化了圖形、視頻等各種資源之間的操作靈活性,比如計算渲染器(Compute Shader)可以通過Media Foundation處理視頻(video),并將以前的D3DDX9、D3DX10視頻處理全部統一到D3DX11中去,可以簡化編程,提高效率。
● 開普勒將支持DX11.1?
微軟之前稱DX11.1將伴隨Win8一起發布,不過Win8開發者預覽版上還是DX11,至少也要等到Win8 beta或者正式版發布了。雖然現在Tahiti已經在硬件層面上提供了DX11.1的支持,但目前還沒有一個基于DX11.1的游戲或者demo,那開普勒會和AMD一樣積極響應微軟的號召么?
DX11.1走向實用還要等Win8發布之后
簡單來說,DX11.1相對DX11只是一次優化升級,但是從DX10到DX10.1性能有提升的經驗來看,DX11.1可能也有小小的驚喜,即便畫質上沒有提高,性能也會因效率的提高而受益多多。
綜上來看,DX11.1雖然只是顯卡架構升級中的小甜點,不能當成大餐,不過甜點也有自己獨特的味道,就看廠商如何應用了。從DX6剛興起AGP顯卡開始,NVIDIA就是微軟的親密合作伙伴和忠實的擁護者,直到DX10.1的時候NVIDIA不甘心處處唯微軟馬首是瞻,讓AMD奪得先機,后來又不得不低調加入支持。綜上所述,這次既然是全新架構,直接支持DX11.1可能性較大。
胡謅指數:★★★;
雖然cho此前已經表示GK110和Tahiti根本不是一個檔次上的東西,但他在某帖評論中稱桌面版GeForce GTX 6X0將會采用GK110核心的閹割版,完整版的看來仍將首發在Tesla/Quadro等HPC/工作站應用中。這種說法簡直就是Fermi發行時情況的復刻,可信度又有多高呢?
AMD的“南方群島”(Southern Islands)、NVIDIA的“開普勒”(Kepler)都確定會使用臺積電28nm新工藝,但因為工藝成熟度、發布策略的方面的原因,又不是完全相同的28nm工藝。
最開始的時候,兩家自然都想使用28nm HKMG HP高性能版本,但可惜臺積電不太爭氣,這種工藝仍然很不成熟,基本上要到2012年第一季度才能就緒。
AMD顯然等不了那么久,于是轉而采用另外一個版本:28nm HKMG HPL。這種工藝同樣使用了HKMG(高K金屬柵極)技術,兼顧高性能與低功耗特點。報告顯示,首批投入臺積電新工藝懷抱的Xilinx Kintex-7 FPGA芯片使用的正是這種版本。
其實臺積電28nm工藝還有第三種版本28nm SiON LP,是真正的低功耗工藝,也沒有了HKMG,而是繼續使用上代40nm工藝中的SiON絕緣層,只適合那些功耗很低的小型芯片。
NVIDIA開普勒因為核心面積較大、架構相對復雜、整體功耗偏高等因素,仍然不得不繼續等待28nm HKMG HP高性能工藝,再加上傳聞中性能未達預期水準,推遲到2012年上半年發布就很自然了。而這種難度更高的工藝勢必會造成更多的麻煩,良品率自然不會高,這樣的情況下就必須在速度和性能之間做出抉擇,現在南方群島已經搶先一步推出,NVIDIA自然倍感壓力,那么有兩種可能性:
1、在Fermi上已經吃了虧,為何NVIDIA依然要選擇相比而言較為不成熟的28nm HKMG HP高性能版本?很可能是因為在這方面的科研已經有了實質性的突破,NV和臺積電有把握稍微于AMD拿出完美的產品。
2、NVIDIA為了在28nm這一代占據更大的優勢,后發制人讓AMD無力反擊。寧可在初期失去先機,即便晚一點也在所不惜。
如果cho純屬扯淡,是第1種原因,那開普勒應該不會有一而再的跳票,也不會將一代產品拉開那么長的發布周期,從年初,到年末甚至明年才全線推出。所以第二種情況的可能性比較大,為了在速度和質量上取得非常好的平衡點,NVIDIA很有可能故技重施,首批命名不怎么激進的GTX680很可能是不完美的核心,而下一代GK110才是類似于GF110一樣真正完美的核心!
胡謅指數:★★★★;■<
關注我們


