三通道+DDR3能普及嗎?內存變革進行時
內存(memory),作為協調CPU和存儲間的中轉站,一直在系統中扮演著重要角色。硬件領域的幾次整體架構升級,都和內存有著莫大的關系,無論是SDRAM到DDR,再從DDR到DDR2,以及即將普及的DDR3,升級的本質都是為了提高內存帶寬,可見內存對系統性能的有著至關重要的作用。

談到內存架構升級,不得不提及Intel,也許有些人會說,intel不就是個造CPU的廠商嗎?和內存有什么關系!在硬件領域中,也許只有intel這樣一個廠商可以推行根據自身發展需要推行硬件設備的新規范新標準。大多情況下,在intel的領導下,整個硬件產業都要跟隨intel的腳步前進。
看看我們現在常見的硬件規范,從大家常見的USB,SATA2,PCI-E標準,哪個不是英特爾力主的,現今PC上的硬件標準幾乎都是intel設計的,其它廠商不過是跟隨和生產而已。不過內存的規范上,intel失敗過,也許是僅有的一次失敗——DDR內存標準(下文中會對此進行說明),此后,intel再沒有給別人機會,DDR2就是在intel的領導下推廣開來,而現在,隨著集成了支持DDR3內存控制器的nehalem即將發布,內存的架構也會掀開新的一頁!
CPU中集成內存控制器,是一把雙刃劍,雖然能提高系統的性能,主要是降低系統延時,但CPU的頻率提升因此變得很難,還有不小的制造成本。也正因此,集成內存控制器一直是個大家樂于討論的問題,孰優孰劣,一直爭論不休。不可否認的是,當AMD集成內存控制器,并通過HT總線連接系統的時候,已經縮小與Intel之間的技術差距。
在AMD推出集成內存控制器近5年后,英特爾終于將推出了集成內存控制器的CPU,而為了壓制競爭對手,保持技術領先者的姿態,一上來就引入了3通道DDR3,引領內存帶寬達到新的高度。
根據英特爾的資料,Nehalem的內存控制器為Integrated Memory Controller,簡稱IMC。規格上支持三通道DDR3內存,初期最高支持到1333MHz,不過像個別一線廠商的高端主板支持oc到1600MHz的規格。同時,IMC支持亂序讀取可以有效降低延遲,而且每通道均可獨立運行,無疑在一定程度上提高了兼容性問題。但稍感遺憾的是,Intel似乎沒有照顧低端用戶的意思,IMC僅支持目前價格昂貴的DDR3。
●FSB生命進入倒計時,學會生活在QPI時代
當我們習慣了FSB——前端總線(Front SIDE Bus,簡稱FSB),面對QPI時代的到來,以后再談論CPU連接到北橋芯片的總線時,QPI將是一個嶄新的朋友,作為取代FSB,成為新一代CPU和CPU、CPU與芯片組(CPU與內存)之間的連接總線,QuickPath Interconnect(簡稱QPI)的總線技術,Nehalem成為了推動FSB生命終結的死亡使者。
讓FSB去死的關鍵理由,就是總也喂不飽內存所需要帶寬,即使是配備再強的CPU,將前端總線頻率超至新高,用戶也不會明顯感覺到計算機整體速度的提升。即使是弱小的phenomX4,也依靠HT總線技術縮小其與酷睿2 yorkfield的性能差距,所以說QPI的誕生具有革命性的意義。
小提示:目前Intel處理器主流的前端總線頻率有800MHz、1066MHz、1333MHz幾種,進入2007年后,Intel在11月又將處理器前端總線提升至1600MHz(默認外頻400MHz),這比2003年最高端的800MHz FSB總線頻率整整提升了一倍。這樣高的前端總線頻率,其帶寬有多大呢?前端總線為1333MHz時,處理器與北橋之間的帶寬是10.67GB/s,而提升到1600MHz能達到12.80GB/s,增加了20%。
在測試3通道內存性能前,筆者有必要介紹下內存的發展史。DDR內存作為近十年來最為重要的內存技術,想當初,一個傳奇版的技術差點就被intel扼殺在搖籃中,要不是當年鼎盛時期的威盛力主和當時低下的生產工藝,也許現在我們使用的內存就將不是DDRX(X=1、2、3、4),而是Rambus以及后續產品了。
當時的電腦系統中,內存帶寬是除硬盤外的最大瓶頸,各芯片級廠商也共商提高內存性能的方法,一方是以威盛為代表的守舊派,一方是以革新內存架構的intel。當時的局面類似于HDDVD于blu-ray的對決,但結果卻是截然相反的。
以更先進技術出現的Rambus雖然看上去很好,但是授權費和內存芯片廠初期的建廠成本導致的高價格,以及威盛主流芯片組的大賣特賣,將Rambus推向深淵,最終intel也不得不放棄Rambus轉而支持DDR內存。可以說,現在內存技術的發展方向,和當時威盛芯片組有很大關系,但也正是基于此,得罪了intel,為日后的失敗種下了禍根。在intel取消芯片技術交差授權后,nvidia在芯片組領域的崛起(AMD平臺),現在的威盛不得不在其它領域謀求發展。
小貼士:DDR-SDRAM:DDR SDRAM(Double Data Rate DRAM)或稱之為SDRAMⅡ,由于DDR在時鐘的上升及下降的邊緣都可以傳輸資料,從而使得實際帶寬增加兩倍,大幅提升了其性能/成本比。就實際功能比較來看,由PC133所衍生出的第二代PC266 DDR SRAM(133MHz時鐘×2倍數據傳輸=266MHz帶寬),不僅在InQuest最新測試報告中顯示其性能平均高出Rambus 24.4%,在Micron的測試中,其性能亦優于其他的高頻寬解決方案,充份顯示出DDR在性能上已足以和Rambus相抗衡的程度。
傳輸模式:傳統SDRAM采用并列數據傳輸方式,Rambus則采取了比較特別的串行傳輸方式。在串行的傳輸方式之下,資料信號都是一進一出,可以把數據帶寬降為16bit,而且可大幅提高工作時鐘頻率(400MHz),但這也形成了模組在數據傳輸設計上的限制。也就是說,在串接的模式下,如果有其中一個模組損壞、或是形成斷路,便會使整個系統無法正常開機。因此,對采用Rambus內存模組的主機板而言,便必須將三組內存擴充插槽完全插滿,如果Rambus模組不足的話,只有安裝不含RDRAM顆粒的中繼模組(Continuity RIMM Module;C-RIMM),純粹用來提供信號的串接工作,讓數據的傳輸暢通。
DDR2比DDR有哪些改變
|
|
DDR |
DDR 2 |
|
目前最高時鐘頻率(單位MHz) |
533(非標準) |
1066(非標準) |
|
數據帶寬(GB/s) |
4.26GB/s |
8.5GB/s |
|
芯片封裝 |
TSOP Ⅱ |
FBGA等 |
|
工作電壓 |
2.5V |
1.8V |
|
最高物理Bank |
8 |
4 |
|
最高邏輯Bank |
4 |
8 |
|
數據預取(bit) |
2 |
4 |
通過上面的表格,很明顯,DDR 2的工作電壓比DDR低近30%,功耗也能相應下降大約50%了。采用FBGA等CSP方式封裝,減小了模組尺寸,并提高信號完整性,它增加了各模塊之間的空氣流動空間因而提高了熱性能和可靠性。綜合來看,更容易達到最高的頻率。目前廠商等不及動作太慢的JEDEC,自行推出了DDR 1066的產品。這種產品單條即有8.5GB/s的帶寬,相當于雙通道DDR 533。

由于核心頻率和外部頻率的倍進關系,而我們又是以外部頻率作為衡量內存時鐘頻率的標準,因此同頻DDR 2內存和DDR內存相比,數據傳輸率是一樣的,當然,僅僅是頻率上的提升,頂多算個“DDR.改”,談不上“DDR 2”。DDR 2的重大改進之處就在于數據預取從DDR的2bit提升為4bit。所謂2bit預取,可以理解為內存核心向外部I/O緩沖傳遞一次數據,可供外部I/O傳輸兩次的量。而4bit預取,就是內存核心向外部I/O緩沖傳遞一次數據,可供外部I/O傳輸4次的量。
我們知道,內存芯片的頻率也有芯片核心頻率和外部頻率兩種:在DDR時代,這兩個頻率是相同的;但在DDR 2時代,核心頻率就變成了外部頻率的一半。這是為什么呢?因為DDR的2bit預取,核心一次傳輸的數據可供外部I/O緩沖傳輸2次,而數據以DDR方式傳輸,數據傳輸是CLK時鐘的上下沿觸發,因此外部時鐘頻率與核心頻率保持一致。而4bit預取就不一樣了,核心一次傳輸數可供外部I/O緩沖傳輸4次,同樣使DDR方式傳輸,外部頻率也要是核心頻率的兩倍才行。

除了4bit預取,DDR 2還有一些重大改進,例如片上終結ODT,將DDR時代設計在主板上的終結器改為設計到內存條上
這樣一來,問題就出現了。因為外部頻率才是內存數據傳輸品頻率的基準,我們平時說的內存的頻率都是指其外部頻率,除非不以DDR方式工作,否則當預取數據超過外部I/O緩沖和MCH芯片一次DDR傳輸量,內存芯片核心頻率就必須降低。
因此,盡管是4bit預取,但與同頻率DDR內存相比,DDR 2內存的數據帶寬是一樣的。并且,由于核心頻率和外部時鐘頻率的這種倍進關系,造成一個時鐘周期等待時間更長。也就是俗稱的“DDR 2高延遲”。隨著頻率的提升,這種延遲會變得越來越明顯。
盡管延遲略高,DDR 2和同頻DDR內存比較實際應用中差別很小一度有傳言說,DDR 2性能不如DDR,這其實是一種誤解。在頻率相同的情況下,DDR 2內存確實有部分性能不如DDR內存,例如專門的內存測試項和部分整數運算性能,但這種差異很小很小,在游戲里更是幾乎沒有差別。
而隨著頻率的提高,DDR 2高頻高帶寬的優勢體現無疑,DDR也就533MHz到頭了。所以,在現有的主流內存里,DDR 2內存性能更強是肯定的。只不過確實由于Intel強推,讓剛進入成熟期的DDR內存提前退出了主流市場,讓很多玩家感到不滿而已。
● DDR3集萬千寵愛搶班奪權
1. 8bit預取設計,而DDR2為4bit預取。
相對于DDR2內存的4bit預取機制,DDR3內存模組最大的改進就是采用了8bit預取機制設計,也就是內部同時并發8位數據。在相同Cell頻率下,DDR3的數據傳輸率是DDR2的兩倍。這樣DRAM內核的頻率只有接口頻率的1/8,DDR3-800的核心工作頻率只有100MHz,當DRAM內核工作頻率為200MHz時,接口頻率已經達到了1600MHz。而當DDR3內存技術成熟時,相信有實力的內存廠商將推出DDR3-2000甚至2400的頻率更高的內存。

內存規格對比表
2. 采用點對點的拓樸架構,以減輕地址/命令與控制總線的負擔。
這是為了提高系統性能而進行的重要改動,也是DDR3與DDR2的一個關鍵區別。在DDR3系統中,一個內存控制器只與一個內存通道打交道,而且這個內存通道只能有一個插槽,因此,內存控制器與DDR3內存模組之間是點對點(Point-to-Point,P2P)的關系(單物理Bank的模組),或者是點對雙點(Point-to-two-Point,P22P)的關系(雙物理Bank的模組),從而大大地減輕了地址/命令/控制與數據總線的負載。而在內存模組方面,與DDR2的類別相類似,也有標準DIMM(臺式PC)、SO-DIMM/Micro-DIMM(筆記本電腦)、FB-DIMM2(服務器)之分,其中第二代FB-DIMM將采用規格更高的AMB2(高級內存緩沖器)。
3. 采用100nm以下的生產工藝,將工作電壓從1.8V降至1.5V,在DDR3系統中,對于內存系統工作非常重要的參考電壓信號VREF將分為兩個信號,即為命令與地址信號服務的VREFCA和為數據總線服務的VREFDQ,這將有效地提高系統數據總線的信噪等級。
4. 增加異步重置(Reset)與ZQ校準功能。重置是DDR3新增的一項重要功能,并為此專門準備了一個引腳。這一引腳將使DDR3的初始化處理變得簡單。當Reset命令有效時,DDR3內存將停止所有操作,并切換至最少量活動狀態,以節約電力。在Reset期間,DDR3內存將關閉內在的大部分功能,所有數據接收與發送器都將關閉,所有內部的程序裝置將復位,DLL(延遲鎖相環路)與時鐘電路將停止工作,而且不理睬數據總線上的任何動靜。這樣一來,將使DDR3達到最節省電力的目的。
● DDR3與DDR2的不同之處
1、邏輯Bank數量
DDR2 SDRAM中有4Bank和8Bank的設計,目的就是為了應對未來大容量芯片的需求。而DDR3很可能將從2Gb容量起步,因此起始的邏輯Bank就是8個,另外還為未來的16個邏輯Bank做好了準備。
2、封裝(Packages)
DDR3由于新增了一些功能,所以在引腳方面會有所增加,8bit芯片采用78球FBGA封裝,16bit芯片采用96球FBGA封裝,而DDR2則有60/68/84球FBGA封裝三種規格。并且DDR3必須是綠色封裝,不能含有任何有害物質。

3、尋址時序(Timing)
就像DDR2從DDR轉變而來后延遲周期數增加一樣,DDR3的CL周期也將比DDR2有所提高。DDR2的CL范圍一般在2至5之間,而DDR3則在5至11之間,且附加延遲(AL)的設計也有所變化。DDR2時AL的范圍是0至4,而DDR3時AL有三種選項,分別是0、CL-1和CL-2。另外,DDR3還新增加了一個時序參數——寫入延遲(CWD),這一參數將根據具體的工作頻率而定。
4、新增功能——重置(Reset)
重置是DDR3新增的一項重要功能,并為此專門準備了一個引腳。DRAM業界已經很早以前就要求增這一功能,如今終于在DDR3身上實現。這一引腳將使DDR3的初始化處理變得簡單。當Reset命令有效時,DDR3內存將停止所有的操作,并切換至最少量活動的狀態,以節約電力。在Reset期間,DDR3內存將關閉內在的大部分功能,所以有數據接收與發送器都將關閉。所有內部的程序裝置將復位,DLL(延遲鎖相環路)與時鐘電路將停止工作,而且不理睬數據總線上的任何動靜。這樣一來,將使DDR3達到最節省電力的目的。

5、根據溫度自動自刷新(SRT,Self-Refresh Temperature)
為了保證所保存的數據不丟失,DRAM必須定時進行刷新,DDR3也不例外。不過,為了最大的節省電力,DDR3采用了一種新型的自動自刷新設計(ASR,Automatic Self-Refresh)。當開始ASR之后,將通過一個內置于DRAM芯片的溫度傳感器來控制刷新的頻率,因為刷新頻率高的話,消電就大,溫度也隨之升高。而溫度傳感器則在保證數據不丟失的情況下,盡量減少刷新頻率,降低工作溫度。不過DDR3的ASR是可選設計,并不見得市場上的DDR3內存都支持這一功能,因此還有一個附加的功能就是自刷新溫度范圍(SRT,Self-Refresh Temperature)。通過模式寄存器,可以選擇兩個溫度范圍,一個是普通的的溫度范圍(例如0℃至85℃),另一個是擴展溫度范圍,比如最高到95℃。對于DRAM內部設定的這兩種溫度范圍,DRAM將以恒定的頻率和電流進行刷新操作。
6、局部自刷新(RASR,Partial Array Self-Refresh)
這是DDR3的一個可選項,通過這一功能,DDR3內存芯片可以只刷新部分邏輯Bank,而不是全部刷新,從而最大限度的減少因自刷新產生的電力消耗。這一點與移動型內存(Mobile DRAM)的設計很相似。
從技術角度上看,DDR3內存確實比DDR2改進不少,自身條件已經達到普及的標準。但是如果要更好的發展還要外部支持才行。
作為世界內存領導型企業,海盜船的領先技術一次次讓業界震撼,這次根據nehalem的架構特性對內存的特殊需要——高頻低壓,搶先業界推出i7御用的排裝內存條(3根)。
因為nehalem引入了3通道概念,內存套裝的描述也發生了變化,原來的對條、一對等稱謂已不適合。那么3根內存我們如何稱呼呢?海盜船給我們做出了表率,一排、排裝內存。 本次海盜船送測了單根2G和單根1G的兩排內存,因測試時間的緊促和系統問題,筆者不得已使用3根單根1G排裝進行測試,已避免32bit系統內存超過4GB后帶來的性能下降問題。內存模組型號為XMS3-1333,默認電壓1.5V,延時為9-9-9-24,單條容量為1024MB,加裝銀灰色鋁質散熱片,金手指采用電鍍工藝,PCB為高級的brainpower生產。在內存costdown嚴重的今天,實屬難能可貴,體現出國際內存領導型企業的風采。
根據nehalem的定位,intel官方說法是初期上市的3款nehalem除了頻率區別外,新加入的QPI總線帶寬也有差別,以區別產品的定位。
|
Core i7 920 |
Core i7 940 |
Core i7 Extreme Edition 965 | |
|
產品編碼 |
BX80601920 |
BX80601940 |
BX80601965 |
|
制程 |
45nm |
45nm |
45nm |
|
接口 |
LGA 1366 |
LGA 1366 |
LGA 1366 |
|
晶體管數 |
7.31億 |
7.31億 |
7.31億 |
|
核心線程數 |
4核8線程 |
4核8線程 |
4核8線程 |
|
主頻 |
2.66GHz |
2.93GHz |
3.2GHz |
|
二級緩存 |
4x256KB |
4x256KB |
4x256KB |
|
三級緩存 |
8MB |
8MB |
8MB |
|
QPI總線 |
4.8GT/s |
4.8GT/s |
6.4GT/s |
|
內存控制器 |
三通道DDR3-1066 |
三通道DDR3-1066 |
三通道DDR3-1066 |
|
TDP |
130W |
130W |
130W |
|
售價 |
284美元 |
562美元 |
999美元 |
為了驗證QPI總線的性能差別,筆者的測試方案如下,將nehalem的頻率統一設定在2.66GHz上,比較同頻率下不同QPI帶寬的新跟那個差異。由于集成內存控制器,intel芯片組第一次引入了CMD概念,在同頻下,測試內存CMD(1T、2T)間的性能差異。
|
硬件系統配置 | |
|
處理器 |
Core i7 Extreme Edition 965 (四核/2.66GHz/4x256KBytes L2/8M L3) Core i7 920 (四核/2.66GHz/4x256KBytes L2/8M L3 |
|
主板 |
技嘉EX58- extreme |
|
硬盤 |
西部數據 velociraptor (300GB, 10,000 RPM, 16M,SATA300) |
|
內存 |
海盜船 TR3X3G1333C9 3X1G DDR3 1333MHz (9-9-9-20 1T) |
|
顯卡 |
nvidia 9800GTX+ |
|
電源 |
海盜船 corsair TX1000W |
|
顯示器 |
ASUS 24寸 |
|
軟件系統配置 | |
|
操作系統 |
Windows VISTA Ultimate SP1 32BIT |
|
顯示驅動 |
nvidia 180.42 |
為了不使測試平臺的其它部分作為瓶頸,選用了技嘉X58-extreme搭配9800GTX+進行輔助測試,為了不使內存帶寬成為瓶頸,使用海盜船1333排裝組成三通道測試內存帶寬,同時存儲方面使用目前在SATA硬盤中的神器velociraptor,將平臺性能發揮到最大。
CPU理論運算對比測試
◎ SuperPI性能測試
Super PI是由東京大學Kanada Lab.所制作的一款通過計算圓周率的來檢測處理器性能的工具,在測試里面可以有效的反映包括CPU在內的運算性能。在玩家群中,Super PI更是一個衡量CPU性能的標尺之一。

在Super Pi 8M的測試較量中,可以看到QPI對內存性能的影響比內存延時大的多,看來3通道內存還是對帶寬的敏感性比延時更強。
◎ EVERST 內存性能測試
我們采用了EVERST Ultimate軟件中的內存測試項目考驗雙款平臺的內存性能。這樣可以測試出CPU集成內存控制器對內存性能的影響。

看到成績結果后,要具體問題具體分析,在讀取、寫入和拷貝的對比中,對內存控制器負載最低的讀取性能差距較小,性能差異根據對內存控制器負責高低決定,負責最大的拷貝測試,差異更明顯。總體上看,QPI對性能的影響比重更大。
◎ Fritz 10 Benchmark 性能測試
這是一款國際象棋測試軟件,但它并不是獨立存在的,而是《Fritz9》這款獲得國際認可的國際象棋程序中的一個測試性能部分。由于國際象棋的運算大致仍舊是依靠電腦CPU的高速處理能力,將每一個可能的走法以窮舉算法預測,從中選擇勝算最大的非常好的走法。所以用它來衡量對比不同的PC系統中CPU的多線程運算能力也是有參考價值的。

由于Fritz主要是考驗CPU計算性能的軟件,內存在其中所占比重較小,但微弱的差異也能體現出QPI的功能,根據測試成績比例來看,QPI仍舊比CMD對性能的影響更高。
◎ ScienceMark 性能測試
ScienceMark是一款通過運行一些科學方程式來測試系統性能的工具。主要用于桌面臺式機和工作站上測試內存子系統,同時也用于測試服務器環境中的讀寫延時,當然,它對內存的帶寬及CPU與內存控制器之間的速度等也可進行測試。

從Sciencemark的測試結果看,所有成績都在同一水平,看來核心運算效率強勁前提下,對內存的要求不高。
● DX10游戲CPU性能測試—《孤島危機》
作為年度DX10游戲巨作Crysis的游戲畫面達到了當前PC系統所能承受的極限,超越了次世代平臺和之前所有的PC游戲,即便是搭配優異的顯卡,在采用大分辨率開抗鋸齒的情況下,也只能勉強“瀏覽”游戲。
測試方法:Crysis Demo內置了CPU和GPU兩個測試程序,我們使用CPU測試程序,這個程序會自動切換地圖內的爆炸場景,激烈的爆炸場面嚴格的考驗著CPU渲染性能,運行一段時間得到穩定的平均FPS值作為測試依據。


在低分辨率情況下,顯卡已經不是瓶頸,而僅僅在于CPU的運算能力。Crysis的兩個CPU測試場景,得出的結果表現基本一致。這點就讓人匪夷所思,Nehalem的性能提升是毋容置疑的,但為什么在對硬件要求甚高的crysis中無明顯作用呢?
筆者經過測試crysis,再次證明QPI的重要性遠比內存延時來的高,即使是QPI 6.4GB/s 2T的模式下,性能也比QPI4.8GB/s 1T模式下高出3幀左右。
4組QPI不同設置下的對比測試到此結束了,對所有的測試成績進行分析對比后,可以得出以下結論:
-
QPI對提升系統性能有很大幫助,在Sisoftware Sandra理論測試中,帶寬甚至突破了20GB/s大關,雖然實際應用時不可能達到如此之高,但帶寬大的好處顯而易見,如同開跑車在山地上和高速公路間的差異。
-
在QPI時代,QPI的頻率比內存延時對系統性能影響更大,優先提升QPI的頻率更加重要。
-
通過QPI,相比之前FSB時代,對內存的體質要求有所降低,即使因為內存體質只能工作在2T模式下,只要QPI頻率高,性能也不會削減太多。
intel的每次架構升級,都地對電腦系統的結構帶來巨大影響,除了當年力挺的Rambus因為技術太過先進,因產能不足失敗外,此后的CPU架構升級所帶來的系統部件發展方向都按照intel的規劃前進。DDR2的普及,和酷睿2的騰空出世有著深遠關系。那么,作為全新架構的Nehalem,也必將對DDR3的普及產生巨大推動作用!<
關注我們


