午夜片神马影院福利,亚洲欧美视频手机在线,成人免费亚洲av在线

泡泡網CPU頻道 PCPOP首頁 / CPU / 評測 / 正文

性能之王還是不進反退，Prescott全

2004年03月03日 11:13作者：小胖胖編輯：超級管理員文章出處：泡泡網原創

2003年后期，為了暫時壓制AMD公司新推出的Athlon64系列處理器，Intel不惜工本在舊有的P4核心基礎上，增加2MB三級緩存，推出了價格高昂的P4至尊版（3.2GHz頻率的該型號處理器，千片采購價就高達700多美元）。但僅憑這樣的高價處理器，在主流市場顯然是站不住腳的；而舊有的Northwood核心P4在面對Athlon64系列CPU的威脅時，在某些應用中已經略顯疲態。

在原有的P4架構基礎上，要再一次奪取先機并保持處理器的制作成本在可接受的范圍之內，就必須進一步改進P4處理器的內部架構和制作工藝。這樣才可能通過提升處理器的工作頻率，在新一輪的CPU大戰中站穩腳跟。

　　
2004年2月1日，Intel終于推出了舉世矚目的90nm制程P4E（Prescott核心P4）系列處理器。首批推出的Prescott核心P4處理器共有4款，分別為：P4 2.8A、P4 2.8E、P4 3.2E以及P4 3.4E。其中P4 2.8A前端總線數據傳輸頻率僅為533MHz，并且不支持超線程技術，以后綴“A“來標識。而其余的型號均為800MHz前端總線數據傳輸頻率，都開啟了超線程功能，以后綴“E“標識。

那么，此款處理器對P4處理器原有的Netburst架構究竟作出了什么改進，使用了哪些新的處理器制造技術，會不會如Athlon64系列那樣加入64位擴展，初期推出的幾款處理器實際的性能表現又會如何呢？以下，我們就為大家一一揭開謎底。<

在我們的上一篇文章中，我們已經看到AMD K8核心處理器為了進一步提升頻率，將流水線級數由K7的10級增加到了12級。而在Prescott核心的P4處理器中，為了進一步提升處理器的頻率，Intel把Trace Cache之后的流水線級數變本加厲，由以前的20級增加到了30級。這恐怕是此款處理器最引人注目的改變之一了，也因此引來了諸多媒體的議論。

我們都知道，處理器流水線基本可以劃分為：指令取→指令解碼→指令執行→載入/儲存→寫回寄存器這五個部分。通過這樣的流水線設計，就可以在每條流水線上同時處理一條以上的指令。為了敘述方便，我們可以把流水線假想為一組傳送帶，如下圖：

處理器長短流水線示意圖（點擊放大）

短流水線好比節數較少，單節皮帶行程長的模式。它的單節皮帶負載能力更大。而長流水線則好比節數較多，單節皮帶行程短的模式。它的單節皮帶負載能力較弱。

雖然從長度上看，由于長流水線級數較多，因此行程也較遠，在皮帶傳送速度相同（均為1M/s）的情況下，當然是短流水線占優勢。但隨著工廠技術的發展，必須提高產量。此時我們就需要提高傳送帶的送貨量。顯然我們可以想到最簡單的方法就是增加皮帶的傳送速度。

然而在短流水線的傳送帶中，由于單節皮帶較為粗長，本身質量較大，因此要進一步提速就顯得十分困難（極限速度可提升到1.2M/s）。相比之下長流水線設計的傳送帶則由于單節皮帶質量小，提速就顯得容易得多（極限速度可提升到2M/s）。這樣我們通過給長流水線傳送帶大幅度提速，在流水線各環節同時正常運轉的情況下，實現了超越短流水線傳送帶的目的。

顯然，如果在此基礎上進一步增加并行傳送帶的組數，構成“超標量“傳送帶，那么長流水線的速度優勢還將得到更好的體現。

由于上述的優點，多數處理器在升級換代時，基本都采取了增加流水線級數的策略，以下，我們給出Intel公司幾款具有代表性處理器的流水線布置圖，以供大家參考。

Intel系列處理器流水線級數簡圖（點擊放大）

需要注意的是，P4系列處理器的流水線級數尚不包括前面的取指令、解碼部分。通過增加流水線的級數，Intel宣稱Prescott核心P4處理器的工作頻率將可達到5GHz左右。

但是凡事有利必有弊。首先，長流水線的優勢必須在提速到達一定程度之后才能夠體現出來。可是處理器廠家在長流水線處理器推出的初期，由于市場等多方面因素，又不可能馬上以較高的頻率推出新處理器。因此，這些處理器在某些條件下自然就會出現不盡人意的情況。其次，Prescott的超長流水線設計和較高的頻率，也將帶來其它方面的一系列問題。為了減小這些問題可能帶來的損失，在Prescott中，Intel采取了許多措施進行補救。下面，我們就進一步為大家說明。<

要分辨兩棟建筑物的異同，沒有內部構造圖是不行的，對于處理器來說也是如此。所以，首先我們還是來看兩張Prescott核心架構與Northwood的架構對比圖吧：

Prescott與Northwood的架構對比圖（點擊放大）

我們可以看到，上圖中最明顯的變化有三處：

◎ 指令追蹤緩存（Trace Cache，作用類似于以前的一級指令緩存）所用的分支目標緩存（Trace Cache BTB，主要用于動態分支預測），條目數（Entries）由512條增加到2000條；

◎ 一級數據緩存容量倍增，由原來的8KB增加到了16KB。緩存聯合路數也隨之倍增，由原來的4路聯合（4ways）增加到8路聯合（8ways）；

◎ 二級緩存容量也由原來的512KB增加到了1MB，緩存聯合路數則保持不變。

考慮到讀者對于緩存已經比較熟悉，因此我們先就涉及到緩存變化的后兩個項目進行分析。而對于大家還不太熟悉的BTB，我們將放到后面再作說明。

前面我們已經提到，Prescott的頻率可高達5GHz左右，而歸根結底，處理器需要內存為其輸送數據。處理器在如此高的頻率下工作，即使是尚未走向主流的下一代DDRⅡ內存，在沒有輔助措施的條件下也會略顯吃力，更不必說目前的DDR內存了。

內存系統跟不上處理器的腳步，是長久以來存在于系統設計中的一個問題。對于這個問題，AMD公司通過在K8處理器中內置內存控制器，并增加二級緩存容量到1MB來解決。而同期推出的P4至尊版則沒有變動其它機構，僅追加了2MB三級緩存。至于Prescott，則主要采用了以下三個方面的措施進行解決。

● 最容易理解的措施——增加一級、二級緩存的容量。我們已經從對比圖中看到了。不過需要提醒大家注意的是，雖然增大緩存的容量有利于緩解慢速的內存所帶來的影響，但在某種條件下，也可能隨之提高緩存的延遲，在Prescott中就出現了這種現象。以下就是我們使用ScienceMark 2.0測試緩存延遲時所得到的結果。

	一級緩存		二級緩存
	延遲周期	納秒	延遲周期	納秒數
P4 3.2E	4	1.25	26	8.11
P4 3.2	2	0.62	19	5.92

表中可見，擴容后，Prescott的一級緩存、二級緩存延遲分別增加到Northwood的2倍和1.4倍左右，擴容的副作用較為明顯。

● 第二條措施——對P4原有的預取技術作出改進。

考慮到讀者可能對預取技術還比較陌生，因此我們首先對預取技術作簡要的說明。沒有使用預取機構的處理器，只能在需要對數據進行處理時查找緩存，如果緩存中沒有所需數據，就必須停止工作，等待內存提供此數據。而使用預取機構后，則可以在數據需要處理之前就完成查詢緩存，向內存中取數據，并將數據預取到緩存中工作，隱藏了內存的延遲，如下圖：

預取原理圖（點擊放大）

P4中具備軟件預取和硬件預取兩種預取方式。所謂軟件預取，就是在程序的代碼中由編程人員人為地添加預取指令。而硬件預取則由處理器全權管理預取工作，不需要編程人員手工插入預取指令。Prescott中對兩種預取都做出了一些改進。

軟件預取方面，對過去的P4來說預取的對象只能是普通數據。這意味著軟件預取指令只能為二級緩存提供預取服務。而在Prescott中則擴大了軟件預取的對象，不僅可以為二級緩存提供預取服務，而且還能夠為另一種重要的緩存——二級緩存D-TLB提供預取服務（有關TLB的說明請點擊這里了解）。

此外，在舊的P4中，軟件預取指令必須由速度慢的MicrcodeROM負責解碼。而現在則可由速度較快的硬件解碼器解碼，存放在發布速度快得多的Trace Cache中(MicrocodeROM和硬件解碼器的區別請點擊這里了解)。也算提高預取性能的一種輔助措施吧。

硬件預取方面，Prescott的硬件預取機構在預取時機、預取對象的選擇上也變得更加智能化，不過Intel對于硬件預取方面的改變并沒有提供更多的細節說明。

● 最后由于Prescott中超線程技術的存在，對彌補內存延遲的技術提出了更高的要求，為此，Intel進一步增加了部分內部緩沖器的容量，以滿足開啟超線程時的需要。<

前面我們主要涉及的，只是處理器外圍的緩存部分，下面，我們把目光投向Prescott的核心內部，首先看看前端部分的一些變化：

Prescott前端結構（點擊放大）

如上圖，P4的前端部分主要由指令取、指令解碼、追蹤緩存、MicrocodeROM以及分支預測機構所組成。在這一部分中，Prescott主要在以下三個方面采取了改進措施。

◎ 在解碼部分，Prescott將把更多的指令將交由硬件解碼器進行解碼后由指令發布速度為3條/周期的追蹤緩存來發布，而不是交由發布速度僅1條/周期的MicrocodeROM來解碼后發布，比如我們在上面提到的軟件預取指令，就是一個很好的例子；這一點，同Athlon64的情況比較類似，而有關MicrodeROM與硬件解碼器的區別，請點擊此處察看。

◎ 第二方面，Prescott的解碼部分能夠識別出更多指令之間不必要的數據依賴（Data Dependence），以便提高后面的亂序執行效率；

◎ 最后，也是最重要的一個方面，就是對分支預測機構的改進了，我們將主要針對此方面的改進作一些簡要說明。

首先，是我們在前面尚未涉及的Trace Cache BTB部分。必須明確的一點是，Trace Cache BTB部分的變動，與Prescott的動態分支預測機構關系十分緊密，而動態分支預測機構的性能，則對于Prescott這樣的超長流水線處理器，具備相當重要的意義。

我們知道，簡單處理器取指令時，只能按照編譯后的指令靜態順序進行順次讀取；但由于分支指令的跳轉特性，打亂了這種依次執行的順序；如果此時我們仍然按照指令編譯時的靜態順序順次讀取，或是在具備分支預測的處理器上出現分支預測失敗的現象，錯誤地讀取了其它的指令進行處理，就必然造成流水線部分區域的停工或是作了無用功。如下圖：

長流水線分支預測失敗示意圖（點擊放大）

對于Prescott這樣的31級超長流水線來說，這樣的問題給處理器帶來的危害顯然比稍短的流水線更大。為了解決流水線在執行條件分支指令時的上述問題，就必須改進Prescott處理器中的分支預測機構，這方面Intel主要有以下三方面的措施：

◎ 動態分支預測方面，首先就是我們前面提到的，將追蹤緩存(Trace cache)所用的分支目標緩沖條目數由以前的512條增加到了2千條；

◎ Intel還宣稱在原有的動態分支預測機構中加入非直接跳轉分支預測器(Indrector Branch Predictor)，改進了動態預測非直接跳轉分支的能力。

◎ 第三條措施，就是改進靜態分支預測的策略。 <

要理解前頁所述的改進，我們就必須首先了解分支預測的一些基本原理。

同大多數處理器一樣，Prescott處理器的分支預測機構可以分為動態分支預測機構以及靜態分支預測機構兩大類，而其中動態分支預測機構由分支目標緩沖（Branch Target Buffer ，以下簡稱BTB）以及預測跳轉條件是否滿足的動態預測機構組成：

分支預測原理圖（點擊放大）

圖中可見，BTB與我們熟悉的一級、二級緩存十分類似，只不過緩存的對象不同而已，前者緩存了分支指令及其挑轉目標的地址，而后兩者則緩存具體的數據或指令。在每一個BTB的條目中，集中存儲了分支指令地址、跳轉地址以及分支指令的跳轉歷史紀錄。需要注意的是，由于P4對于其分支預測機構的細節一直不愿意做過多的透露，因此其中實際的分支預測機構組成狀況，與上圖所表示的結構必然在細節上存在許多不同之處，但從原理上說，二者是基本相同的。

大致了解了分支預測的原理之后，再回過頭來看Prescott中的分支預測改進狀況，就較好理解了。

◎ 動態分支預測方面，與其它處理器不太相同，P4處理器在指令預取單元和Tace Cache單元上，各放置了一套BTB機構，但兩套BTB機構的作用和工作原理是類似的。增加BTB條目數，能夠紀錄的分支指令數就越多，當遇上分支指令較密集，分支指令跳轉情況變化較復雜的程序時，將體現出一定的優勢。

◎ 此外，由于分支預測指令中的跳轉地址有可能使用變量表示，而不是如我們上面舉例的那樣總是5、150這樣的常數；這種情況我們稱為非直接跳轉分支(Indirect Branch)。如果此時仍然使用圖中的機構，顯然將造成BTB的頻繁預測失敗（儲存在BTB中的分支跳轉地址可能是不斷變化的）。Intel宣稱在Prescott的動態分支預測機構中加入由Pentiumn M（Banis）中引用的非直接跳轉分支預測功能。這樣，就提高了執行非直接跳轉分支時的預測成功率。

◎ 作為動態分支預測的一種侯補方案，靜態分支預測的性能對于處理器來說也具備一定的重要性。靜態分支預測方面，在過去的P4里，一直奉行以下的原則：

　如果分支所跳轉的地址為逆向跳轉，則靜態預測為分支跳轉成立，執行跳轉；而如果分支所跳轉的地址為正向跳轉，則靜態預測為分支跳轉不成立，按照編譯順序讀取下一條指令，下圖表示了這種靜態策略：

Northwood的靜態分支預測（點擊放大）

的確，在分支循環次數較多的程序中，這樣的靜態預測方案所得到的預測命中率較高。但是如果遇到的不是循環用分支語句，如果還這樣預測就不行了。所幸大多數情況下，分支循環程序所包含的指令數目都比較小（意味著循環跳轉的地址偏移量不會很大），因此在Prescott中，Intel在原有的靜態分支策略中加入了距離判斷算法，僅在所跳轉的地址為逆向跳轉，且跳轉的地址距離分支指令本身的地址偏移量較小時，才執行跳轉。下圖表示Prescott與舊P4在這方面的區別：

更智能化的Prescott靜態分支預測

顯然，這樣的靜態分支預測辦法顯得比以前所使用的方法更加“智能化“一些。<

接下來，我們進入到核心的中部，這一部分主要完成為指令的執行調配所需的資源、動態地編排指令的執行順序等工作。此部分與后面我們將要提及的運算執行單元部分一起，組成了P4的亂序執行核心。

Prescott處理器亂序執行核心第一部分（點擊放大）

在這一部分中，Prescott相比過去的P4,做出了以下三個方面的改進：

　◎ 增加了用于浮點、多媒體運算指令的排序（Scheduler)窗口。排序窗口的增大，有利于發現更多可以并行處理的浮點和多媒體指令，以提高亂序執行浮點和多媒體指令的效率；

　◎ 改良了用于載入(Load)和儲存(Store)指令排序的機構，減小了兩種指令的相互等待時間；

　◎ 增加與各個指令排序器聯用的指令列表緩沖(Memory μOP Queue以及Integer/Floating PointμOP Queue)的容量，以便緩沖更多由上級的分配/寄存器換名單元（Allocator/Register Renamer）送來的指令，減小上級單元因等待而產生的空閑狀況。

　最后是處理器的運算執行單元部分，主要由負責整數運算的ALU、負責浮點和多媒體運算的FPU以及負責地址計算、數據載入以及計算結果儲存的AGU部分組成：

Prescott處理器亂序執行核心第二部分（點擊放大）

在這一部分中，Prescott相比過去的P4,做出了以下兩個方面的改進：

　◎ 在兩個快速ALU單元（以兩倍于處理器運行頻率的速度工作）之一中加入處理移位/旋轉操作的機構；而在舊P4中，這部分功能必則由慢速的ALU單元來處理。加入新的移位/旋轉操作機構之后，處理此類運算的速度將得到提高；

　◎ 過去的P4，必須依賴浮點單元進行整數乘法運算，這不僅給浮點單元增加了負擔，而且還需要把待處理的數據在浮點、整數單元之間相互傳遞，浪費處理器內部的數據傳輸帶寬。Prescott則添加了單獨的整數乘法單元，消除了這些問題。 <

如果我們把處理器的內部架構比喻為骨架，那么在處理器上使用的指令集，則可以說是處理器的靈魂。任何一款處理器，都必須依靠指令集的幫助，才能夠發揮出足夠的威力。這一點，只要我們看一看SSE2、MMX或是3DNow！這樣的擴展指令集對發揮處理器架構優勢所起的作用就會明白。Prescott也不例外。這一次Intel為Prescott專門設計了如下表所示的13條新指令：

指令種類	指令助記符
浮點轉整數指令	FISTTP
復雜算法指令	ADDSUBPD, ADDSUBPS, MOVDDUP MOVSHDUP, MOVSLDUP
視頻編碼指令	LDDQU
采用AOS格式的SIMD FP (用于圖形處理)	HADDPD, HSUBPD, HADDPS, HSUBPS
線程同步指令	MONITOR, MWAIT

通過在程序中使用這些指令，程序員能夠更好地發揮Prescott處理器固有的架構優勢，進一步提高處理器在多媒體處理、超線程應用等領域的性能表現。

此外，最令人關注的，恐怕就是Prescott處理器是否如AMD的K8系列處理器那樣包含64位指令集擴展了。在不久前召開的Intel春季技術峰會上，身為Intel首席執行官之一的Craig Barrett終于親口承認了這一點。

按照這位官員的說法，今年的第二季度，Intel就將首先在服務器市場推出核心代號為Nocona的處理器，此款處理器與Prescott內部構造基本相同，只不過添加了更大的緩存，并可以支持多處理器配置。并在此款處理器上市后不久再推出單處理器配置的服務器、工作站型Prescott處理器。而微軟方面也表示將在不久的將來推出可兼容K8與Prescott處理器的64位操作系統版本。

　此外，Intel還提供了用于Prescott核心64位指令集編程的指導書，從這一份指導書中，我們可以看到，Intel在Prescott處理器的64位擴展上，采取了和AMD的K8處理器十分類似的策略，同樣提供了寄存器擴展和多種操作模式的支持。其中共包含兩種操作模式，其一是傳統的IA32模式，其二是可兼容32-64位指令的IA32e模式，各模式的具體狀況見下表：

工作模式		操作系統	專用程序	默認地址位數	默認操作數位數	寄存器擴展	通用寄存器位數
IA32 [傳統模式]		保持舊有32位處理器的參數不變
IA32e模式	64位模式	64位操作系統	√	64	32	√	64
	兼容模式		×	32	32	×	32
				16	16		16,8

在64位模式下，Intel也對可用的寄存器進行了擴展，如下表所示：

	64位模式			兼容以及傳統模式
	名稱	數量	位數	名稱	數量	位數
通用寄存器	RAX，RBX，RCX，RDX，RBP，RSI， RDI，RSP， R8-15	16	64	EAX，EBX，ECX，EDX，EBP，ESI， EDI，ESP	8	32
指令指針寄存器	RIP	1	64	EIP	1	32
標志寄存器	EFLAGS	1	32	EFLAGS	1	32
浮點寄存器	ST0-7	8	80	ST0-7	8	80
MMX 寄存器	MM0-7	8	64	MM0-7	8	64
SIMD 寄存器	XMM0-15	16	128	XMM0-7	8	128
堆棧寬度	――――		64	――――		16/32

所有這些都意味著目前上市的桌面型Prescott處理器，已經具備了可執行64位指令的功能單元。只不過由于Intel把64位應用局限在服務器、工作站市場，因此沒有在眼下推出的桌面型Prescott處理器時中，將這些功能打開或對此隱含功能進行大肆宣傳。<

一款處理器能否在市場上站住腳，僅靠內部架構以及指令集的設計是遠遠不夠的。設計得再好的產品也必須最終在生產上得以實現；反過來說，優良的生產工藝和生產成本控制技術又可以保證處理器架構設計師們放心地采用更加復雜的處理器設計。

作為首顆采用90nm制程以及可減小電子流動阻力的應變硅技術制作的桌面型處理器。借助于Intel先進的處理器生產技術。性能方面Prescott核心集成的晶體管數和可穩定運行的頻率范圍得到了顯著的提升，成本方面處理器的核心面積也得到了較大幅度的縮減，這一點，我們從如下的一組對比圖表中就可以清楚地看出來：

生產商	核心代號	制程	晶體管	核心面積	SOI	應變硅
Intel	Willamette	180nm	4200萬	170	×	×
	Northwood	130nm	5500萬	131	×	×
	P4至尊版	130nm	1億 7800萬	237	×	×
	Prescott	90nm	1億 2500萬	112	×	√
AMD	K8	130nm	1億590萬	193	√	×

然而，盡管使用了新工藝新材料制作。初期推出的Prescott還是給我們帶來了少許的遺憾，它夸張的功耗參數，使它成為桌面處理器的發熱之王。

生產商	核心代號	制程步進號 [Stepping]	TDP值
Intel	Northwood P4 3.2C	D1	82W
	Northwood P4 3.2 至尊版	D1	92.1W
	Prescott P4 3.2E	C0	103W
AMD	Athlon64 3400+	C0	89W
AMD	Athlon64 FX53	C0	89W

TDP值越高，意味著處理器所需要配備的散熱器規格也越高。我們希望隨著工藝的改進，在下一個制程步進號的Prescott中，發熱量過大的問題能夠得到某些程度的改善。<

說了那么多原理還是讓我們輕松一下，來看看Prescott處理器和其老前輩Northwood以及死敵Athlon64 3200+的正面、側面合影圖：

Prescott、Northwood以及Athlon64 3200+合影

從正面和側面來看，Prescott相比過去的Northwood，在整體尺寸以及外形上并沒有什么明顯的區別。而由于內置了內存控制器，Athlon64 3200+則在體形上顯得“粗壯“一些。

Prescott、Northwood以及死敵Athlon64 3200+的合影（點擊放大）

而從背面圖的對比來看，Prescott底部用于核心電壓濾噪的電容數目相比Northwood增加不少，排列方式也發生了較大的改變。根據我們的猜測，這可能是由于Prescott核心工作電壓相比Northwood降低了不少，因此對電壓的穩定度也有了較高的要求使然。相比之下，Athlonj64 3200+處理器則由于背部針腳數較多，因此把濾噪電容都放置在了處理器的正面。

看過了處理器的外觀，讓我們進一步使用Cpu-Z軟件，來觀察一下處理器內部參數的變化：

Prescott與Northwood在Cpu-Z 1.21中的對比（點擊放大）

從Cpu-Z 1.21中，明顯可以看出，正如我們在前面的分析中所說的，Prescott的一級、二級緩存容量都相比Northwood得到了倍增。除此之外，我們也可以看到，Prescott處理器的CpuID號為0F33，而D1制程的Northwood則為0F27。遺憾的是Cpu-Z最新的1.21版本仍然不能識別出Prescott的制程步進號。而根據Intel相關資料顯示，我們收到的此款Prescott制程步進號應為C0，算是作為對Cpu-Z信息的一條補充吧。<

盡管通過前面的分析，我們對于Prescott處理器的基本情況已經有相當的了解，然而該處理器的實際性能，最終仍需通過實際的測試來檢測，否則不免落入紙上談兵的俗套之中。以下是本次測試時所使用的測試配置：

硬件配置、設置部分
處理器		P43.2E	P4 3.2GHz		Athlon64 3200+
主版		ASUS P4P800S [865PE]			Giga K8VT800 [K8T800]
BIOS版本		1015			F5
內存		OCZ EL DDR PC-3200 Dual Channel Platinum 256MB×2
BIOS 相關設置	內存處理器	內存時序統一調節為5-2-2-2 內存電壓2.7V AGP/PCI頻率統一設置為66.66/33.33MHz Intel平臺統一使用雙通道，并開啟P4P800上的PAT功能 Athlon64平臺上HT上下行頻率設置為800MHz，位寬為16/16 bit
	AGP相關	AGP Aperturesize：256MB，打開快寫，打開AGP8×
	其余	Spread Spectrum		關閉
		ICH Delay Transport		關閉
		附件		除SysMark 2004以及COD外，關閉內置聲卡和網卡
顯卡		NVIDIA GeForce FX5900 Ultra [450/850MHz] QuadroFX1100 [425/650MHz]
硬盤		西捷酷魚Ⅴ 60GB
軟件設置部分
操作系統		英文版WinXP SP1 [安裝DX9.0b]
主板驅動		INF 5.10.1008 / VIA 4in1 ver4.51
顯卡驅動		NVIDIA 53.03WHQL [使用NVCool v2.1關閉垂直同步]
桌面設置		1024×768×75Hz×32bit / 1280×1024×75Hz×32bit
測試項目詳表
單項性能		Sisoftsandra 2004 ScienceMark 2.0 Linpack
綜合性能		SysMark 2004 SysMark 2002 Business Winstone 2004+CC Winstone 2004 Business Winstone 2002+CC Winstone 2002
游戲綜合		3DMark2001 SE 3DMark03 Patch46 Aquamark3
游戲單項		Q3 v1.17 COD v1.0 Comanche4 Demo UT2003 UT2004 Demo Splinter Cell V1.2 HALO V1.03 Max·Payne 2 v1.0 [Fraps]
圖形工作站		Specviewpref 7.1.1 3Dsmax 5.0 Cinebench 2003

置此外，為了保持兩平臺參數盡量一致，在對K8VT800進行內存時序設置時，我們再一次使用了Wpcredit。首先是參數測試部分，這一部分我們將從大家已經熟悉的sissoftsandra2004測試開始。

該部分的測試主要由考核CPU數學計算性能的Drystone、Whiestone，考核CPU多媒體數據處理性能、內存帶寬性能以及緩存——內存系統傳輸帶寬四大部分組成。我們分別在打開超線程和關閉超線程的情況下作了測試，以下為前三項測試的詳細結果：

由前三項測試結果可見，受到流水線深度的制約，相比Northwood來說，Prescott在SisoftSandra中的表現只能說是差強人意，多數情況下都不如Northwood的表現。它僅在內存帶寬測試中與Northwood持平。

而Athlon64 3200+則由于不支持超線程和雙通道模式，因此在前面兩項超線程處理器占了便宜的測試中落后。同時在內存持續帶寬的測試中AMD和Intel錯開了較大的差距。但是由于Athlon64內置的內存控制器極大地減小了內存傳輸延遲，對于單通道內存配置的系統來說，這樣的成績可以說是相當不錯的了。

至于緩存——內存系統傳輸帶寬，為了對比方便，我們根據SisoftSandra 2004的測試結果，繪制了下面的圖表。對于P4系列處理器，該項測試僅在超線程狀態下進行。

Sissoftsandra2004緩存——內存帶寬測試（點擊放大）

與上面的內存持續帶寬測試不同，此項測試可考核一級緩存、二級緩存以及內存的數據傳輸帶寬。在測試前部，數據塊尺寸較小，可以被一級緩存所容納，此時的數據傳輸主要依靠一級緩存進行；隨著數據塊尺寸的進一步增大，超出一級緩存的容量后，就必須依靠二級緩存進行存儲；到測試的尾部，數據塊的尺寸增加到1M以上，就只能通過內存來存儲如此大尺寸的數據塊了。通過這種逐級加大數據塊尺寸的方法，就可以測試出處理器里一級緩存、二級緩存以及內存的傳輸帶寬。

在此項測試中，三款處理器的存儲子系統帶寬，呈現出形態各異的三條曲線。

　◎ 在考核一級緩存數據傳輸帶寬的測試前部，Prescott處理器與Northwod雖然一級緩存工作頻率、傳輸位寬相同，但是由于前者的一級數據緩存為后者的2倍，緩存延遲有所增加，因此持續帶寬也隨之下降，但容量上的改變也帶來了在8-16KB區域的領先。而AMD處理器盡管一級緩存容量為64KB，遠遠大于Prescott的16KB和Northwood的8KB，但由于工作頻率較低，因此雖然在64KB之前的數據傳輸帶寬變化比較平緩，但在數值上仍然遠低于P4系列。

◎ 在考核二級緩存數據傳輸帶寬的測試中部，由于類似的原因，Prescott處理器與Northwod雖然二級緩存工作頻率、傳輸位寬相同，但是由于前者的二級數據緩存為后者的2倍，緩存延遲有所增加，因此持續帶寬也隨之下降，但容量上的改變也帶來了在512KB—1M區域的領先。在此區域中，Athlon64 3200+除了憑借比Northwood大一倍的二級緩存容量，而在大數據塊區領先Northwood外，其余部分由于受頻率、位寬限制，表現并不令人滿意。

◎ 在測試的尾部，3套系統都必須動用內存來存儲數據了，由于平臺相同，因此兩塊P4處理器的尾部曲線重合在一起；而Athlon64 3200+則由于僅為內存單通道，因此在這部分中繼續落后。

ScienceMark 2.0是一款多功能的軟件，可以進行科學計算測試，也可用于存儲子系統的帶寬、延遲測試。本次測試沒用啟用此軟件的全部功能，而主要使用存儲子系統測試模塊進行3款處理器存儲子系統的延遲性能測試。測試結果如下：

	一級緩存		二級緩存		內存
	延遲周期	納秒	延遲周期	納秒	延遲周期	納秒
P4 3.2E	4	1.25	26	8.11	210	65.47
P4 3.2C	2	0.62	19	5.92	204	63.6
A64 3200+	3	1.49	16	7.96	85	42.29

測試結果表明，Prescott處理器緩存系統的傳輸延遲，相比Northwood有所提高，其一級緩存、二級緩存傳輸延遲均有較大的增加。而Athlon64 3200+則由于工作頻率低，因此其一級、二級緩存的延遲為三款處理器之最；但由于使用了內置的內存控制器，因此內存傳輸延遲非常之小，相比P4明顯占優。這樣，在內存零星數據的存取上，Athlon64 3200+將體現出一定的優勢。

最后，我們還使用了Linpack程序進行三款處理器的測試。該程序與Sissoftsandra2004的緩存——內存子系統傳輸帶寬測試性質十分類似。兩者的不同之處在于Linpack程序執行的是不斷增大的雙精度浮點數矩陣乘法計算。因此這個程序除了能夠反映緩存——內存子系統的傳輸帶寬之外，還兼具考核處理器浮點性能的功用。測試的詳細結果如下圖：

Prescott在Linpack測試中的表現（點擊放大）

◎ 在測試的前部，矩陣尺寸較小，只需要存儲在一級緩存中既可，此時處理器的浮點運算能力（每秒百萬次浮點運算數目——MFLOPS）不會受到二級緩存、內存延遲的干擾，能夠得到充分的體現。從這部分曲線，我們可以看到Athlon64 3200+的浮點性能表現不錯。反觀Prescott，雖然采取了一些措施，但由于流水線級數的增加，處理此類浮點運算的性能有所下降，因此在Linpack中表現仍然落后于Northwood不少。

◎ 在測試的中后部，矩陣尺寸增加了，必須使用二級緩存乃至內存來進行矩陣數據的傳輸，本可繼續保持上升勢態的Athlon64 3200+曲線，在超過64KB（等于Athlon64 3200+的一級數據緩存容量）部分的曲線區域，由于受到二級緩存性能的制約，而未能如P4處理器那樣繼續上升，而是急劇下降；反觀P4處理器，顯然在二級緩存性能上優于Athlon64 3200+，在很長的范圍內，曲線都保持了上升勢態。尤其是Prescott，雖然在峰值上劣于Northwood，但由于增加了二級緩存的容量，因此在512KB之后的測試中優勢明顯。<

以下我們進入綜合性能測試的環節，此部分的測試主要使用SYSmark 2004這類考核辦公、多媒體制作綜合性能的軟件來進行測試，能夠較為全面地反映參測平臺在除了游戲以外的大多數桌面應用中的性能。理論上講，開啟P4的超線程功能后，將有利于此類應用的性能提升，此外Prescott相比Northwood在開啟、關閉超線程情況下的性能差別也是大家十分關注的，因此我們分別作了開啟和關閉超線程的測試。

首先進行的是SYSmark 2004的測試：

該測試集成了17個較新的互聯網多媒體制作以及辦公軟件。除了對上一代軟件進行更新換代以外，互聯網多媒體制作軟件方面終于改用微軟的Internet Explorer 6而不再使用Netscape，此外，還增加3Ds max5.1進行圖形工作站成品渲染的測試，并追加Aftereffect 5.5進行影像制作的性能測試。

由測試結果可見，打開超線程后的Prescott在Sysmark2004中表現不錯，全面超越Northwood；而在沒有開啟超線程的情況下，表現則正好相反。另一方面，我們以可以看到，打開超線程后，兩款P4處理器的得分也確實獲得了較為明顯的提升，而打開超線程和未打開超線程的性能提升幅度，自然也是Prescott大于Northwood了。看來Prescott的超線程性能確實有所提高。而Athlon64 3200+則在此項測試中成績不理想，只能與未開啟超線程的Prescott大致相當。

接下來，我們進行Winstone2004的測試，該測試由Bussinesss Wintone2004和Content Creation Winston2004兩部分組成。前者重于考核處理器執行商務應用軟件的性能，后者重于考核處理器執行多媒體制作、網絡發布軟件的性能。

Bussinesss Wintone2004中集成了以下的軟件：首先是集成于微軟Office XP中，常用的文字處理、制表、郵件收發類軟件，如Access 2002、Excel 2002、Microsoft FrontPage 2002、Microsoft Outlook 2002、Microsoft PowerPoint 2002、Microsoft Project 2002、Microsoft Word 2002，其次是鼎鼎大名的殺毒軟件Norton AntiVirus Professional Edition 2003以及壓縮數據常用的WinZip 8.1。

與Bussinesss Wintone2002有所不同的是，新的2004版本增加了多任務性能測試的模塊，該模塊有三個環節組成，分別標以Multitasking1、Multitasking2、 Multitasking3，三個環節的測試中都同時運行多個軟件，并且同時運行的軟件數量逐級增加，在Multitasking3中達到最多。能夠更為全面地考核多任務運行時超線程處理器的性能表現，其測試結果如下：

總分方面，我們得到與SYSmark 2004同樣的測試結果。而在多任務測試中，我們可以看到，在前面的多任務測試中，Prescott表現不佳，但隨著同時運行任務數的增多，Prescott的性能終于得到完全的發揮，拔得頭籌。而Athlon64 3200+在前兩個多任務測試中的表現也不錯，只是在最后階段敗下陣來。

與SYSmark 2004類似，Content Creation Winston2004也在升級原集成Photoshop 7.0.1，Premiere 6.50， Director MX 9.0、Dreamweaver MX 6.1、Windows Media Encoder 9的基礎上，增加NewTek公司的LightWave3D 7.5b進行圖形工作站成品渲染的測試；此外，還增加WaveLab 4.0f進行音頻處理性能的測試。測試結果如下：

由測試結果來看，在Content Creation Winston2004上，兩款P4處理器的性能沒有明顯區別，而AMD的落后幅度則有所縮小；同時我們也可以看到Prescott開啟超線程后的性能提升幅度也比Northwood稍高。<

以下我們進入音頻、視頻壓縮性能測試環節，此部分主要使用Razorlame 1.15，Tmpeg，以及Xmpeg這三個軟件進行測試，測試時轉換用源文件，以及目標文件均使用第二塊硬盤的C：分區進行存放，每次測試之前都對C：分區進行格式化處理，測試之前安裝了Divx 5.1.1。

首先是Razorlame 1.15的測試，測試將660MB的wav源文件使用此軟件壓縮為MP3文件，軟件具體設置請點擊此處察看。

在Razorlame的測試中，Prescott的表現只能以十分糟糕來形容，不論打開或是關閉超線程，都以大比分落后Northwood，甚至在Razorlame這樣P4的強項應用中只能與僅配置了單通道內存的Athlon64 3200+持平。同時我們也可以看到打開超線程對于Razrolame沒有太大的幫助，只提高了大約2%左右。

接著我們進行Xmpeg的測試，測試使用1GB的源文件，設定在5000幀處讀取編碼所用時間，其余詳細設置見此處的鏈接。

Prescott的表現總算恢復到了正常水平，與Northwood表現基本持平，關閉超線程后，兩塊P4的性能表現則與Athlon64 3200+持平，同時我們也可以看到，打開超線程后，兩塊P4的Xmpeg成績都提高了10%左右，提升幅度較大。

最后，我們進行Tmpeg的測試，測試使用1.2GB的AVI源文件進行，以下是測試的詳細結果：

在Tmpeg中，Prescott的表現十分不錯，領先Northwood的幅度達到了10％，開啟超線程對于P4的幫助十分明顯。而Athlon64 3200+在這里則表現十分糟糕。<：游戲性能測試 [1]]

游戲性能測試我們分為兩大部分進行，分別是游戲綜合性能測試部分和實際游戲性能測試部分。

游戲綜合性能測試部分主要使用3DMark2001 SE、3DMark 03以及Aquamark3這三個軟件進行。首先是3DMark2001 SE v330和3DMark 03 Patch46登場，分別測試了使用處理器和使用顯卡進行轉換以及光照處理這兩種情況下的系統表現，其余設置均使用軟件安裝后的默認值，以下為這兩個軟件的測試結果：

從這幾個簡單的結果來看，新版本Intel處理器的表現相當不錯。不過3DMark的表現并不等同于在實際游戲中的效果。如果您購買Prescott的初衷是為了加速游戲性能，請繼續看我們接下來的評測。<：游戲性能測試 [2]]

由于Aquamark3的制作公司宣稱游戲支持超線程，因此在這個軟件的測試中，我們分別打開和關閉超線程進行了測試，此外，測試時還關閉了聲音選項，其余均使用AM3的默認設置進行測試，測試結果如下：

在這一環節的測試中，Prescott的性能沒有給我們帶來太多的驚喜。不論打開或是關閉超線程，性能均與Northwood半斤八兩，差距均在1％左右。而Athlon64 3200+則在對處理器依賴較大的3DMark2001SE v330測試中體現出較為明顯的優勢，在其余的測試中則與P4得分十分接近。<：游戲性能測試 [3]] 看過了測試軟件的測試，隨后我們進入實際游戲性能測試。首先進行OpenGL游戲的測試，這里我們使用了Q3 V1.17以及使用改進版Q3引擎的《使命的召喚》這兩個游戲進行測試。

Q3 V1.17的測試，測試僅使用demo001場景進行，測試設置請點擊此處察看。以下為測試結果：

接下來我們進行《使命的召喚》的測試，測試設置請點擊此處察看。以下為測試結果：

由這兩個游戲的測試結果可見，在《使命的召喚》中，Prescott與Northwood性能十分接近；而在Q3的測試中，Prescott則以5%的劣勢落后。此外，大概是由于Q3引擎對于內存帶寬較為敏感，因此Athlon64 3200+的性能受到單通道內存的影響而落在了最后。

下面是DX8級別游戲的測試環節，此部分包含卡曼奇4、細胞分裂1.2北美版、虛幻競技場2003以及最新推出的虛幻競技場2004 Demo這四個游戲進行測試。

首先是卡曼奇4的測試，測試使用此游戲的Demo版進行，測試設置請點擊此處察看。以下為測試結果：

接下來我們進行細胞分裂的測試，測試使用其1.2北美版進行，測試的具體設置請點擊此處察看。以下為此項測試的具體結果：

第三個出場的是大家十分熟悉的虛幻競技場2003，測試使用官方發布的測試程序進行，并在1024768的分辨率下進行了測試，以下為測試的結果：

最后，我們測試了最新推出的虛幻競技場2004，測試使用其免費提供的Demo版進行，使用ons-torlan場景進行，僅作了Botmach的測試，測試中打開所有特效，使用了最高畫質設置：

<：游戲性能測試 [4]] 游戲測試的最后，輪到DX9級別游戲出場，這部分主要包括HALO 1.03版和Max·Payne 2兩個游戲：

首先是HALO的測試，測試之前安裝了最新的1.03版補丁，分別測試了1024×768分辨率下打開ps2.0指令和使用固定流水線兩種情況下的成績，測試其余設置請點擊此處察看。

Max Payne2的測試使用Fraps 2.0進行，測試場景分別選用游戲第七章節、第八章節的開場實時動畫，測試詳細設置請點擊此處察看。

與前面的游戲綜合性能測試軟件以及OpenGL游戲測試所得到的結果不同，Athlon64 3200+在實際游戲測試中仍然高奏凱歌，而Prescott則不停扮演墊底的角色，處境十分尷尬。 <

最后，是圖形工作站性能的測試，此部分測試主要分為預覽性能測試以及處理器成品渲染測試兩大部分，測試時使用了NIVIDA公司最新推出的QaudroFX1100顯卡，測試時桌面分辨率統一保持在1280×1024×75Hz。

我們將首先進行預覽性能的測試，時間關系，預覽性能的測試部分我們僅選用了Spec組織最新發布的Specviewpref 7.1.1版本進行對比測試，測試時針對測試的項目分別開啟了專用優化，同時關閉了超線程支持。測試結果如下：

俗話說，姜還是老的辣，在Specviewpref的測試中，Northwood的表現正是如此，它占據了所有子項目測試的頭把交椅，至于Prescott的疲軟表現，我想大家已經不會感到太意外了吧。同時我們也可以看到，Athlon64 3200+的表現在某些子項目測試中與P4的差距還是十分明顯的。

緊接著，我們進入處理器成品渲染測試的環節，首先是3dsmax5.0的測試，測試時均開啟超線程功能。測試配置請點擊此處察看，以下為測試的結果：

在3dsmax5.0的成品渲染測試中，三個測試的畫面復雜度由低至高依次排列，Prescott的成績依然比Northwood差一截，而Athlon64 3200+的表現則與游戲測試時的表現形成鮮明的對比。

最后，是Cinebench2003的成品渲染測試，分別在打開超線程和關閉超線程的情況下作了測試。以下為測試的結果：

Prescott的表現依然令人失望，沒有打開超線程時得分甚至與單通道的Athlon64 3200+持平，打開超線程之后與Northwood差距依然較大。<

縱觀此次測試的結果，盡管Prescott核心的P4處理器在內部架構做出了一些改良，并在處理器制作工藝上又邁進了一步。但在硬件方面，在管線級數較長的配置上起始頻率低，造成不能完全發揮新架構的優勢；首次采用的90nm制程工藝也有需要進一步完善之處，造成處理器發熱量較大；軟件方面，使用SSE3指令編寫的程序仍未及大量上市，也對新核心的性能發揮形成了制約。

然而，我們也必須看到，即使工作在較低的初始頻率，但Prescott在超線程方面的表現，無疑是比舊有的核心有了長足的進步。隨著核心頻率的進一步提高，Prescott的整體性能也必將超越只能在頻率上原地踏步的Northwood系列。

而過去AMD K8處理器所獨有的32/64位平臺兼容特征也被預置在Prescott之中，給對手AMD造成了新的威脅。未來一段時間內，桌面處理器的兩強之爭必然愈演愈烈，形勢也將愈發錯綜復雜，本站將與廣大讀者共同關注！<

0人已贊

性能之王還是不進反退，Prescott全

關注我們