色情一区二区三区免费看,欧美人与zoxxxx另类,аⅴ天堂在线

<sub id="lwgwu"></sub><blockquote id="lwgwu"></blockquote>

<kbd id="lwgwu"><samp id="lwgwu"></samp></kbd>

<abbr id="lwgwu"><tt id="lwgwu"></tt></abbr>

免费专区丝袜调教视频,亚洲午夜无码极品久久,亚洲乳大丰满中文字幕,乱乱网,两个人看的www视频中文字幕,中文字幕日韩精品无码内射,欧美成aⅴ人高清免费,女人被爽到高潮视频免费国产

<kbd id="oghqm"><noscript id="oghqm"></noscript></kbd>

<wbr id="oghqm"><label id="oghqm"></label></wbr>

泡泡網顯卡頻道 PCPOP首頁 / 顯卡 / 評測 / 正文

圖形與計算那些事 AMD次世代架構解析

2012年01月06日 05:07作者：孫敏杰編輯：孫敏杰文章出處：泡泡網原創

隨著Tesla在高性能計算領域日漸深入人心，NVIDIA也在與科研工作者們進行深入的溝通，傾聽一線用戶的需求，以便在下代GPU核心中做出相應的優化改進。當時用戶最大的需求有兩點：第一，科學家和超級計算只看重64bit雙精度浮點運算能力，GT200性能太低，只有單精度的1/8；第二：企業級用戶對穩定性要求更高，傳統的顯卡不支持顯存ECC（錯誤檢查和糾正），計算出錯后效率較低。

這就是下一代GPU的設計目標。而且，這次GF100不僅要滿足并行計算的需求，還要兼顧DX11游戲性能，針對DX11新增的曲面細分、幾何運算做出相應的改進，時間緊、任務重、壓力大。

過于追求完美往往結果就會不完美，NVIDIA在GPU架構設計部分做到了近乎完美，但是在芯片制造端掉了鏈子——由于GPU核心太大，臺積電40nm工藝還不夠成熟，導致GF100核心良率低下，沒能達到設計預期，最終的產品不僅功耗發熱很大，而且規格不完整。所以雖然當時GTX480顯卡的評價不是很高，但GF100核心的架構極其優秀的。等到工藝成熟之后的GF110核心以及GTX580顯卡，就毫無疑問的站在了游戲與計算的巔峰！

GF100是“四核心”設計：4個光柵化引擎

GF100/110可以看作是四核心設計

如果我們把Cayman看作是雙核心的設計，那GF100就是四核心的設計，它擁有四個GPC（圖形處理器集群）模塊，每個GPC都有各自的光柵化引擎（Raster Engine），而在以往都是整顆GPU共享一個Raster Engine。

GF100擁有16個多形體引擎

GF100與GT200最大的不同其實就是PolyMorph Engine，譯為多形體引擎。每個SM都擁有一個多形體引擎，GF100核心總共有多達16個。那么多形體引擎是干什么用的呢？為什么要設計如此之多？

為什么要這么多的多形體引擎？

之前的GPU架構一直都使用單一的前端控制模塊來獲取、匯集并對三角形實現光柵化。無論GPU有多少個流處理器，這種固定的流水線所實現的性能都是相同的。但應用程序的工作負荷卻是不同的，所以這種流水線通常會導致瓶頸出現，流處理器資源未能得到充分利用。

實現光柵化并行處理的同時還要保持API的順序是非常困難的，這種難度阻礙了這一領域的重大創新。雖然單個前端控制單元的設計在過去的GPU中曾有過輝煌的歷史，但是隨著對幾何復雜度的需求不斷增長，它現在已經變成了一個主要障礙。

Tessellation的使用從根本上改變了GPU圖形負荷的平衡，該技術可以將特定幀中的三角形密度增加數十倍，給設置于光柵化單元等串行工作的資源帶來了巨大壓力。為了保持較高的Tessellation性能，有必要重新平衡圖形流水線。

為了便于實現較高的三角形速率，NVIDIA設計了一種叫做“PolyMorph”的可擴展幾何引擎。每16個PolyMorph引擎均擁有自己專用的頂點拾取單元以及鑲嵌器，從而極大地提升了幾何性能。與之搭配的4個并行光柵化引擎，它們在每個時鐘周期內可設置最多4個三角形。同時，它們還能夠在三角形獲取、Tessellation、以及光柵化等方面實現巨大性能突破。

這是Cayman的圖形引擎，是雙核心設計

AMD的Cayman核心是不分光柵化引擎和多形體引擎的，都可以算作是雙核心設計，GF100與Cayman相比，光柵化引擎是4:1，多形體引擎（包括曲面細分單元）是16:2，GF100的幾何圖形性能有多么強大已經可以想象。

當NVIDIA的工程師通過計算機模擬測試得知幾何引擎將會成為DX11新的瓶頸之后，毫不遲疑的選擇了將單個控制模塊打散，重新設計了多形體引擎和光柵化引擎，并分散至每組SM或每個GPC之中，從而大幅提升了幾何性能，徹底消除了瓶頸。

GF100流處理器部分的改進

每一個CUDA核心都擁有一個完全流水線化的整數算術邏輯單元（ALU）以及浮點運算單元（FPU）。GF100采用了最新的IEEE754-2008浮點標準，2008標準的主要改進就是支持多種類型的舍入算法。新標準可以只在最終獲取數據時進行四舍五入，而以往的標準是每進行一步運算都要四舍五入一次，最后會產生較大的誤差。

GF100能夠為32bit單精度和64bit雙精度運算提供FMA（Fused Multiply-Add，積和熔加）指令，而GT200只在64bit時才能提供。FMA不僅適用于高性能計算領域，事實上在渲染緊密重疊的三角形時，新的FMA算法能夠最大限度的減少渲染誤差。

ATI所有的流處理器在執行整數型加、乘指令時僅支持24bit精度，而NVIDIA CUDA核心支持所有整數指令全32位精度，符合標準編程語言的基本要求。整數ALU還經過了優化，可有效支持64位以及更高精度的運算，這一點是對手無法比擬的。

GF100擁有雙Warp調度器可選出兩個Warp，從每個Warp發出一條指令到16個核心、16個載入/存儲單元或4個特殊功能單元。因為Warp是獨立執行的，所以GF100的調度器無需檢查指令流內部的依存關系。通過利用這種優秀的雙指令執行（Dual-issue）模式，GF100能夠實現接近峰值的硬件性能。

GF100首次引入一級緩存與動態共享緩存

GF100核心擁有很多種類的緩存，他們的用途不盡相同，其中一級緩存、共享緩存和紋理緩存位于SM內部，二級緩存則是獨立的一塊，與光柵單元及顯存控制器相連。

以往的GPU都是沒有一級緩存的，只有一級紋理緩存，因為這些緩存無法在通用計算中用于存儲計算數據，只能用于在紋理采樣時暫存紋理。而在GF100當中，NVIDIA首次引入真正的一級高速緩存，而且還可被動態的劃分為共享緩存。

在GF100 GPU中，每個SM除了擁有專用的紋理緩存外，還擁有64KB容量的片上緩存，這部分緩存可配置為16KB的一級緩存+48KB共享緩存，或者是48KB一級緩存+16KB共享緩存。這種劃分方式完全是動態執行的，一個時鐘周期之后可自動根據任務需要即時切換而不需要程序主動干預。

一級緩存與共享緩存是互補的，共享緩存能夠為明確界定存取數據的算法提升存取速度，而一級緩存則能夠為一些不規則的算法提升存儲器存取速度。在這些不規則算法中，事先并不知道數據地址。

對于圖形渲染來說，重復或者固定的數據比較多，因此一般是劃分48KB為共享緩存，當然剩下的16KB一級緩存也不是完全沒用，它可以充當寄存器溢出的緩沖區，讓寄存器能夠實現不俗的性能提升。而在并行計算之中，一級緩存與共享緩存同樣重要，它們可以讓同一個線程塊中的線程能夠互相協作，從而促進了片上數據廣泛的重復利用并減少了片外的通信量。共享存儲器是使許多高性能CUDA應用程序成為可能的重要促成因素。

GF100擁有一個768KB容量統一的二級高速緩存，該緩存可以為所有載入、存儲以及紋理請求提供服務。二級緩存可在整個GPU中提供高效、高速的數據共享。物理效果、光線追蹤以及稀疏數據結構等事先不知道數據地址的算法在硬件高速緩存上的運行優勢尤為明顯。后期處理過濾器需要多個SM才能讀取相同的數據，該過濾器與存儲器之間的距離更短，從而提升了帶寬效率。

統一的共享式緩存比單獨的緩存效率更高。在獨享式緩存設計中，即使同一個緩存被多個指令預訂，它也無法使用其它緩存中未貼圖的部分。高速緩存的利用率將遠低于它的理論帶寬。GF100的統一共享式二級高速緩存可在不同請求之間動態地平衡負載，從而充分地利用緩存。二級高速緩存取代了之前GPU中的二級紋理緩存、ROP緩存以及片上FIFO。

GF100的緩存架構讓各流水線之間可以高效地通信，減少了顯存讀寫操作

統一的高速緩存還能夠確保存儲器按照程序的順序執行存取指令。當讀、寫路徑分離（例如一個只讀紋理路徑以及一個只寫ROP路徑）時，可能會出現先寫后讀的危險。一個統一的讀/寫路徑能夠確保程序的正確運行，同時也是讓NVIDIA GPU能夠支持通用C/C++程序的重要因素。

與只讀的GT200二級緩存相比，GF100的二級高速緩存既能讀又能寫，
而且是完全一致的。NVIDIA采用了一種優先算法來清除二級緩存中的數據，這種算法包含了各種檢查，可幫助確保所需的數據能夠駐留在高速緩存當中。

2人已贊

第1頁：Radeon是一款好顯卡，但不是顆好GPU 第2頁：成也微軟敗也微軟：XBOX360阻礙顯卡/游戲發展第3頁：從X1900XTX談起：用3:1黃金架構做計算第4頁：HD2900XT走向不歸路：超長指令集的弊端第5頁：HD4870的救贖：暴力擴充流處理器第6頁：HD5870的輝煌：在錯誤的道路上越走越遠第7頁：HD6870的一小步：雙超線程分配處理器第8頁：HD6970曇花一現：北方群島5D改4D返璞歸真第9頁：GPU的一大步：NVIDIA G80圖形架構解析第10頁：真正的并行計算架構：GT200只為計算優化第11頁：DX11與并行計算的完美結合：GF100/110的野心第12頁：HD7970華麗登場：曲面細分性能大幅提升第13頁：GCN架構的精髓：流處理器完全重新設計第14頁：GCN架構的緩存：照搬GF100的設計？第15頁：Tihiti其他方面的改進：AMD真是個激進派第16頁：GCN架構的真正意義：GPU計算效能大增第17頁：全文總結：浴火重生，新的開始新的期待

主站蜘蛛池模板：无码国产偷倩在线播放老年人| 无码抽搐高潮喷水流白浆| 香蕉久久永久视频| 99久久人妻精品免费一区| 亚洲中文字幕av| 天堂无码av| 麻豆亚洲AV永久无码精品久久| 蜜桃视频中文字幕一区二区三区 | 久久久久无码精品国产不卡| 日韩成人综合| 丁香色五月婷婷| 日韩精品一区二区三区免费视频| 偷炮少妇宾馆半推半就激情| 久久综合少妇11p| 国产VA网站| 国产亚洲精品久久久久四川人| 男女肉粗暴进来120秒动态图| 免费在线观看国产v片| 亚洲欧洲日产国码无码av一| 国产熟女真实乱精品51| 香蕉福利导航| 日日爽日日操| 亚洲区1区3区4区中文字幕码 | 加勒比一区二区无码视频在线| 精品尤物TV福利院在线网站 | 国产精品无遮挡猛进猛出| 四虎永久在线精品免费视频观看| 亚欧免费无码aⅴ在线观看蜜桃| 亚洲色无码一区二区三区| 亚洲国产精品成人久久综合影院| 精品国产一区二区三区久久久狼| 国产精品123| 中文字幕久久熟女蜜桃| 欧美精品aⅴ在线视频| 99re6在线观看国产精品| 亚洲欧洲日产国无高清码图片| 亚洲中文字幕永久在线全国| 一级做人爱全视频在线看| 北岛玲亚洲一区二区三区| 人妻系列AV无码专区| 济阳县|

<li id="sqd0e"><tt id="sqd0e"></tt></li>

<abbr id="sqd0e"></abbr>