GPU已成為中科院及清華大學科研工具
昨日,全球視覺計算的領導者NVIDIA公司在北京召開了“GPU計算開創計算新紀元——CUDA卓越中心(CCOE)授牌儀式暨CUDA未來之星頒獎儀式”為主題的會議。會議地點安排在了位于北京中關村的中科院過程研究所,NVIDIA聯合創始人、總裁兼首席執行官黃仁勛親自參加了本次會議,同時參加本次會議的還有中國科學院副院長李靜海、清華大學計算機系高性能所(HPC)教授陳文光以及多名NVIDIA高管、IT精英、學者及科學研究人員。
本次會議的主要內容為授予中國科學院過程工程研究所和清華大學CUDA卓越中心稱號的授權儀式,以表彰他們在中國推廣CUDA和GPU計算以及利用GPU在高性能計算領域做出的突出貢獻。
中國科學院過程工程研究所和清華大學不僅開設了CUDA編程課程普及GPU計算,而且還成功的將GPU計算應用到大量科學以及工程設計研究項目中。在此之前,CUDA卓越中心已經在哈佛大學、劍橋大學等五所學府設立。
NVIDIA聯合創始人、總裁兼首席執行官黃仁勛先生當天表示:“中國科學院過程工程研究所和清華大學都是中國頂尖的學府和科研機構,我們授予它們CUDA卓越中心的稱號將有助于推進他們在GPU計算領域的研究,并使GPU計算成為推動中國自主創新能力的重要力量。”
CUDA是由NVIDIA推出的通用并行計算架構。該架構充分將GPU強大的并行計算能力調動起來,使GPU能夠在解決復雜計算問題上發揮其先天的優勢。開發人員現在僅使用C語言(C語言是應用最廣泛的一種高級編程語言),就能在基于CUDA架構的GPU(圖形處理器)上編寫程序,所編寫出的程序可以在支持CUDA的處理器上以超高性能運行。 CUDA將來還會支持其它語言,包括FORTRAN, Python以及C++。
截止到目前全球已經有超過250所大學開設了CUDA編程和GPU計算的課程,僅在上個季度CUDA開發工具包就被下載了超過90,000次。令人可喜的是,在全球掀起GPU計算浪潮的同時,中國的科研院所、高等學府和企業不僅沒有落后,相反在包括油氣勘探、離散模擬、三維掃描等領域利用GPU計算方面走到了世界的前沿,GPU計算為中國提高自主創新的能力提供了的較好機會。
中國科學院副院長李靜海院士表示:“中國科學院過程工程研究所一直致力于多尺度模擬的研究工作,提出通過問題、軟件和硬件結構的相似性來提高計算效率,GPU為實現這一多尺度計算模式提供了機遇。該所成功借助GPU實現了高效低成本的多尺度并行計算,并在復雜多相反應器、生物和材料分子、納微系統、二三次采油和測量數據處理等領域獲得了良好的應用效果。該所通過項目合作還有力帶動了中科院的其它單位和企業在CPU-GPU協同計算方面的開發與應用。相信這種新興的模式將會成為中國超級計算發展的重要方向。”
清華大學計算機系高性能所(HPC)的陳文光教授表示:“清華大學已經展開對CUDA編程的多項研究和應用,并開展了進一步增強GPU可編程性的研究工作。相對于傳統的CPU計算來說,GPU為大規模并行計算提供了一種新的選擇,具有很大的發展潛力。”
為進一步擴大CUDA 的應用,中國科學院過程工程研究所不僅會舉辦CUDA編程與應用的講座,還將應用CUDA建立針對多尺度計算流體力學和分子動力學模擬的大規模并行計算軟件,并應用于反應器設計、優化與控制,生物與材料分子結構與功能的研究等領域。同時著手編撰有關CUDA編程與應用的專著。力爭在三年內建成應用CUDA技術的多相系統多尺度模擬的軟硬件平臺。
清華大學在CUDA教育推廣方面已經走在了全國的前列,微電子研究所副教授鄧仰東開展了CUDA培訓課程,已有來自全國的300多名學生參加;薛巍博士已經為本科生教授包含CUDA編程的“并行編程”課程,吳永衛博士則在其研究生課程班上開設“并行程序設計實踐”。
GPU計算對于國內的編程人員并不陌生,之前有隨機對12所大學的1700名學生進行調查。有將近56%的大學生聽說過基于CUDA利用GPU進行的并行計算,并有69%的學生表示有計劃基于CUDA和GPU進行開發。為了鼓勵更多的在校編程愛好者學習基于CUDA和GPU計算的編程,NVIDIA聯合創始人、總裁兼首席執行官黃仁勛先生在活動當天還為在之前在中國成功舉辦的NVIDIA CUDA 編程競賽中獲獎的學生進行頒獎,授予他們CUDA未來之星的稱號。
挑戰
過程工業是以物質和能量的轉化為核心的基礎產業門類,包括了化工、冶金、鋼鐵、能源和環保等影響國計民生的重要行業,目前占中國GDP的近1/6。但這些產業也面臨著能耗和資源消耗量大、污染嚴重等嚴峻的挑戰。探索和引領優化工藝流程的新技術,提升生產效率和產品附加值,正日益成為這些行業競爭的焦點之一。計算機模擬技術在此大有用武之地,而模擬對象的復雜性決定了它對超級計算的迫切需求。而基于CPU的傳統超級計算設備購置成本高,實驗周期長,使企業既有成本壓力帶來的顧慮,又難以適應快速變幻的市場節奏,極大地限制了模擬技術在過程工程中的應用。寶鋼、中石化、中石油等中國過程工業的龍頭企業一直致力于探索與應用既能實現工藝流程優化,又能節約成本,提升效率的最新技術。
解決方案
為解決這一難題,中科院過程所經過長期探索,逐步認識到多尺度結構和離散化是許多工程問題的共同特征,由此建立了相應的通用算法框架和專門的硬件體系結構,通過模擬對象、軟件和硬件的結構一致性實現高效能、低成本的超級計算。而2007年NVIDIA(英偉達)CUDA和Tesla GPU的發布為由商用部件搭建此類系統提供了可能。過程所敏銳地抓住了這個機遇,于2009年成功搭建了主要基于NVIDIA(英偉達)TeslaGPU的多尺度離散模擬并行計算系統,單精度峰值超過每秒1000萬億次浮點運算。為過程模擬提供了強大而實用的工具從而服務于節能減耗和工藝流程優化。目前過程所正與聯想和曙光合作將為國內近十家用戶分別建立百萬億次級GPU+CPU異構并行系統,實現其在過程工程、信息技術和基礎科學研究等多個領域的應用。
成效
與以前單純的CPU平臺相比,應用NVIDIA(英偉達)Tesla GPU(圖形處理器)的新平臺不僅成本大幅降低,還能較高提升計算機效率,如某大企業冶金過程的離散粒子模擬的速度提升了50倍。
中國科學院過程工程研究所研究員、超級計算系統項目負責人葛蔚說:“通過GPU對相關軟件和硬件能力的提升,不僅能耗大幅降低,還可以使某種化工反應器模擬時間從一天縮短到2分鐘。這是一個革命性的進展。”
利用GPU超級計算系統,過程所已成功開展了多相流動直接數值模擬、材料和納微系統微觀模擬和生物大分子動態行為模擬等應用,證明了多尺度離散化并行計算模式的優勢和前景。例如,對過程工業中常用的流態化反應器,通過模擬方法上的改進,該系統已能按接近實時的速度從毫米級的顆粒尺度模擬米級的宏觀行為。這種能力在某清潔汽油生產工藝的開發和優化中已經并將進一步發揮重要作用。該系統也正應用于縫洞型油藏的驅采過程模擬。
采用該系統的96個GPU,對含有100微米左右縫隙的0.16平方米的巖石樣本,直接數值模擬的速度達到了4秒鐘計算物理上的1小時,從而能有效替代能費時費力的物理實驗。而對于冶金過程,該系統甚至能對數千立方米的高爐中厘米級的礦石物料進行全系統的三維動態模擬。如采用120個GPU,5個小時就能復現一個完整的布料過程。目前該系統已在寶鋼新型鋼渣處理工藝的開發中得到實際應用。在上述過程中,NVIDIA(英偉達)GT200 GPU的實際單精度速度普遍達到了CPU核的三十倍以上,甚至超過百倍,應用效果非常顯著。
挑戰
近些年來,全球經濟一體化不斷提速,各國之間貿易與人員往來日益頻繁,海關面臨的安防、安檢效率與技術壓力與日俱增。如何在不開箱的情況下,利用X射線對集裝箱進行快速斷層掃描,然后迅速完成圖像三維重構和判斷,進而達到完全透視的效果,成為挑戰海關效率與準度的新課題。X光斷層影像技術(XCT)是輻射成像的一種重要方式,三維成像室是當前的趨勢所向。但其中的一個關鍵步驟——圖像重建所涉及的巨大計算量是三維XCT應用于時間的所必須面臨的主要問題之一。
解決方案
為解決這一難題,清華大學工程物理系粒子技術與輻射成像教育部重點實驗室經過長期研究,推出了一款基于NVIDIA(英偉達)Tesla GPU的全新硬件與軟件解決方案。搭配了NVIDIA(英偉達)Tesla GPU的清華大學解決方案在進行大型X光和CT掃描時,圖像重建和處理速度提高了5-50倍,而且從二維上升到了三維,清除了傳統掃描留下的許多盲點和死角,使得快速全面地檢查行李和物品成為可能,使得快速高分辨率檢查大體積工件成為可能。
結果
與傳統CPU平臺相比,基于NVIDIA(英偉達)CUDA 架構的清華大學解決方案能以更低的成本,更高的速度和更清晰的標準完成原有工作。三維圖像重構的速度從過去使用普通CPU計算的幾個小時縮短到基于GPU計算的幾秒,甚至1、2秒。如果在10秒之內重建完成5123立體,是重建時間遠小于CT掃描時間,也就是說基本達到實時重建。NVIDIA(英偉達)CUDA 架構技術給三維CT重建速度帶來了重要的革命性的變化。
清華大學邢副教授表示:“GPU所具有的超長流水線和高度并行化,使真正的三維圖像重構變成可能。基于GPU進行三維重建是提高其速度的非常有效的途徑。”
目前,清華大學的新集裝箱檢查系統已經部署到香港國際機場。未來,該系統將在會議、海關、鐵路等大型公用場合以及各種各樣的無損檢測領域廣泛應用。
挑戰
隨著基于基因、蛋白質和DNA的微觀生命科學研究日益深入,生命科學領域的數據量平均每12個月就增加一倍,研究者對超級計算機和集群系統的要求越來越高,需要不斷探索新技術。浪潮一直是中國生命科學研究領域重要的超級計算機供應商之一,一直致力于新運算平臺的研發與應用。
解決方案
為解決技術難題,浪潮“倚天”桌面超級計算機采用NVIDIA(英偉達)Tesla技術,建立了一個全新的運算平臺,為中國科學院北京基因組研究所的大規模研究服務,包括基因組序列分析和多態性研究、基因及蛋白質表達研究、生物信息學系統研究及生命科學系統研究等。中國科學院北京基因組研究所曾經承擔過1%國際人類基因組計劃。
結果
在利用浪潮解決方案的NVIDIA(英偉達)Tesla 平臺之前,傳統CPU計算平臺不僅能耗高、占地多,而且無法承擔數據高速增長帶來的挑戰:任何一個小的修改,就要重新做一遍基因組比對,而每個人大約有30億個基因對,數據量動輒都以TB來衡量(1tb=1024G),做一對染色體的基因測序就需要半個月時間。NVIDIA(英偉達)Tesla實現了CPU難以企及的密集并行計算,使超級計算機的體積縮小數倍,能耗降低5倍,噪音降低2-3倍,價格下降10倍,最重要的是,運算速度大幅提高。一臺浪潮“倚天”桌面超算的計算能力達到每秒鐘四萬億次。基于NVIDIA(英偉達)Tesla平臺的BLAST軟件中的一個關鍵模塊運行速度比單個CPU快35倍。
中科院北京基因組研究所副所長于軍說:“CPU集群好像一列火車,給定時間和速度就把你運到這里,所有的人員不得不擠在一起,還要排隊等待。而桌面萬億次超級計算機就好像是給每個科研人員都配備了一輛越野車,增加了專家的自由度,挖掘了個人潛力,大大提升了科研效率。”
目前,為促進中國生命科學研究,浪潮和北京基因組研究所將基于GPU的BLAST軟件轉為開源軟件,讓中國乃至世界的科學家都能使用中國人在GPU上的研究成果。
挑戰
近年來,隨著油氣勘探變得越來越復雜、成本越來越高,為了更準確地評估地表下巖層的狀況,并確定地層地質結構,地震成像公司開始探索全新的相關技術。疊前時間偏移(PSTM)和疊前深度偏移(PSDM)就是此類新型地震成像技術。但是這種技術需要大規模的計算量,從前,這種大規模計算意味著購置與運營成本非常高昂。吉星吉達科技有限公司(GeoStar)是專門致力于這一領域的一家領先的中國地球物理服務供應商,該公司正在尋求既能運行復雜地震算法又能降低成本與功耗的方法。
解決方案
為解決這一難題,吉星吉達與NVIDIA(英偉達)共同推出了一款基于NVIDIA(英偉達)Tesla的全新硬件與軟件解決方案。近幾個月以來,中國科學院(CAS)地質與地球物理研究所一直在測試搭配了吉星吉達解決方案的 NVIDIA(英偉達)Tesla。在計算方圓740平方公里的疊前時間偏移數據時,與傳統的66顆CPU(核心時鐘頻率3.4GHz)群集相比,24顆Tesla GPU(圖形處理器)的處理速度提升了600倍以上。目前公司在疊前深度偏移(PSDM)的研發上也取得了成功,逆時偏移(RTM)的運算速度提高了100倍以上。中科院研究人員認為通過進一步調整,還可以達到更快的速度。這意味著用戶不僅可以實現性能的大幅提升以及高效地采用高精度地球物理技術,,而且還能夠在系統運行與散熱的耗電成本上節省大筆開支。
結果
與傳統CPU群集相比,NVIDIA(英偉達)與吉星吉達能夠以更低的成本在PSTM運算上實現100—400倍速度提升,同時將功耗降低95%。
吉星吉達科技有限公司總經理劉欽表示:“對油氣勘探行業來說,這是一款革命性的解決方案。基于CUDA架構的NVIDIA® Tesla高性能計算解決方案徹底顛覆了油氣勘探地震數據處理的固有方式,可以節省大量成本。”
目前,由NVIDIA(英偉達)與GeoStar公司共同開發的解決方案得到中國國內石油天然氣行業企業的廣泛認可,并已開始用于大慶、勝利、吐哈等油田的勘探項目。這項技術正在被越來越多的油田接受,并引起了國際同行的熱切關注,來自歐洲、印度、澳大利亞、美國等同行或來函或來人紛紛了解這項技術及其發展。■<
關注我們



