將GPU計(jì)算全面普及!中科院研究員專訪
泡泡網(wǎng)顯卡頻道12月15日 2011年12月14-15日NVIDIA在北京國家會(huì)議中心舉辦亞洲GTC(GPU Technology Conference),這也是2011 NVIDIA GTC大會(huì)最后的一場會(huì)議,大會(huì)邀請(qǐng)了來自世界各地、各個(gè)領(lǐng)域的資深程序員、研究人員以及思想領(lǐng)袖。在會(huì)上編輯對(duì)中國科學(xué)院過程工程研究所研究員、超級(jí)計(jì)算系統(tǒng)項(xiàng)目負(fù)責(zé)人葛蔚進(jìn)行了專訪。
中國科學(xué)院過程工程研究所研究員、超級(jí)計(jì)算系統(tǒng)項(xiàng)目負(fù)責(zé)人——葛蔚,主要從事化工過程中復(fù)雜多相系統(tǒng)的計(jì)算機(jī)模擬與理論分析。提出并發(fā)展了結(jié)合微觀粒子模擬中軟、硬粒子模型的擬顆粒模擬,以此為工具揭示了氣固流態(tài)化、氣液鼓泡流動(dòng)和微流動(dòng)等系統(tǒng)中多種控制機(jī)制協(xié)調(diào)形成穩(wěn)定性條件的機(jī)理,檢驗(yàn)并擴(kuò)展了多相復(fù)雜系統(tǒng)分析型多尺度方法。從問題、軟件與硬件結(jié)構(gòu)一致性的角度提出了多尺度離散模擬通用軟件平臺(tái)及其專用硬件平臺(tái)的設(shè)計(jì)思想,申請(qǐng)和獲得多項(xiàng)國家發(fā)明專利。
編輯:可否簡單為大家介紹一下,在眾多利用到NVIDIA通用計(jì)算技術(shù)的工程項(xiàng)目中,最典型的案例是什么?
葛蔚研究員:在某鋼廠的煉鋼處理過程中會(huì)產(chǎn)生大量的廢鋼渣,過多的廢鋼渣無法被充分利用起來,而實(shí)際上這些副產(chǎn)品在經(jīng)過處理之后可以用作鋪路等其他用途。之前的處理方法并不科學(xué),后來通過利用NVIDIA工作站進(jìn)行模擬的運(yùn)算,研發(fā)出了一種新的處理方法,提升了鋼渣處理的速度以及品質(zhì)。使最終處理出來的鋼渣,在重新利用時(shí)質(zhì)量更加穩(wěn)定。最終真正為企業(yè)提升了生產(chǎn)力和利潤。
編輯:程序員采用GPU環(huán)境進(jìn)行編程時(shí),會(huì)不會(huì)有一些不習(xí)慣?
葛蔚研究員:一開始肯定會(huì)不習(xí)慣,比如你新?lián)Q了個(gè)新手機(jī),需要用些時(shí)間適應(yīng)。既然CUDA能夠達(dá)到很好的效率,那么它必然也是滿足你的需求,而且用時(shí)間長了,你還會(huì)覺得以前在CPU環(huán)境下進(jìn)行編程才是真的難用,很多復(fù)雜需求根本無法在CPU環(huán)境下來實(shí)現(xiàn)。
實(shí)際上不習(xí)慣主要是心里上的不習(xí)慣,用慣了CPU環(huán)境下的編程,忽然轉(zhuǎn)到功能更全的GPU環(huán)境肯定不適應(yīng)。就好比我用慣了諾基亞,突然給我一個(gè)iPhone,我肯定不適應(yīng),適應(yīng)了之后會(huì)覺得iPhone很不錯(cuò)。所以說一開始不習(xí)慣主要體現(xiàn)在熟悉的過程,并不是在GPU環(huán)境下編程不好用。
編輯:您認(rèn)為NVIDIA的超級(jí)計(jì)算機(jī)解決方案和其他家相比最大的優(yōu)勢在什么地方?
葛蔚研究員:之前IBM的Cell方案較為封閉,并不是一個(gè)很開放的體系,大家如果想用只能全套買IBM的產(chǎn)品,整套成本相當(dāng)高,不利于大規(guī)模的普及。我們?cè)?jīng)購買過PS3并利用它進(jìn)行運(yùn)算,難度非常大最終還是放棄了,這也是一種自然的選擇,哪個(gè)好用用哪個(gè)。目前37套基于GPU的超級(jí)計(jì)算機(jī),有35套采用了NVIDIA的GPU,這也是NVIDIA從軟件到硬件整體對(duì)用戶的支持相當(dāng)?shù)轿弧?/P>
編輯:您目前自己用的工作站是什么配置呢?
葛蔚研究員:我們主要的工作站采用的泰安主板最多能安裝8個(gè)GPU,每個(gè)節(jié)點(diǎn)實(shí)際安裝6個(gè)GPU是機(jī)架式的服務(wù)器。其他的就是之前從聯(lián)想和惠普采購的工作站,我們最早的工作站用的是惠普XW8600安裝的GTX295。目前我們的團(tuán)隊(duì)越來越大,我們打算將最早的工作站發(fā)到個(gè)人手里。之前NVIDIA也在宣傳希望將GPU的計(jì)算技術(shù)推廣到個(gè)人用戶中,這次終于先在我們這里實(shí)現(xiàn)了。
編輯:目前超級(jí)計(jì)算機(jī)的發(fā)展瓶頸在哪?需要在哪方面進(jìn)行突破?
葛蔚研究員:有三方面:應(yīng)用、可靠性以及能耗,第一在應(yīng)用方面,運(yùn)算能力可以通過硬件的堆砌來完成,但應(yīng)用程序不能完全利用到所有節(jié)點(diǎn),這種問題不能單靠硬件方面的人來考慮,也需要編程人員來一起想辦法來解決。
第二在可靠性方面,這么多節(jié)點(diǎn)同時(shí)運(yùn)作故障的概率相當(dāng)大,一定要有容錯(cuò)的機(jī)制,軟件硬件都需要容錯(cuò)機(jī)制。單一的臺(tái)式機(jī)不會(huì)考慮最終的結(jié)果算錯(cuò)了怎么辦,但超級(jí)計(jì)算機(jī)就要考慮這一問題了,總不能算到最后前功盡棄。
最后就是能耗方面,超級(jí)計(jì)算機(jī)由于節(jié)點(diǎn)眾多,能耗問題不容忽視。如果單純用CPU環(huán)境來實(shí)現(xiàn)目前的排行第一的超級(jí)計(jì)算機(jī),那么只能用核電站來支撐其功耗,顯然此種方法得不償失。■
關(guān)注我們



