近日,在湖南長(zhǎng)沙2009年高性能計(jì)算學(xué)術(shù)年會(huì)上,國(guó)防科技大學(xué)發(fā)布了“天河一號(hào)”千萬(wàn)億次超級(jí)計(jì)算機(jī)。該系統(tǒng)采用了6144顆最新英特爾至強(qiáng)5500系列CPU和5120顆ATI GPU,峰值性能為1206萬(wàn)億次每秒,Linpack測(cè)試性能超過(guò)560.3萬(wàn)億次每秒,在2009年中國(guó)TOP100排行榜中排行第一位。 該系統(tǒng)將于2009年底至2010年全面部署于國(guó)家超級(jí)計(jì)算天津中心,屆時(shí)我國(guó)將成為繼美國(guó)之后可以研制和應(yīng)用千萬(wàn)億次超級(jí)計(jì)算機(jī)的國(guó)家。
“天河一號(hào)”所采用的“CPU+GPU”混合計(jì)算架構(gòu)引發(fā)了與會(huì)專家和各大廠商的強(qiáng)烈關(guān)注,尤其是針對(duì)這種架構(gòu)的軟件編程和應(yīng)用問(wèn)題。
誰(shuí)來(lái)當(dāng)千萬(wàn)億次機(jī)的加速器
由于“天河一號(hào)”使用了“CPU+GPU”的混合架構(gòu),其中GPU作為加速計(jì)算單元存在,但這種結(jié)構(gòu)這無(wú)疑會(huì)增加系統(tǒng)的使用難度,畢竟現(xiàn)在能夠利用GPGPU的軟件還比較少,需要用戶自己去針對(duì)這一架構(gòu)改編軟件。對(duì)此,TOP100排行榜創(chuàng)始人、中科院軟件所張?jiān)迫┦空劦剑壳皝?lái)看,GPGPU的應(yīng)用對(duì)于普通用戶而言確實(shí)比較難,但是“天河一號(hào)”在體系結(jié)構(gòu)設(shè)計(jì)上也已經(jīng)考慮到這一點(diǎn),其CPU與GPU的比例是1:1,這樣,即便只使用CPU,也可以實(shí)現(xiàn)200萬(wàn)億次的計(jì)算性能,與上海超算的曙光5000A相當(dāng)。
曙光公司副總裁聶華在接受IT168記者采訪時(shí)談到,“GPU確實(shí)是高性能計(jì)算業(yè)內(nèi)人士非常關(guān)注的熱門(mén)技術(shù),曙光也在提供采用Nvidia或AMD/ATI的GPU的服務(wù)器產(chǎn)品,但根據(jù)一線用戶的反饋來(lái)看,喜憂參半。”一方面,GPU的并行計(jì)算性能很高,對(duì)于某些專業(yè)領(lǐng)域來(lái)說(shuō)確實(shí)可以實(shí)現(xiàn)幾十倍、上百倍的性能提升,比如石油勘探領(lǐng)域已經(jīng)有證明,但另一方面,也有很多應(yīng)用無(wú)法實(shí)現(xiàn)那么高的性能加速比。
他分析說(shuō),跟CPU不同,GPU協(xié)同并行計(jì)算顛覆了傳統(tǒng)的計(jì)算理念。對(duì)高性能計(jì)算來(lái)說(shuō),首要的是確保計(jì)算結(jié)果的正確無(wú)誤,而GPU出身于圖形處理卡,從設(shè)計(jì)結(jié)構(gòu)上就是無(wú)法絕對(duì)保證計(jì)算結(jié)果的正確。而今天,我們的編程模型、算法模型都是傳統(tǒng)的,因此只有按GPU的體系架構(gòu)重新去編程才容易獲得高性能,否則可能得不償失。
“CPU通用計(jì)算仍然是基礎(chǔ),同時(shí)我們更傾向于用龍芯來(lái)做協(xié)處理器。”聶華表示,根據(jù)計(jì)劃,曙光公司將于2010年推出采用龍芯處理器的千萬(wàn)億次超級(jí)計(jì)算機(jī)曙光6000,預(yù)計(jì)會(huì)落戶于深圳的華南超算中心。與天河一號(hào)類似,曙光6000也將采用異構(gòu)計(jì)算的結(jié)構(gòu),不同的是,天河一號(hào)用的是“英特爾CPU+ATI GPU”,而曙光6000將使用“普通CPU+國(guó)產(chǎn)龍芯處理器”。
可見(jiàn),在高性能計(jì)算加速單元上,過(guò)去的FPGA似乎正在被人遺忘,取而代之的是其他形形色色的協(xié)處理器,如IBM在“走鵑”用的CELL處理器,“天河一號(hào)”用的ATI GPU,以及未來(lái)曙光6000里會(huì)用到“龍芯”處理器……未來(lái)一段時(shí)間,將會(huì)是叢林競(jìng)爭(zhēng)的時(shí)代。
雙精度性能:GPU首先要過(guò)的一道坎
就GPU通用計(jì)算的話題,記者現(xiàn)場(chǎng)還采訪了英特爾、Nvidia、AMD、寶德、聯(lián)想、浪潮等多家廠商代表的看法。
聯(lián)想首席科學(xué)家祝明發(fā)教授表示,目前GPU的單精度性能很高,但雙精度性能很小(大約是雙精度性能的1/8-1/10,編者注),而高性能計(jì)算軟件很多都要求雙精度性能。
實(shí)際上,國(guó)外TOP500和國(guó)內(nèi)TOP100高性能計(jì)算機(jī)排行榜一般都按照雙精度浮點(diǎn)計(jì)算性能來(lái)測(cè)試排序,按單精度性能算,“天河一號(hào)”的峰值性能高達(dá)1206萬(wàn)億次每秒,但Linpack測(cè)試性能卻只有560.3萬(wàn)億次每秒,正是受到GPU的影響,使得整個(gè)系統(tǒng)的效率偏低。正可謂,遇到需要單精度性能的應(yīng)用,GPU能以一擋十,如虎添翼,而一旦碰到要求雙精度的場(chǎng)合,就未免有些英雄氣短了。
此外,GPU計(jì)算單元密度高,但數(shù)據(jù)吞吐受限,I/O瓶頸突出,缺少校驗(yàn)機(jī)制等也受到人們的詬病。不過(guò),作為GPU通用計(jì)算領(lǐng)域的推動(dòng)者,Nvidia公司沒(méi)有知難而退。在此次年會(huì)上,Nvidia公司主要推介了其最新一代的“Fermi”GPU架構(gòu),具體產(chǎn)品預(yù)計(jì)要到明年1季度推出。據(jù)介紹,F(xiàn)ermi已經(jīng)針對(duì)雙精度性能、ECC校驗(yàn)等方面進(jìn)行了“重大”的革新——引入L1、L2緩存機(jī)制,雙精度性能是上一代產(chǎn)品的8倍,顯存控制器支持ECC顯存糾錯(cuò)技術(shù)等。Nvidia現(xiàn)場(chǎng)工程師告訴IT168記者:“Fermi的最大改進(jìn)在于雙精度方面,與上一代架構(gòu)的CUDA通用計(jì)算相比,現(xiàn)在的雙精度計(jì)算性能提高了8倍。而雙精度在線性代數(shù),數(shù)學(xué)模擬以及生物化學(xué)領(lǐng)域的高性能計(jì)算中發(fā)揮著重要作用。” [推薦閱讀:7大改進(jìn)NVIDIA第2代CUDA架構(gòu)Fermi分析]
軟件才是關(guān)鍵 看CUDA和OpenCL之爭(zhēng)
不過(guò),祝明發(fā)教授認(rèn)為,CPU+GPU的混合架構(gòu),硬件并不是最主要的,關(guān)鍵還得看軟件和編程環(huán)境。寶德公司產(chǎn)品經(jīng)理陳齊旺也表示,CPU+GPU的方案比較大的挑戰(zhàn)就是在程序優(yōu)化和編程方面。
由于絕大部分針對(duì)CPU編寫(xiě)的程序需要改編才能運(yùn)行在GPU架構(gòu)之下,需要軟件人員重新學(xué)習(xí),而現(xiàn)在Nvidia和AMD又分別主推CUDA和OpenCL(Open Computing Language)編程環(huán)境,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),各自的軟件互不兼容,也增加了用戶的投資風(fēng)險(xiǎn)。
對(duì)于CUDA和OpenCL之爭(zhēng),曙光公司的李寧表示,從高性能計(jì)算發(fā)展的歷史來(lái)看,專有技術(shù)的路會(huì)越走越窄,而標(biāo)準(zhǔn)化的技術(shù)會(huì)更有發(fā)展,如X86服務(wù)器取代RISC小型機(jī),千兆以太網(wǎng)和Infiniband等商用網(wǎng)絡(luò)取代了專有的網(wǎng)絡(luò),Linux取代了一些專有的UNIX操作系統(tǒng)等。目前曙光的服務(wù)器同時(shí)支持Nvidia和ATI的產(chǎn)品,但CUDA這個(gè)編程環(huán)境只適合Nvidia自己的產(chǎn)品,因此,“OpenCL會(huì)在眾多廠商的支持下越走越好。”
作為另一家重要的GPU通用計(jì)算廠商,AMD/ATI公司主推的正是OpenCL。該公司在此次年會(huì)上就展示了其最新HD5000系列顯卡及相關(guān)GPU通用高性能計(jì)算應(yīng)用案例。據(jù)介紹,已經(jīng)有很多實(shí)驗(yàn)性算法是基于OpenCL標(biāo)準(zhǔn),面向最新的HD 5000系列GPU架構(gòu)制作。
期待英特爾Larrabee+Ct加入戰(zhàn)團(tuán)
浪潮目前是國(guó)內(nèi)推廣Nvidia GPU桌面超算產(chǎn)品力度最大的廠商,其倚天系列受到了眾多高性能計(jì)算用戶的關(guān)注。該公司高性能服務(wù)器產(chǎn)品部總經(jīng)理劉軍(劉軍新聞,劉軍說(shuō)吧)則表示,無(wú)論是誰(shuí)的解決方案,ATI也好,Nvidia也罷,主要看使用環(huán)境,看編譯環(huán)境好不好用,而他本人“更希望看到英特爾推出Larrabee,在桌面超算產(chǎn)品里希望是Larrabee+Ct的技術(shù)。”
據(jù)了解,英特爾基于Larrabee的首款GPU產(chǎn)品預(yù)計(jì)將于2010年推出,主要面向個(gè)人電腦圖形市場(chǎng),可支持DirectX和OpenGL,能夠運(yùn)行目前的所有游戲和相關(guān)程序。同時(shí),英特爾的研究人員還正在研究各種方法,以幫助編程人員應(yīng)對(duì)在萬(wàn)億級(jí)、并行計(jì)算處理器上運(yùn)行類似的實(shí)時(shí)應(yīng)用時(shí)所面臨的挑戰(zhàn)。其中的一個(gè)關(guān)鍵研究項(xiàng)目就是 Ct 編程語(yǔ)言,這種靈活的語(yǔ)言致力于幫助主流編程人員高效地開(kāi)發(fā)高度并行化、高性能的軟件,從而充分發(fā)揮出英特爾當(dāng)前和未來(lái)許多內(nèi)核處理器的優(yōu)勢(shì)。與其他并行編程語(yǔ)言相比,使用 Ct 作為編程語(yǔ)言可以讓編程人員的工作效率得到明顯提高,因?yàn)閹缀醪恍枰獙?duì)源代碼進(jìn)行修改。Ct 編程語(yǔ)言不但適用于目前的硬件環(huán)境,還能升級(jí)到基于 Larrabee 和 AVX(高級(jí)向量擴(kuò)展)指令集的系統(tǒng)開(kāi)發(fā),而無(wú)需編程人員的介入。
英特爾中國(guó)服務(wù)器產(chǎn)品經(jīng)理顧凡認(rèn)為,“CPU與GPU之間最終是軟件戰(zhàn)爭(zhēng),誰(shuí)能保護(hù)用戶代碼投資誰(shuí)就能贏。”不過(guò),目前英特爾還沒(méi)有明確時(shí)間表將Larrabee用于高性能計(jì)算,“英特爾希望給用戶的是一款成熟的產(chǎn)品。”而且,跟Nvidia和AMD不同,英特爾更多會(huì)通過(guò)“若干大內(nèi)核+數(shù)百小內(nèi)核”的異構(gòu)多核CPU設(shè)計(jì)來(lái)集成類似GPU功能模塊,以滿足更大規(guī)模并行計(jì)算的需要。
綜上所述,GPU和CPU之間的競(jìng)爭(zhēng)不僅僅是兩種技術(shù)架構(gòu)之間的競(jìng)爭(zhēng),也不只是Nvidia和英特爾或AMD兩三家公司之間的競(jìng)爭(zhēng),而是標(biāo)準(zhǔn)之爭(zhēng),是包括硬件、軟件、應(yīng)用在內(nèi)的兩種產(chǎn)業(yè)生態(tài)鏈之間的競(jìng)爭(zhēng),涉及到很多軟硬件廠商和用戶。
其實(shí),這場(chǎng)戰(zhàn)爭(zhēng)才剛剛開(kāi)始!
進(jìn)入論壇>>聲明:IT商業(yè)新聞網(wǎng)登載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述。文章內(nèi)容僅供參考。新聞咨詢:(010)68023640.推薦閱讀
趕超DC機(jī)王終上市 索尼愛(ài)立信U1i不足5000元
索尼愛(ài)立信的年度旗艦Idou正式更名為SatioU1i,擁有3.5英寸的觸控屏幕以及1200萬(wàn)像素的超強(qiáng)攝像頭,在今年的拍照手機(jī)基本上是無(wú)人能敵了,這款手機(jī)也是目前最受期待的手機(jī)之一,1200萬(wàn)+GPS+S60V5。這款具有恐怖像素的>>>詳細(xì)閱讀
本文標(biāo)題:CPU與GPU:戰(zhàn)爭(zhēng)才剛剛開(kāi)始
地址:http://www.oumuer.cn/a/xie/20111230/198670.html