智東西(公眾號:zhidxcom)
文 | Lina
6月15日,智東西等數家媒體受到百度邀請,前往其位于山西省陽泉市的云計算中心進行參觀走訪,介紹了有關百度陽泉云計算中心的整理運營狀況、從供電到散熱的眾多節能技術、各類百度自研的服務器(“北極”、“冰山”、“鯤鵬”、“X-Man”等)以及百度是如何使用人工智能對該中心進行預測與調控,做到智能控制、智能運行。
值得一提的是,山西陽泉正是百度創始人李彥宏的家鄉。陽泉云計算中心位于陽泉經濟開發區東區,從室內坐大巴需要約20分鐘到達。
一、自報家門:8大機房、12萬平米、16萬臺服務器
根據工作人員介紹,百度陽泉云計算中心從2012年8月19日奠基開工(當時項目計劃投資47.08億元)2014年開始投入使用,截止至筆者發稿日已經安全工作了1082天了。當初計劃了四期工程,8個機房模組,目前已經完成了三期6個機房的投運,最后一期也在緊張建設,即將投入使用。
陽泉云計算中心建筑面積有12萬平米,擁有400+項專利技術,設計容納16萬臺服務器,是目前為止是亞洲建成投運的最大數據中心之一,也是百度在全國幾十個大型數據中心中規模最龐大的一個。
同時,陽泉云計算中心按照T3+標準設計建照,可用性為99.99%+——這句話是什么意思呢?那就是全年不可用時間不能超過52分鐘。年均PUE1.11(數值越接近1,能效比越高)。而且,雖然位于煤炭大省山西,但陽泉云計算中心的清潔能源使用比例非常高,目前使用太陽能、風能等清潔能源的占比達到了20%。
二、進門感嘆:人真少
從大門進去,首先要過安檢并進行登記,陽泉云計算中心的安全等級比較高。首先映入眼簾的是位于園區中心的一棟橢圓柱形建筑,這就是陽泉云計算中心的ECC監控中心,外圍環繞著編號為D01-D08的8座方形建筑,這就是上文提到的8個機房模組。
在園區里走著,一個最大也是最明顯的感覺就是——沒人。由于數據中心全部采用先進的自動化、智能化控制技術,需要巡視、維護、調控人員極少,每個班組2-3人就可以完成2個模組約3萬平米7*24小時運營。因此諾大一個12萬平米的園區建筑里,基本上很難看到人。
進入中間大樓的ECC監控中心后,可以看到這是一棟寬敞明亮的4層建筑,以黃白色調為主,在百度帶領大家參觀的其中一個控制室里,我們可以看到各個機房的實時參數、監控視頻等信息,涉及機密這里就不上圖了~
三、重頭戲:機房參觀
好了,接下來就是本次參觀介紹的重頭戲,機房參觀。
在陽泉云計算中心安裝8個機房模組的服務器中,包括了各類百度自研的服務器:如“北極”、“冰山”、“鯤鵬”、“X-Man”等,其中90%以上都是“北極”整機柜服務器。
“北極”(天蝎)自研整機柜服務器——采用共享電源、共享風扇架構,部件全部標準化、模塊化、一體化,支持40攝氏度環境溫度長期運行。總擁有成本(TCO)降低15%,交付效率提升20倍——這句話更直觀地換算過來什么意思呢?那就是原先需要1個月上線的服務器,現在只需要1天。

“冰山”自研高密度存儲服務器——創新的高密度存儲解決方案,支持儲存池化設計和分層存儲,單臺服務器可存儲180TB數據,有力地支持了百度的私有云、公有云業務。
“鯤鵬”自研高溫服務器——業界首次規模商用的高溫服務器(一般服務器送風溫度是22-24度,鯤鵬可以支持送風溫度達到45度)同時具備耐腐蝕性,與IDC強耦合,徹底實現全自然新風冷卻。
“X-Man”自研AI服務器——業界首個基于PCIe Fabric架構的16卡GPU服務器,兼容支持FPGA。支持異構計算資源池化,可擴展到64GPU以上,提供1000TOPS量級計算能力,能夠廣泛應用于語音、圖像、NLP、搜索、無人車加速計算場景。
四、清潔供電與散熱節能
在供電方面,陽泉云計算中心去除傳統的UPS,首次采用 HVDC offline(高壓直流離線)技術、分布式鋰電池(BBS)供電技術,把供電效率從90%提升到99.5%。陽泉云計算中心同時也是國內首個采用太陽能光伏發電的數據中心,在頂樓鋪設太陽能光伏面板直接并網發電,直接給服務器使用,節能的同時還減少污染物排放。

不過,利用太陽能光伏面板發電的電量占的還是用電量的少數,陽泉云計算中心在2017年與電廠簽約的2600萬度風力發電,使得清潔能源的占比達到20%。
在散熱方面,陽泉云計算中心96%的時間可以使用室外冷空氣實現免費冷卻,換算過來一年里有14.6天才需要全部開冷水機組制冷,從而節省了大量的能源。
五、AI在云計算中心中的應用
一方面,云計算是AI的底層能力之一,百度陽泉云計算中心所提供的計算能力可以為用戶提供AI-enable網絡,其中包括基于cookie機器學習模型的IP地理定位、基于交互機日志的故障預測、業務網絡質量的測量與感知、基于機器學習的攻擊流量監測系統等等。
而另一方面,AI也被應用在了云計算中心的智能控制、智能運行上。通過采集環境參數、設備功耗、運行模式、動作狀態等參數,再將它們使用AI算法進行計算優化(此處的AI包括HPC、機器學習、深度學習等,解決不同問題會用不同模型,但大部分訓練都是用百度的PaddlePaddle開源平臺)。
通過百度的人工智能技術,陽泉云計算中心如今做到智能預警、智能調度、智能運維——而這也是上文提到的園區員工很少的原因之一。預警、調度、運維包括許多方面,以下是工程師介紹的其中三點:
1)自動運營:大幅縮短電力切換時間。當突遇停電時,傳統備用發電機電源切換要15分鐘,但現在通過電力監控系統全自動切換,可以達到分鐘級別的切換速度,最快只需要30秒。
2)智能調度。通常數據中心用電是有波動的,服務器存在閑時忙時,波峰波谷。為了提高服務器及機房的利用率,通過AI技術預測對在線業務需求進行預測,通過在線業務及離線業務混布,閑時調度更多離線業務,跑離線計算、訓練模型。
3)智能預測:判斷網絡流量是否異常。用AI模型進行計算、判斷某個流量到底是用戶的正常操作行為還是惡意攻擊流量。
結語:智能時代的基礎建設
在各類科技、IT主題的美劇中(比如《硅谷》),服務器機房一直是個被人拿來調侃的地方。就連今年蘋果的WWDC的開場視頻也拿一位剛入職的科技宅男坐在服務器機房里,無意中碰掉了供電插頭而引發一場動亂的
當下隨著人工智能與萬物互聯的普及,接入網絡的設備越來越多,數據計算量也越來越大,云服務、云計算已經慢慢變成智能時代的下層建筑,成為如供水、供電、網絡通信等我們日常生活中不可或缺的基礎設施。
目前,無論是國外的亞馬遜云、微軟云、還是國內的阿里云、百度云等等,都紛紛繼續著對云計算數據中心的投入建設,如百度一般,不少公司都是從幾年前就開始布局建設,在近年陸續投建使用,為企業的人工智能與萬物互聯提供云服務與云計算能力。






