智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影

“47塊!第一次搶到這么大的春晚紅包,該在京東買點啥?”

“下午新耳機就上崗了~~~京東真的快!還用上了除夕搖的紅包。”

“搶到的京東春晚紅包,幾乎免費獲得一臺紅米k40,這運氣簡直沒誰了,開心!”

今年春晚,秀紅包成為一大新潮,動輒幾十上百元的紅包刷新額度,與此同時越來越多的觀眾利用紅包在京東APP上立馬下單消費,春節期間實現送貨到家。最新數據顯示,春晚期間15億紅包與好物遍發全球,京東APP紅包累計互動量高達691億次。

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

在這些背后,京東云作為本次春晚紅包互動的技術保障底座,成功挑戰世界上規模最大的網絡互動活動以及全球最復雜場景,紅包互動與“年貨春運”雙場景疊加,在不增加計算資源的情況下實現秒級超大規模的計算資源變陣,為春晚紅包互動提供了“變形金剛”般的硬核支持。

一、春晚紅包+年貨春運:京東云登頂云計算的“珠穆朗瑪峰”

邊看春晚邊搖紅包,已成為近年來闔家團圓過春節的一個重要儀式。今年,春晚紅包卻有了新玩法,不僅能夠快速流暢地體驗春晚互動并分享15億紅包與好物,還能憑借所得紅包獎券即時選購商品與下單,在強大的供應鏈履約支持下將好物迅速帶回家,而這背后的技術服務支持正是來自于很多人熟知的京東云。

實際上在過去很多年的春節中,“春節不打烊”的服務讓更多人能夠在新春佳節這個特殊時間里見到平日熟悉的京東快遞。但與往年不同的是,今年京東從臘月二十二(1月24日)到元宵節(2月15日)的時間內,在APP中增加了擊鼓搖紅包的環節,區別于往年的春節流量模型,這是一個集預約搖紅包、正式搖紅包、紅包下單購物、線下物流配送等于一身的業務流程鏈,尤其是在除夕當晚,這種場景復雜更加凸顯。

“今年在4個多小時的春晚直播中,京東技術體系需要支持紅包互動及購物交易場景,兩個場景差異性大,峰值頻繁往返切換,技術挑戰極大;另外除紅包互動場景外正值年貨節,京東技術體系還需要支持京東的交易、支付、客服、分揀、配送等眾多業務場景,鏈路超長。每一個鏈路節點的增加,都大幅提升了項目技術系統的復雜度和保障難度。”備戰團隊表示。

為此,京東云在不增加計算資源的前提下,決定采用“大規模資源騰挪”的方式應對挑戰。

秒級調度近300萬個容器、超1000萬核算力資源,在除夕當晚的紅包互動過程中依靠云原生數字基礎設施、混合云操作系統云艦實現了紅包互動模式與“年貨春運”模式之間16次無縫切換,在世界頂級流量及超級復雜場景下成功挑戰極限,以超高彈性成功登頂云計算領域的“珠穆朗瑪峰”。

19天的緊鑼密鼓籌備、上萬研發工程師高效協同、秒級的超大規模資源切換……發紅包的京東人完成了一個個幾乎不可能實現的任務。

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

二、19天備戰“難上加難”,我們有“劇本”和“地圖”做保障

接到電話的時候是元旦,當時2022春晚項目IDC基礎保障負責人、京東云基礎設施研發部高級總監常亮正和他的家人在北京長陽滑雪場休假,得知京東可能成為2022年春晚紅包互動板塊的支持方,他趕忙開車回到公司。

準備的時間才19天,“線上紅包+線下履約”的復雜場景需求對技術要求又十分苛刻:一方面團隊需要保障“春節不打烊”等全鏈路業務完整順暢、用戶體驗良好;另一方面,團隊需要應對“春晚紅包互動”帶來的極端并發流量,的確這次京東面臨的困難很大。“我們這次的春晚紅包項目會影響到全國的老百姓,必須針對可能出現的故障做好完備預案。”常亮說。

后來這些預案在京東內部被稱為“應急劇本”,為業內首創。61頁、2萬多字,涉及基礎設施、登錄、支付、安全等多塊業務,“應急劇本”可以說是本次春晚紅包成功背后的“武功秘籍”之一。它們清楚寫出了可能出現的故障、解決方案以及相應的負責人等,幾乎將所有可能發生的問題都考慮在內。

據了解,這些劇本有的會涉及應用層面,比如當用戶收不到手機驗證碼導致有些重要功能很難實現時就會被投訴,怎么處理?按照應急劇本,會馬上啟動和微信、QQ拉通的一鍵登陸來解決。

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

但這些應用層面問題并不是最棘手的,最棘手的問題在于基礎設施故障。比如CDN被打爆了怎么辦?公網出口中斷了該如何?這些問題都可能讓整個春晚紅包互動“翻車”,為此應對網絡中斷問題,會有一個關鍵負責人緊急做專線切換操作并在一分鐘內生效。“就像《哈利波特》最后一集中女校長談到的一樣,她一生中特別激動的是用一個咒語將整個霍格沃茨的石像鬼復活去抵御伏地魔大軍,而這位專線切換的負責人也是類似的角色,一人按鍵瞬時切換成功。”

此外鏈路壓測是“應急劇本”的一大補充。“在備戰過程中,通過多達7輪的壓力測試,其中還包括公網壓測以及斷網演練等,反復練習預案的操作步驟并觀察效果,同時還要考察系統上運行的應用的健康度,進而驗證劇本是否符合預期效果并不斷調整,更好應對突發的業務異常和模塊異常等情況。”

所謂“將軍不打無準備的仗”,除了“應急劇本”,在春晚紅包活動前,技術團隊還通過“流量地圖”這一獨特方式對流量精準預判。根據過往觀看春晚并參與活動的多維數據,經分析后提前預判地域流量差異再將資源的針對性部署。“我們還會根據目前掌握的數據分析預判大流量可能出現的環節,并做好對應的資源部署與調整的同時,預判流量流轉的路徑以及走向,做好把控和引導及時響應資源需求來進行擴縮容,確保‘有限的資源用在刀刃上’。”

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

19天備戰、近萬人研發協同、最終達成近600個需求被快速拆分、3000多個任務被有效跟蹤、600多個上下游系統的快速交付、數百萬核資源的快速擴縮容……“很多年前,我們會去想大規模場景到底怎么去支撐;成功實踐了三四年之后,我們的心就沉下來了,感覺像‘618’、‘11.11’這種場景對我們來說也毫無壓力。現在碰到春晚這樣極具挑戰的事兒,感覺又重新激發了我們追求極致的那股干勁兒!”備戰團隊沈建林向我們講述。

三、以少勝多、以簡馭繁?京東云如何煉就“變形金剛”?

實際上京東云面對的并不僅僅是“新戰場”,更是一塊檢驗底層云技術的試金石。短短19天的時間內,面對如此復雜的場景要求,通過大規模擴充服務器資源基本是不可能的事兒,這是一場“以少勝多”的技術仗。

在早幾年春晚紅包互動中,大部分企業還是會選擇新增大量服務器的傳統方法做相應活動的籌備支持,但今年京東云選擇在不增加資源的情況下,僅僅就是通過之前“618”以及“11.11”的資源在內部快速騰挪以及擴容,從而省去額外購置上萬臺服務器的成本。

“以前大家提到云,往往是像自來水一樣堆算力、存儲和網絡資源,而當下云技術的核心則聚焦在資源于不同場景中的靈活調度。”本次春晚紅包互動項目,京東云正是展現出其“變形金剛”般的云資源部署調度能力,能夠根據場景不同來快速“變身”,滿足不同的任務需求。

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

「靈活敏捷,這是“變形金剛”的顯著特征」備戰團隊除了通過“流量地圖”精準預測和引導流量來完成資源靈活布局之外,還依靠混合云操作系統云艦實現資源秒級調度,做到最優的集群調度以及一次作業調度,確保全局資源編排和成本最優、系統運行最穩。

其中云艦內嵌的智能調度系統,充分利用了機器學習、深度學習智能算法,對應用的資源使用情況進行預測,彈性地對資源進行優化。同時針對本次春晚紅包互動還采用了超大規模離在線混部技術,可實現錯峰的數據計算功能,實現有限資源的高效率充分利用,讓算力發揮最大價值。

值得一提的是,春晚紅包互動場景的主要難點在于“紅包+消費”疊加帶來的全鏈路復雜度,為此團隊制定了分級標準(SABC)達成資源的最優調配,確保在互動過程中高優先級的應用系統盡量多的得到資源使用機會,做到“更少資源辦大事兒”。

所以在主持人口播之時,京東云快速將系統資源調整到“春晚互動”模式,資源全面向春晚紅包互動涉及的鏈路傾斜;在口播結束一段時間,搶紅包的洪峰退潮之后,再迅速切換為“年貨春運”模式,即支撐從前端App平臺、訂單、結算等到后端倉儲、配送等與年貨春運相關業務系統。如此互動,京東云控制超大規模計算資源極限變陣,成功實現4小時內16次秒級精準騰挪應對極限雙場景,猶如表演“大象走鋼絲”。

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

「穩定有序,這是“變形金剛”的硬核底氣」機房斷電宕機、硬盤故障、網絡連接斷開……這些故障對于 “春晚紅包互動”這個國民級活動來說簡直是”災難”。除了首創異常演練預案“劇本”為項目提供了穩定有序的支持外,在京東云打磨多年的云原生架構支持下,基于京東體系多年積累的混沌工程能力,京東云沉淀出穩定性主動管理系統云泰,可以對外輸出可見、可查、可管、可控的穩定性解決方案,提供穩定性主動測算、故障注入與演練、全鏈路壓測、紅藍對抗和基于“穩定性基線”的評分服務等核心功能,從容平穩地應對大規模復雜流量場景的挑戰。

京東云的春晚日記:691億次紅包互動背后,一個“變形金鋼”鍛造而生

「高效協同,這是“變形金剛”背后的超能戰隊」短于尋常的19天備戰時間,數十個部門參與備戰,京東如何在組織上保證敏捷協作與快速落地?其實在備戰最初,京東已經指定備戰總指揮統一協調整個京東橫跨零售、科技、物流等多個部門的所有研發團隊,召集超3000名技術人員參與了春晚項目的技術攻關與保障工作,除夕當天參與一線值守的技術保障人員近2000人,總體超萬名技術人員協同作戰。

而支持這場超大規模作戰的,就是多年來積淀而成的京東云一站式研發協同平臺“行云”,它覆蓋從需求、開發、測試、發布、運維、運營整個生命周期。“從春晚項目立項的那一刻開始,所有核心備戰人員就已經通過‘行云’知道了本次項目的戰略地位,近萬人很快對齊了目標與規劃等。”在行云平臺支持下,京東研發體系具備了整齊劃一、快速作戰的能力。

如今的京東云可通過一站式安全、高效生產體系來助力研發進行全鏈路、全方位的架構升級和精細化資源管理,做到越來越多依靠系統來確保重大節點的穩定,是快速平穩應對特殊業務場景的能力修煉,更是常態化備戰的經驗積淀。

今年春晚,常亮以及同事們都沒能和家人們除夕團聚,守在電視機前一起觀看春晚,但他們的心中卻有不一樣的喜悅。“當老百姓們都打開京東APP參與搖紅包時,我們一線人員會非常驕傲自豪,這是大家一起努力得到的成績。”

結語:一肩挑兩大極端場景 成功詮釋“中國云”力量

19天緊急備戰、超萬人春節堅守……京東云在首次不增加服務器資源的情況下獨自支持春晚互動,不依靠物理資源的堆砌而憑借先進云計算部署調度技術來實現穩定、靈活的底層資源支持,經受住了春晚互動史上最嚴酷考驗:一肩挑戰“四宗最”——最短備戰時間、最長流量沖擊周期、世界上規模最大的網絡互動活動、全球最復雜春晚紅包互動場景。

從 “春晚紅包互動” 到“春節不打烊”,從拼搶資源到修煉敏捷靈活的調度能力,從流量爭奪到實體消費驅動,本次春晚紅包互動不僅是一場全民線上線下的狂歡,還用一場“國民級”活動丈量了“中國云”力量;不僅了改變春晚互動紅包的玩法,更是將線上盛會與線下消費無縫鏈接起來的首次:為互動帶來美好體驗,更將落腳點深深扎根實體消費增長上。

春晚流量洪峰的背后,是以全國“年貨春運”中零售和物流等整體供應鏈履約為代表的龐大而復雜的世界級的供應鏈應用場景,涉及前端App平臺、訂單、結算、支付、搜索、推薦,到后端的倉儲、配送、客服、售后等多種業務系統。可以說,依靠多年在業務場景淬煉而成的“云鏈一體”高響應、高敏捷能力,京東云做到了從單純“上云”滿足業務需求,到“更用好云”提升創新效能的示范,不僅僅展現了云計算硬核技術實力,更能夠看作是行業創新發展的一道光,熠熠生輝。