隨著互聯網+、 云、 5G、 4K、 VR 等新業務和新技術蓬勃發展, 數字經濟下新的價值體系正在重建, 用戶體驗要求越來越高, 網絡規模越來越大。 Ovum 分析報告顯示, 過去 10 年電信行業收入增長低于 OPEX增長, OPEX 在電信網絡 TCO(總體擁有成本) 的占比從 62%上升到 75%, 平均每 1 萬臺設備運營維護需要300 名工程師。

對數據和信息的掌控能力是運營商數字化轉型的重要基礎, AI 技術的蓬勃發展為運營商數字化轉型帶來了新的可能。 利用 AI 強大的數據分析和信息提取能力, 通過對海量網絡數據采集、 分析、 預測、 決策,為運營商診斷網絡質量, 優化業務性能, 減輕運營負擔, 改善用戶體驗帶來無限可能。 運營商網絡引入 AI是數字化轉型的必然方向。

本期的智能內參,我們推薦中國移動的報告《光網絡人工智能(AI)應用白皮書》, 闡述AI在光網絡領域的總體架構和關鍵技術

來源 中國移動

原標題:

《光網絡人工智能(AI)應用白皮書》

作者:?未注明

一、 光網絡 AI 應用場景

1、 AI 分析類場景

同纜風險智能識別場景光纜啞資源長期缺乏有效監控、 運維手段, 主備業務或關聯業務實際部署到同一條光纜上并不鮮見,單條光纜中斷后主備業務或關聯業務同時失效, 不僅導致業務中斷, 而且部分網絡成為孤島缺乏遠程應對手段。 以人工巡線、 人工錄入方式維護同纜信息, 隨著網絡不斷變更和演進, 綜合資源管理系統同纜信息數據不夠準確, 不足以支撐精準識別同纜, 效率和識別準確度較低, 亟需引入 AI 技術, 智能識別主備業務、 關聯業務是否存在同纜風險,保障網絡高可靠運行。

光纜拓撲智能規劃場景網絡規劃與業務發展脫節, 造成網絡負載不均、 資源利用效率低下、 資源需求冷熱不均, 根因是網絡拓撲已經無法匹配業務流量流向變化, 基于業務精準預測反向優化網絡拓撲, 通過適量加纖加纜, 實現網絡承載能力倍增, 適應業務變化和發展需要。

業務故障智能定位定界場景秒級、 毫秒級甚至微秒級業務閃斷發生頻次高, 但持續時間短, 無告警上報, 且故障很難復現, 基本靠用戶投訴, 人工定位和回溯困難, 嚴重影響客戶感知和運營商口碑。 同時, 用戶卡、 慢、 斷體驗差與應用、 帶寬、 連接多個維度緊密相關, 根因定位定界涉及大量網絡數據, 人工分析效率很低, 大多數用戶業務體驗問題難以根治。 迫切需要引入 AI 技術, 提升光網絡瞬態變化感知精度, 實現性能瞬變監測和閃斷智能定界定位, 實現用戶體驗差根因的高效定位定界。

2、 AI 預測類場景

光網資源預測場景隨著專線業務的快速發展, 業務發放效率成為運營商的核心競爭力, 而傳統的三滾資源規劃很難適應專線的隨機性和突發性, 當前運營商對網絡投資收緊加大了資源精準預留、 業務快速發放的難度。 引入 AI智能資源預測, 結合歷史業務增長趨勢, 實現資源高效利用, 業務發放“零” 等待。

光網健康預測場景。 光網絡的性能劣化、 隱患變故障是漸進式發展的, 基于閾值的人工判斷方式難以識別, 故障一旦發生, 經常導致大量業務中斷、 修復周期過長等挑戰。 隨著光網絡承載的業務流量增長, 維護壓力與日俱增, 迫切需要引入 AI 智能識別網絡健康、 提前預測風險。

光波長通道余量預測場景。 隨著數字化經濟的發展, 光網絡上波長增加明顯提速, 同時為了增加網絡可靠性引入 ASON 智能路由調整, 使得網絡中頻繁加掉波, 從而對現有波長性能產生影響, 而當前人工方式工作量大, 效率低, 精度差。 引入 AI 智能余量預測, 自動對波長余量進行動態仿真, 精準模擬加掉波對現有波長的性能余量變化和劣化根因分析, 為精準調測提供保障。

3、 AI 優化類場景

光性能智能調測調優場景。 一二干融合、 省本一體化、 區域干線驅動網絡組網規模擴大, ASON 智能路由調整加大網絡變數, 光模擬網絡面臨手工調測效率低、 出錯概率高、 效果不可控。 引入 AI 智能優化調測步驟, 結合自動性能檢測,實時監控關聯路徑的性能, 保障網絡處于穩定、 較優狀態。

光網絡資源智能優化場景。 為適應動態的業務變化、 保障網絡性能指標時刻處于最優并發掘網絡利用潛能, 需要對波長、 鏈路和路由實施動態優化。 以往各類傳輸優化工具或軟件主要借助固化的方法和簡單的規則, 甚至依賴工程師的經驗來完成優化, 并未識別到本質特征、 考慮維度簡單、 相關性分析不足、 局部而非全局, 所以優化的結果往往不是普遍有效。 如今隨著網絡規模和業務規模的不斷擴大, 傳統優化方式難堪重任, 需要引入人工智能來完成整個傳輸網生命周期內的精細化、 動態化、 智能化的優化。

切片智能優化調度場景。 8K 視頻業務, VR/云游戲等高清視頻類業務強交互、 高并發, 與傳統上網、 語音等弱交互、 統計復用業務相比, 對網絡帶寬、 時延、 丟包率等要求迥異, 需要為此類新興業務預留獨立的資源以保障業務體驗,依賴人工根據業務變化動態調整資源分配基本不可行, 引入 AI 智能的切片調度, 保障不同業務的差異化體驗需求。

二、 光網絡 AI 關鍵實現技術

面向光網絡啞資源數智化管理、 網絡數智化分析需求, 通過引入AI和數字化技術, 提出光網絡AI應用解決方案, 推進網絡運維數智化轉型, 實現運維提質增效, 牽引網絡技術變革。

 光網絡AI應用解決方案架構可以為運營商提供啞資源管理、 智能規劃、 智能運營、 智能維護和智能優化等AI應用, 實現全生命周期自動化、 智能化運維, 支撐政企和家寬業務高品質發展。 整體架構圖如下圖所示。

AI時代的硬核通信技術,中國移動光網絡AI應用白皮書,顛覆三大應用場景 | 智東西內參

光網絡 AI 應用解決方案架構圖

1、 融合感知技術

光網絡感知技術面對高復雜度的多參量光網絡系統, 為了能夠全面、 精準、 實時感知光網絡狀態, 網元系統和管控系統需要從維度、 精度、 頻度等多個角度進行光 Sensor 數據的分層采集和匯聚, 并通過 AI 算法對原始光Sensor 數據進行數據挖掘, 支撐光網絡的各類業務場景。

網元設備, 分層采集:光 Sensor 技術是以光技術手段感知、 檢測多種物理量, 并將模擬物理量數字化的一種技術。 網元系統將光 Sensor 技術采集的數據進行 4 層劃分, 分層采集: 光業務層、 光部件層、 光信道層、 光鏈路層。

光業務層數據主要是客戶關注的業務屬性指標, 比如帶寬、 時延、 誤碼、 保護倒換時長等指標; 光部件層數據主要是采集光部件的物理指標, 包括功率、 溫度、 電壓、 頻偏等; 光信道層數據關注點在于信道的屬性特征, 類似信道編號、 光信噪比、 單波功率等; 光鏈路層數據集中在鏈路側的特征, 包含光纖損耗、 光纖類型、 光纖事件等。

管控系統:1) 數據匯聚: 考慮到數據存儲結構和內容的差異性, 管控系統需要將采集的數據進行分類匯聚, 可分為資源數據底座和性能數據底座。 資源數據底座匯聚的數據主要是靜態的存量數據, 比如業務存量數據、網絡拓撲存量等。 性能數據底座匯聚的數據主要的非靜態的性能數據, 比如性能、 告警、 日志等隨著網絡運行動態變化的數據。

2) 數據挖掘: 匯聚的資源和性能原始數據表達的信息量始終是有限的, 因此分析系統需要基于 AI 算法技術對光 Sensor 數據進行數據挖掘獲得額外的信息量, 用于支撐感知、 診斷、 預測、 控制等多類業務場景。

高性能數據流轉技術。 面臨光 Sensor 生產的海量數據, 需要一套靈活、 高并發的數據采集技術并確保數據高效流向管控系統。 光網絡中使用的高效流轉技術是建立網元設備內和網元設備與管控系統間的高速傳輸通道, 實施網元設備分布式本地決策和管控系統集中式智能控制兩層處理, 協同完成決策, 如下圖所示。

AI時代的硬核通信技術,中國移動光網絡AI應用白皮書,顛覆三大應用場景 | 智東西內參

高性能數據流轉架構示意圖

網元設備內高效采集: 網元設備按照數據量的大小和時間精度分為高速采集和低速采集。1) 硬件上, 在網元設備為關鍵 Sensor 開辟快速外送數據到硬件通道, 使用高速緩存區存儲多端口高精度數據(如毫秒級)。

2) 軟件上, 構建統一大采集數據框架, 抽象建模光 Sensor 數據采集項, 靈活控制多單板多端口的數據并發采集, 并使用內存共享技術高效讀寫。

網元設備與管控系統間高效傳輸:

1AI 需要更多、 更高頻次、 更精準的參量采樣, 參量上報通道帶寬訴求出現 x104級別變化, 硬件架構上需提供更大的 DCN 吞吐能力。

2) 傳統的參量查詢式響應僅適合低速、 低頻次訪問, 無法滿足 AI 海量參量上報訴求, 軟件架構需要基于訂閱式訪問機制(如 Telemetry), 用于批量參量上報, 提供高效海量數據傳輸。

網元設備與管控系統分層處理: 網元設備和管控系統間需盡量減少不必要的數據傳輸, 采用分層處理機制, 網元設備需預處理數據, 對數據進行整合(例如: 毫秒級數據提取成秒級數據) 或特征提取, 并采用數據壓縮技術降低數據傳輸量。 管控系統根據必須的網元設備級數據進行網絡級決策控制。

啞資源感知技術1) 多路暗光纖并行感知關鍵技術: 現網光纜數量龐大, 當前主要依靠人工管理, 性能不可視、 故障不可視, 管理效率和資源準確度面臨極大挑戰。 例行巡檢光纖質量, 耗時耗力、 成本高、 誤差大; 業務擴容臨時查找可用纖芯耗時長, 業務 TTM 保障難。

通過反射光信號對散射進行數字化逆向建模, 在線輪詢, 監控空閑纖芯質量, 解決空閑光纖性能監控問題, 實現多路暗光纖并行感知, 如下圖所示。

AI時代的硬核通信技術,中國移動光網絡AI應用白皮書,顛覆三大應用場景 | 智東西內參

空閑纖芯質量智能監控原理示意圖

1. 匯聚機房到云, 逐站部署, 實時監控全量芯纖質量。

2. 匯聚機房到樓, 按需預連接, 1 芯以上監控到價值樓宇, 實現點亮光纜到樓宇, 資源預覆蓋, 保障專線 TTM。

2ODN 光虹膜關鍵技術: 傳統ODN網絡采用人工管理模式, 運營商無法直觀地獲取資源和拓撲信息。 數字化ODN實現了資源層數字化管理資源和拓撲信息, 業務層管理業務的在線發放、 擴容和故障管理服務。

傳統ODN網絡采用人工管理模式, 無法直觀地獲取資源和拓撲信息, 運維困難。 數字化ODN通過光虹膜技術, 即利用不同用戶光信號相位的改變, 結合AI算法識別其連接的ODN端口, 實現了資源層的遠程數字化管理, 提升了ODN資源利用準確率, 支撐ODN故障的定界定位。 如圖4-4所示, 在以下幾方面使能ODN啞資源數字化管理:

遠程自動驗收: 遠程檢測FAT端口搜集插損數據并自動記錄到ODN管理系統中。

ODN拓撲還原: 基于ODN資源數據庫, 可以自動顯示、 恢復與更新端到端拓撲信息, 包括PON端口、主干光纖、 FAT端口、 入戶配線光纖和ONT連接。

ODN光鏈路分析: 實現端到端監控與分析光鏈路插損數據。

動態資源監控: 可以遠程自動監控FAT端口利用率。

AI時代的硬核通信技術,中國移動光網絡AI應用白皮書,顛覆三大應用場景 | 智東西內參

光虹膜技術原理示意圖

業務質量感知關鍵技術。 業務質量感知包括業務和網絡兩個方面, 實現對二層, 三層以及傳輸層時延、 丟包和抖動的監測; 通過 Telemetry 等技術實現運行數據實時訂閱上報。

業界當前的業務質量檢測/探測主要是帶外探測技術, 業務檢測/探測報文由相關功能模塊單獨發送和接收, 和用戶實際業務流共用轉發路徑, 與業務報文分離不嚴格對應, 因此探測結果與實際業務體驗有偏差。 針對這個缺點, 業界定義實現了 IOAM 等帶內探測技術。 例如在原始數據報文中增加 OAM 檢測頭, 在業務轉發路徑中根據檢測頭進行數據采集, 再通過集中處理單元計算檢測結果。 另外, 還可以通過測量業務報文的 TCP/UDP 傳輸特征, 來提取和計算報文及業務 KPI。 該方案的優勢在于可以單節點部署, 可隨流檢測連接質量。

基于以上技術采集到的數據, 大致分為體驗 KQI(卡頓率、 加載時間等) 和應用 KPI(時延、 抖動等)兩層; 體驗 KQI 可以參考行標 YDT 2691 的定義, KQI 指標一般需要在內容側和終端側直接度量, 部分應用的 KQI 也可以采用 DPI 方式進行測量, 但該方式依賴對應用層內容的解析, 定制化較強, 不具備通用性。由于體驗 KQI 和應用 KPI 通常存在定性關系, 應用 KPI 可在傳輸層進行指標建模, 不依賴于具體應用, 具有更好的通用性。

2、云地協同全棧 AI 技術

?光網絡 AI 技術研究面對模型泛化能力差、 模型部署要求算力高、 本地樣本少/標注難、 大數據管理困難等問題, 需要探索一種新的 AI 技術架構應對這些問題, 加速 AI 應用的規模部署。 新的 AI 技術架構需要滿足具有以下特點:

1) 針對模型泛化能力差問題: AI 模型應具有在線學習能力, 能夠不斷學習網絡新特征、 新變化。

2) 針對模型部署算力要求高問題: AI 模型訓練應可集中部署在算力中心或者支持分布式訓練部署。

3) 針對樣本少/標注難問題: 需要發揮群體智能, 多數據持有者之間相互貢獻數據, 為 AI 模型在線學習提供堅實數據基礎。

4) 針對大數據管理困難: 網絡數據種類多、 產生數據快, 大量網元產生的 KPI、 日志、 告警等海量數據, 需要建立專業體系化的數據治理工程。

針對光網絡多邊緣設備+中心控制的組網特點, 云地協同 AI 技術架構是解決上述挑戰的最佳解決方案。

云地協同是指云端和地端協作完成數據樣本上云、 模型狀態管理、 模型重訓練、 模型/知識下發、 擇優更新等一系列的閉環任務, 同時把云端匯集的全局網絡知識經驗、 全量數據訓練得到的高精度模型, 持續注入地端, 讓光網絡 AI 能夠進行智能迭代升級, 變得越來越聰明, 如下圖所示。

AI 服務包含數據治理服務、 模型訓練服務、 專家經驗輔助服務, 涉及運營商大量運營數據、 用戶數據、網絡數據, 對數據安全要求很高, 云端適合部署在 IT 云。 實時海量數據并發上報、 處理加劇整網壓力,在地端(包含管控系統、 網元設備) 部署分布式 AI, 就近處理本地實時海量數據。

AI時代的硬核通信技術,中國移動光網絡AI應用白皮書,顛覆三大應用場景 | 智東西內參

云地協同全棧 AI 示意圖

3、智能分析預測技術

 網絡出現問題后生成告警, 觸發故障定位和修復是當前網絡運維的普遍方式, 海量告警上報導致故障根因定位困難、 靜默故障無告警上報導致無法定位故障根因, 是根因告警分析的兩大難題。 為了進一步提升網絡可靠性和運營效率, 對網絡故障、 業務資源需求等進行提前預測, 也是當前研究的熱點問題。

智能關聯分析是光網絡根因告警分析和靜默故障定位的關鍵能力。 由于網絡數據量大、 維度多和故障模式多樣化, 且關聯影響發散, 需要精準的篩查和多維度關聯分析能力, 需要通過智能分析技術, 構建關聯模型和進行相關訓練, 實現根因告警識別和靜默故障定位。 智能資源預測和故障風險預測可提前發現資源瓶頸和故障風險, 提升業務 TTM 和業務可靠性。

光網絡智能分析預測能力需在網元和管控層面分別構筑對應的智能分析能力。 通過分層實現智能 AI分析預測能力, 基于高精度數據的短周期預測, 需在網元進行高速數據采集處理和分析預測閉環, 提升分析效率; 基于數據粒度較大的長周期預測, 可通過管控系統長周期數據采集和分析預測閉環。

AI時代的硬核通信技術,中國移動光網絡AI應用白皮書,顛覆三大應用場景 | 智東西內參

智能分析預測分層閉環示意圖

智能預測一般采用時間序列模型+訓練學習方式實現。 光網絡常見時間序列模型:

a) 差分回歸移動平均模型(ARIMA)[3-4]:在光網絡中可以利用 ARIMA 模型進行根據網絡資源預測。

b) PROPHET 模型: 該方法對歷史數據的依賴度較低, 可以在一定數據缺失的情況下, 仍能保持較好的預測效果。 光波長通道余量預測因關聯數據比較離散適用于該方法。

根據實際應用場景選擇合適的模型后, 還需要進行相應的模型訓練和參數調整, 使得在特定場景下能夠有較高的預測精度。 由于不同場景特點, 需建立對應特征的參數庫和多樣化的訓練模型樣本。

4、智能仿真決策技術

光網絡仿真能夠為網絡規劃、 設計、 配置以及網絡自優化(如網絡路徑優化、 網絡資源性能優化等)提供可靠依據, 通過對配置和優化結果下發前進行事前仿真決策, 確保配置和優化結果的自動、 準確、 可信任執行, 保障業務安全。 網絡仿真能夠有效地驗證實際方案或比較多個不同的仿真設計以及組織方案,以便于對不同的設計方案建立模型, 實施模擬, 對網絡性能預測數據采取頂定量獲取, 為設計、 配置方案的比較和驗證提供可靠的依據。

網絡仿真決策技術是一種利用數學建模和統計分析的方法模擬網絡決策行為, 通過建立網絡信息的統計模型, 模擬網絡操作執行, 獲取網絡設計及優化所需要的網絡性能數據的一種技術。 網絡仿真有三個階段: 準備階段-模型設計-仿真與結果分析。 AI 技術已經應用到網絡仿真各個階段, 在光網絡中, 智能仿真決策技術已經開始在網元、 管控系統中開始研究。

1. 網元設備中智能仿真決策的應用及關鍵技術:

在仿真的基礎準備階段, 開始構建全光參量數字孿生底座, 通過 Sensor 體系實現上報全量光參, 在線學習, 精準計算噪音、 代價、 余量等, 支撐對網元實時狀態的全量認知。

在仿真的模型設計階段, 除了對網元, 單板, 端口, 濾波器等基礎建模外, 通過離線和在線大數據學習, 對光傳輸質量進行在線建模, 比如: EDFA 模型(增益、 噪聲)、 濾波代價模型、 Raman 放大器、 BER/Q模型、 OSNR 模型、 光纖質量模型、 光模塊質量模型等。

在仿真與結果分析階段, 通過 AI 遷移學習算法、 回歸算法等實現余量動態監控以及自優化執行結果分析, 做到自動調整優化方案, 以及實時自調優。

2. 管控系統中智能仿真決策的應用及關鍵技術:

在仿真的基礎準備階段, 通過知識圖譜構建網絡運維知識庫、 圖神經網絡來預測網絡的 SLA 等技術來感知和理解網絡。

在仿真模型設計階段, 通過數字孿生網絡的五維模型, 多維模型包括基礎模型和功能模型, 多維度刻畫網絡特征, 支持網絡規劃建議以及運維優化的仿真驗證。

在仿真與結果分析階段, 根據仿真執行結果和數據, 通過從路徑/軌跡決策規劃、 行為/任務決策規劃、執行計劃決策規劃等數學建模到數學求解, 來決策仿真執行的最終效果。

智東西認為,如今人工智能的應用已無處不在,智能語音助手、人臉識別、智能家居、智能安防等都開始應用于我們生活的方方面面,而這些應用的背后離不開通信網絡的支撐。現在,人工智能技術在光網絡物理層和網絡層都獲得了初步應用嘗試;與此同時,光網絡的智能化面臨諸多挑戰,有待在算法和應用方面繼續探索!