智東西(公眾號:zhidxcom)
編輯 | 李水青
智東西6月21日消息,近日GTIC 2021嵌入式AI創新峰會在北京圓滿收官!在這場全天座無虛席、全網直播觀看人數逾150萬次的高規格AI產業峰會上,來自產業鏈上下游的16位大佬共聚一堂,圍繞嵌入式AI的軟硬件生態創新、家居AIoT、移動機器人和工業制造產業4大版塊地圖,帶來了深入淺出的分享。
會上,極智嘉研發總監陳超帶來了題為《物流機器人視覺感知技術的挑戰與創新》的演講。演講主要包含三部分:物流與物流機器人,倉儲與工業兩種不同場景下物流機器人在視覺方面面臨的挑戰與解法。
物流行業是一個巨大市場,但行業長期面臨用人難、市場需求變化快等痛點。物流機器人在這樣的背景下應運而生,目前已經演化出智能分揀、智能搬運、智能叉車、智能倉儲等多場景的產品形態,并在眾多實際場景中落地。
陳超回顧,在極智嘉物流機器人落地行業過程中,在視覺感知技術方面克服了眾多挑戰。
在倉儲AMR移動機器人領域,場景相對簡單,主要包括貨架到人的揀選和貨箱到人的揀選兩大場景。針對用于導航的地面二維碼,團隊遇到了污損/反光、運動模糊等問題,以及成本降低的訴求。為此,極智嘉在最新機器人上引入了基于地紋融合的V1.5,彌補二維碼易污損的問題;更進一步,極智嘉基于Marker-Net的V2.0解決方案將故障率降低兩個數量級。
在工業AMR移動機器人領域,面臨的場景和挑戰也更加復雜多樣。比如,針對行業樣本少的問題,極智嘉采取學習仿真方案,快速擴充樣本;針對未知目標檢測問題,極智嘉引入深度相機,使得深度學習模型有機結合深度數據,提高目標檢測性能。
而針對魯棒性要求高的問題,極智嘉采用復合模型方法;面對高動態場景下的定位難題,采用地圖更新和語義地圖,從而保證機器人長期穩定運行;針對端側設備低算力的問題,極智嘉通過算法優化及加速引擎來突破算力限制。
可以看到,作為自2015年就成立的物流機器人頭部企業,極智嘉已經針對倉儲及工業特定應用場景,攻克了嵌入式AI開發的一座座山頭。
我們將陳超演講實錄整理為以下三部分:
一、物流行業占GDP超10%,物流機器人應運而生
關于物流,除了普通消費者經常接觸到的快遞物流之外,還包括倉儲物流、工廠物流等細分的物流場景。物流是一個非常龐雜的復合型產業,在GDP中占比超10%,可以說物流為整個社會的生產生活物資供應提供了保障。
近年來物流業面臨著挑戰:首先是用人難的問題。其實每個人的身邊都可以明顯感覺到這些年來整個社會的老齡化與少子化的趨勢。適齡勞動人口正在逐漸減少,與此同時,現在的年輕人也更傾向于去大城市從事服務型的工作,不愿意下到工廠倉庫里面做一些底層枯燥的物流類的工作,給物流相關企業的招聘造成一定的困難。
另一方面,物流業變化快。隨著整個經濟的發展,居民的消費升級目前大規模標準的工業化生產產品越來越少,更多是高度定制化、個性化的小批量產品生產,現在產品的迭代速度更快,升級更頻繁,對于供應鏈提出新的挑戰。

物流機器人在這樣的背景下應運而生。
由于物流涉及的面比較廣,在不同的環節、方面也會有不同的機器人和解決方案。(物流機器人)主要用在一些快遞領域的智能分揀、電商倉庫里的智能揀選,還有制造業產線上的智能搬運機器人、智能叉車,集成解決方案智能倉和智慧工廠……下面,我們通過具體的機器人了解一下。
極智嘉的產品全家福,涵蓋了絕大多數物流機器人的品類。包括前排的低矮潛伏式的揀選機器人和搬運式機器人,以及中間的分揀機器人和料箱揀選機器人,以及后排高大的無人叉車、人機協作機器人、帶有機械臂的復合機器人。

在忙碌工作的機器人背后,是一套基于云邊端的系統架構。
首先在最底層的端側,是機器人的本體,包含視覺感知、定位、PNC等軟件的算法;中間的邊緣服務器端,運行RMS負責機器人任務的調度和路徑規劃;最上層的云端部署WMS、ERP系統和客戶的業務進行對接。
正是基于這么一套云邊端架構,(我們)保證了物流機器人穩定高效運行。
二、倉儲場景:視覺識別精度要提升,降本需求大
對物流機器人系統有初步了解之后,看一下視覺感知的挑戰和應對。
首先在倉儲場景,目前應用較多的是:1、貨架到人揀選;2、貨箱到人的揀選。
“貨到人揀選模式”改變了傳統揀選中人找貨的工作方式——由RMS下發指令,機器人運行到特定的位置處,將對應的貨架或者特定的料箱搬運到揀選工位處,由人工完成揀選。在這個環節中,作業員已經不需要穿梭貨架尋找貨物,新的揀選模式大幅降低了揀選員的勞動強度,同時明顯降低了揀選的錯誤率,使整體的效率有2~3倍的提升。

揀選機器人是怎么定位的?細心的朋友已經看到了,視頻里面在地面上網格化密布了一些二維碼,在機器人底部裝有攝像頭,通過攝像頭拍攝二維碼進行定位,這和平時手機掃碼原理很相似。
由于二維碼部署在地面上,有一些特殊之處,容易受到污損。在倉庫的場景下經常會有一些拖車料車運行,倉庫里面定期進行清潔維護,用功率非常大的清洗機,都會對地面二維碼造成損傷。
另外一方面,機器人運行速度超過2~3米/秒,鏡頭距地面距離非常近,單位時間內物體滑過的像素數比較多,圖象模糊的情況比較嚴重。另外,低成本,也是受到前端市場方面的激烈競爭,(市場)對揀選類的機器人的傳感器、計算芯片等提出降成本的訴求。
針對前面的問題,我們做了一些技術和產品的迭代。早先的版本里面選用了非常低成本的異構SoC(系統級芯片),將我們傳統的基于幾何特征的算法用FPGA優化加速,最終實現比較優異的性能價格比和性能功耗比。
針對二維碼的污損問題,同時也為了減少二維碼在場景中的部署,(我們)引入了地紋。仔細觀察會發現,地面其實有非常細小的紋理,都是獨一無二的ID,可以用來做定位,和二維碼上面的碼值是類似的。
由于地紋的特殊性,(我們)采用一系列變換來提取地紋Global Feature,建立地圖定位。當然地紋有一定的局限性,對于工廠的環氧地面、一些高亮瓷磚地面等都無法使用。
(我們)在最新的機器人上通過在機器人前端部署平視相機,后端采用神經網絡的方法Markernet極大地拓展了二維碼檢測能力。之前我們的攝像機是朝下拍攝的,視野范圍非常小,機器人稍微走偏一點點,幾厘米、十幾厘米就會發生定位的丟失。現在依托于前視攝像頭能夠在更大的范圍內檢測二維碼,進行重定位,使故障率降低了兩個數量級。
很多朋友會問,為什么對于二維碼有著明顯幾何特征或者人工設計的物體,為什么采用網絡的方法?
相對傳統的手機掃碼也好或者之前的機器人下視二維碼檢測的方式,現在二維碼需要在更大范圍更小的角度去檢測模糊污損的二維碼,基于數據驅動模型的方法超過了傳統的人工設計特征的方法。
借助靈活相機的部署還有后端智能算法,極大地拓展了二維碼在場景中的使用范圍,可以拓展到側面的貨架或者天花板或者場景中的幾乎任何地方。這是在物流港口集裝箱里面做的測試,可以在非常黑暗的環境中進行二維碼的檢測識別。
三、工業場景:應對更復雜場景,建立仿真方案
在工業場景下,物流機器人視覺感知面臨的挑戰和應對,相對之前提到的倉儲環境,作業環節更多,涉及的面更廣。
工業場景中,不同場景下對應有不同形態的機器人,包括左邊的滾筒搬運機器人、頂升搬運,還有機械臂負荷機器人和智能叉車。工業場景下需求多樣、場景復雜,而不同的機器人在處理不同作業任務的時候會面臨著不同的挑戰,下面具體來了解一下。

首先,樣本少。以復合型機器人為例,做末端的抓取當中面臨著超過十萬種商品的檢測和識別,不同于像無人車這種應用,在工業領域很少有能在公開數據集上找到相應的樣本供我們訓練。同時,工業客戶對數據的隱私性有一定的要求,也限制了一些樣本的采集。

我們采用仿真+學習的方案。以托盤為例,托盤是在整個物流場景下廣泛使用的載具,托盤有很多種類,有歐標、國標還有非標,有各種不同的顏色、形狀、尺寸、材質,甚至某些客戶就地取材,用原材料臨時組裝成類似托盤的物品。利用仿真引擎快速搭建單目標的效果圖,可以對它進行不同的光照、顏色、位置的渲染,快速擴充我們的樣本。對于某些應用,我們可以做到全場景的仿真。對于工業場景下之前已經積累的一些數據還有已經訓練好的模型利用Few Shots learning,Transfer Learning快速開發、適配一些新應用。
未知目標檢測,目標的種類比較多,一些異常檢測或者障礙物檢測無法窮盡被測目標,我們不知道前面掉的是產線上的扳手或者一個零件,也可能是一個鼠標或者電池,基于傳統的深度模型的方法過度依賴于之前的樣本,面對從來沒有見過的物品檢測的時候,性能有比較大的下降。

我們引入深度學習的方法有機結合深度數據和RGB數據進行檢測。深度相機的種類非常多,包括Stereo camera、TOF camera、Structure Light camera等,根據不同的檢測距離、精度要求選擇相應的傳感器。我們選用Stereo camera進行障礙物檢測,它輸出的深度圖和灰度圖在像素層面上是天然對齊的,為后面的進一步信息融合奠定非常好的。
以深度為主的檢測方法不太依賴之前建立的模型,對于未曾見過的目標有比較好的檢測效果,我們機器人上使用的是成本非常廉價的深度傳感器,不像激光雷達有那么高的距離精度,對于低矮細小的物體,深度的數據可用性大幅降低,對于很遠的物體,深度圖從原理上退化成2D圖,需要結合RGB的數據進行檢測。
工業場景下出于對于安全性、效率的要求,對其相關的設備魯棒性要求非常高,以叉車為例,叉車的負載能力非常強,破壞性非常大,錯誤的檢測會對物品、人員造成非常大的傷害,我們采用復合模型的方法,通過復合模型把深度學習方法和領域知識結合在一起。一方面我們快速地輸出物體潛在的檢測物體,另外一方面托盤檢測或者某些料箱檢測來說,我們知道檢測的是什么目標,就可以利用先驗模型走一個網絡校驗,得到魯棒性更高準確性更高的結果。

高動態場景下的定位,和基于地面上的二維碼進行定位的倉儲機器人不同,,工業上更多的使用SLAM機器人。SLAM是利用傳感器對環境進行觀測建立地圖進而進行定位的技術,這和人眼觀測整個場景,根據這些視覺地標定位的原理是很相似的。基于SLAM定位有一些優點,不需要對場景進行改造,不需要鋪設那么多二維碼,實施起來更加便捷,行走線路不是網格化,而是走任意軌跡。SLAM機器人由于靈活性,更符合柔性制造的產業客戶需求,在制造業得到了廣泛的應用。

基于SLAM定位有一個非常大的挑戰,就是高動態環境下定位丟失的問題。例如產線上的料箱會隨著作業時間的變化而發生改變,當機器人去取料箱的時候,還有10個箱子,當它放回來的時候只剩下2個,場景的變化就會造成機器人定位失敗,相當于拿著舊地圖去看路尋路,大概率會失敗。
我們采取地圖更新和語義地圖的方案,基于剛才提到的云邊端的架構,賦予每個端側機器人檢測變化的能力,當發現與地圖無法良好匹配的時候,把數據上傳到邊緣服務器。邊緣端能夠綜合多臺機器人搜集到的數據,根據之前的靜態參考地圖進行判斷,進行地圖的融合更新,將融合好的地圖下發到每個機器人那里,這樣機器人可以利用最新的地圖進行定位。
語義地圖,在網絡中檢測一些物體,識別動靜態特性,比如人、料車是可移動的,不能作為地標從地圖里面去除掉,對于某些重型設備是可移動的,移動頻率非常低,在地圖里面降低它的置信度,地面的標線、墻面、柱子等等是高靜態物體,增加它在地圖里的置信度。相比傳統的基于特征點的定位,基于語義目標的定位,精度可能略微低一點,但魯棒性非常高,甚至可以基于整個場景中的一個物體就能夠對整個機器人的位置進行部分或者全部約束,從而保證機器人的順暢運行。
低算力的挑戰,受限于價格、體積、功耗等一系列方面的因素,我們在端側設備上不可能使用高性能的計算芯片,我們做的是在算法和軟件層面進行優化。對于網絡模型,在數值計算層面,在網絡本身的結構上,在整個檢測流程方面進行優化。另一方面利用各大硬件廠商所提供的配套優化和推理引擎來對我們的算法進行優化部署。以OpenVINO為例,在服務器端進行量化調優剪枝,經過優化的模型通過IE引擎部署到低算力的計算平臺上。英特爾的OpenVINO能夠充分挖掘整個處理器中不僅僅是CPU,還包含其它的計算單元,特別是集成顯卡的算力,更加充分利用了片上資源。

今天就聊到這里,我們非常期待與各位同行和合作伙伴一起來探討視覺AI技術在物流行業的應用,共同打造智能機器人,讓物流變得更簡單。謝謝大家!
以上是陳超演講內容的完整整理。