智東西(公眾號:zhidxcom)
作者 | ZeR0
編輯 | 漠影

智東西7月29日報道,7月28日,世界人工智能大會WAIC 2025期間,在由中國信息通信研究院舉辦的“大模型智塑全球產業新秩序論壇”上,螞蟻集團大模型安全解決方案“蟻天鑒”宣布升級,新增智能體(AI Agent)安全評測工具,具備Agent對齊、mcp安全掃描、智能體安全掃描、零信任防御等四大核心功能。

AI領域正從大模型時代邁向智能體時代。智能體不僅具備對話生成能力,還擁有自主規劃、跨領域推理,甚至能做出超越人類理解的決策,AI已進入“行動”階段。然而,智能體的越權、過度代理等問題也帶來了安全挑戰。

數據顯示,超過70%的智能體從業者擔憂AI幻覺與錯誤決策、數據泄露等問題,因為AI生成的內容往往包含事實錯誤,或者對指令產生誤解,其中超半數受訪者表示,所在企業尚未設立明確的智能體安全負責人。

世界數字科學院(WDTA)最新發布《AI智能體運行安全測試標準》提出將輸入輸出、大模型、RAG、記憶和工具五個關鍵鏈路與運行環境對應起來,分析智能體全鏈路風險。

“蟻天鑒”為螞蟻集團聯合清華大學共同研發推出的大模型安全一體化解決方案,確保大模型技術在安全可靠的環境中發揮效能,打造AI大模型的安全鎧甲。“蟻天鑒”新增的智能體安全評測功能,正與WDTA標準框架契合。

螞蟻集團“蟻天鑒”升級,新增智能體安全評測工具,提供四大核心功能

▲大模型安全解決方案“蟻天鑒”新增智能體安全評測工具

據介紹,升級的“蟻天鑒”在Agent運行階段,構建了一套智能體安全掃描系統,通過一系列專用工具來檢測Agent可能面臨的安全風險,實現端到端掃描,確保工具與Agent的交互鏈路不被篡改或繞過,為復雜環境下的穩定運行提供可驗證的安全基線。

目前,“蟻天鑒”的風險研判Agent準確率可以達到96%以上,并可支持11個行業的智能體測試

MCP安全掃描功能,是行業內首個對外發布的MCP安全掃描工具,可自動化識別AI工具集成與數據交換鏈路中的安全漏洞及風險行為,覆蓋工具投毒攻擊、間接提示詞注入、惡意代碼注入等3大類共10項子類風險。

此外,其Agent對齊功能集成了高效工具調用、敏感雙重驗證、多通道惡意識別及沙盒環境訓練,確保智能體的決策、行為與開發者預設目標、價值觀及倫理道德保持一致。

通過深度理解智能體服務上下文與風險情境,“蟻天鑒”還可對每一次調用進行內容、鏈路、行為、權限、組件、來源、身份七層校驗,并依據策略引擎動態決策放行、降級或阻斷,實現 “永不信任,始終驗證”的零信任動態防御

“蟻天鑒”2.0在去年的世界人工智能大會上發布,形成了包括大模型基礎設施測評、大模型X光測評、應用安全測評、AIGC濫用檢測、證件偽造檢測、圍欄防御等在內的完整技術鏈條,面向行業提供全方位智能化的大模型安全測評和防御解決方案。

螞蟻集團機器智能部總經理、安全實驗室首席科學家王維強談道:“升級的‘蟻天鑒’基于‘以攻促防’的安全理念,通過構建‘對齊-掃描-防御’技術棧,形成全流程防護體系,從而為智能體提供風險掃描與實時防御能力,我們也將與行業共建,未來逐步開源開放安全工具。”