智東西(公眾號:zhidxcom)
作者 | 三北
編輯 | 漠影
智東西4月2日報道,當前,大模型技術正在加速滲透到行業數字化進程中,賦能新的應用場景,為各行各業創造價值。
近期,在北京市召開的人工智能企業代表座談會上,曠視科技聯合創始人、CEO印奇表示,曠視將基于對行業的深入理解,推動多模態大模型的技術創新和行業應用。同時,曠視將發揮在軟硬結合方面的優勢,圍繞“大模型+機器人”的發展方向,推動人工智能為實體產業創造更大價值。

曠視布局大模型的實際進展如何?公司高層對大模型研發和產業落地有什么樣的見解?智東西獲悉,多模態、行業大模型和具身智能,是曠視圍繞大模型進行布局的一個主邏輯。
當下正值新的AI視覺浪潮興起,從去年爆火的ChatGPT到今年的Sora,從機器人Figure01的誕生到呼之欲出的GPT-5,產業的關注重心正從文本轉向視覺,從單模態轉向多模態。
作為深耕深度學習技術超十年的曠視科技,也正從一家AI視覺公司,進化成一家多模態大模型公司。
在業內不少人士看來,當下AI發展脈絡可分為AI 1.0及AI 2.0,但印奇認為,AI的演進是一個連續的過程。從CNN、ResNet到Transformer,在上面的視覺、語音、NLP,都在從獨立發展走向融合,從量變走向質變。
按照印奇的規劃,曠視將面向AGI(通用人工智能)目標,基于其在視覺模型及軟硬結合方面的優勢,聚焦多模態大模型領域,逐步實現具身智能的價值主張;同時基于行業大模型,堅定走通2B(面向企業的)商業變現路徑。
一、AI視覺擁抱“大一統”,曠視駛向多模態
盡管視頻生成模型Sora風靡全球,但AI視頻領域的頭部國產玩家曠視志不在此。
OpenAI做的Sora是它們走向AGI的一個很重要的技術節點,隨之產生了文生視頻潛在應用,但更多是為了推動GPT-5。因此,重點是要理解其底層的技術框架,而不是Sora應用本身。
同時,在圖像視頻的領域,要將“生成”和“理解”分開來看。如果將Sora作為獨立應用來看的話,它聚焦視覺生成領域,核心應用場景更偏C端;曠視聚焦視覺感知和理解側,其多模態大模型是一個對圖片、視頻、文字等各種模態綜合識別理解和做邏輯推理的引擎。因此,曠視不會去做Sora,不會涉足太多生成式AI領域,而是專注于理解能力上,面向2B業務打造行業應用。
基于這樣的考慮,曠視對自己的定位是打造數十億至數百億參數之間的多模態大模型。
曠視在視覺模型領域的多年積累,是其打造多模態大模型的基礎。同時,數十億至數百億參數規模屬于中大型模型,已具備較好的通用屬性,且在行業部署成本、硬件適配度等方面是一個較好的區間。
當前,視覺模型領域呈現出“大”和“統一”的趨勢。“大”意味著大數據、大算力和大參數量,“統一”體現在NLP、視覺、語音等模態的融合,以及感知、理解和生成能力的融合。印奇表示,曠視做多模態大模型,本質上在視覺走向大一統路徑的背景下,補全了語言模型方面的能力,并把它們結合在一起,以符合現在這種多模態大模型新的技術趨勢。
本質上,曠視正在從一家AI視覺公司,進化成一家多模態大模型公司。
從視覺大模型,到生物識別、計算攝影、自動駕駛等垂類算法,是曠視近十年來長期投入研發的領域。曠視本身在關于視覺的技術、數據和底層框架上都擁有很深的積累,并在此基礎上補齊了在語言方面的能力,布局多模態大模型,是順理成章的。
從資源投入角度來看,曠視研究院目前聚焦兩大方向:一是堅定投入多模態大模型的研發,二是做機器人和大模型的結合。曠視已從傳統意義上基于AI視覺的垂類算法研發,進化到了與大模型深度結合的研發賽道。
縱觀當下多模態大模產業,市面上主要有三類玩家,分別是從文本、從視頻或是直接從多模態,切入多模態大模型領域做技術研發和落地。
業內人士告訴智東西,圖像是一個比文本更難的問題,因此曠視從視覺模型切入多模態,或許要比市面上的文本模型玩家切入多模態更容易。
二、聚焦行業大模型,企業共創抵達“最后一公里”
當下我國大模型發展如火如荼,已居于全球大模型發展前列。但同時,大模型產業仍面臨數據、人才、安全等方面挑戰,與全球最先進水平存在較大差距。
在這種背景下,發展行業大模型成為一條可能的捷徑。
曠視科技是這一觀點的支持者。基礎大模型與行業結合,是要讓大模型在高價值的行業里不斷迭代和進化。
一方面,大模型已經能夠解決不少的需求碎片化問題。據悉,曠視目前大量行業客戶的需求都可以用大模型解決,包括知識庫、文案總結、圖像視頻事件分析等多個方面。比如,有客戶提出通過大量視頻監測火情等情況,支持用自然語言描述進行系統交互;有客戶提出建立支持文檔、法條、行業經驗等搜索的知識庫,這些場景都可以通過大模型技術來實現降本增效。
另一方面,要讓大模型真正攻破“最后一公里”并不容易,還需要在行業大模型上下功夫。為此,曠視基于自研可控的基礎大模型,疊加行業里面的數據閉環,去打造行業垂直模型。
如何讓大模型攻破行業落地的“最后一公里”?
按照印奇的觀點,第一步,是要把基礎模型疊加行業知識,讓它變成金融模型、運營商模型等。因為基礎大模型基本上無法覆蓋這些行業本身的語料和數據;第二步,行業大模型需要與行業中的場景和終端聯動,這就意味著在云端大模型以外,還需要配套一個能在端側實現部署的附屬模型。
曠視主張通過行業共創發展行業大模型。在行業大模型落地的過程中,大模型企業需要與行業從業者坐在一起,通過梳理需求并評估技術可行性,確保業務價值大于技術實施成本。
基于多年在AIoT(智能物聯)行業的積累,曠視從深度行業理解、商業化積累和軟硬結合技術三大方面建立布局行業大模型的護城河。
1、深度理解行業。做行業模型,需要以行業真正深度的行業應用和場景理解為驅動,才能不光是做一個簡單的技術中臺,或者是一個PaaS層,更重要的是要做到行業有價值的行業應用層和SaaS層。
2、商業客戶及經驗積累。大模型的行業落地強調產品和商業化“一體兩面”,只有擁有非常好的行業、客戶和商業化能力資源積累,才能持續在行業里做迭代。
3、軟硬結合技術積累。大模型與行業的結合往往需要大模型的云側和端側的聯動,也就是軟硬結合。曠視多年來積累的“云+端”技術能力,也會幫助行業大模型的產業化落地。
總的來說,要真正將行業大模型的商業模式打磨出來,一定不是簡單拿開源模型改一改就行了,還要有端到端的大模型能力,打造能基于行業需求靈活調節的大模型。
同時,行業大模型的本質上還是要以客戶為中心,只有真的在行業浸泡很長時間,找到行業痛點,且能讓需求方和供應方同時獲得收益,才能讓行業大模型成功抵達“最后一公里”。
三、軟硬結合,布局“大模型+機器人”
如果說行業大模型是曠視的現在,那么“大模型+機器人”就是曠視的未來。
在過去十年里,曠視已將AI落地到了智慧城市、智能制造、智慧物流、消費電子等多個行業,這些都可能是未來機器人的核心應用場景。在這個領域布局行業大模型將為曠視提供自我造血能力,從而支持其進一步探索“大模型+機器人”的研發與落地。
印奇表示,曠視的發展歷史清晰地表明,最初其專注于傳感器和其運動部件,這些可以看作是機器人的“眼睛”。隨后,曠視在物流領域開發了類似機器人“腿”的自動化系統。
目前,曠視正在預研機器人的“手臂”,包括工業機械臂和靈巧手。未來,曠視期望將眼、手、腳三者結合,打造泛機器人產品。
當前,曠視科技的重點有兩個:一是物流領域的機器人,它們在搬運和腿部功能上表現出色;二是輔助和自動駕駛領域,曠視將提供核心的感知-決策-控制系統部件。
按照曠視的規劃,其“大模型+機器人”戰略是將愿景與能力結合,追求AGI(通用人工智能)和機器人技術,以實現與人類生活的深度互動和世界本質的美好變化。
在商業模式上,AI與新硬件結合帶來巨大商業機會,類比從PC到手機的變革,機器人行業潛力巨大。技術發展需長期積累和成本控制,實現規模化推廣。曠視致力于軟硬結合和商業化,通過短期盈利閉環逐步擴大商業規模,目標成為AI機器人領域的全球領先企業。
結語:視覺走向大一統,曠視推動多模態落地行業
當下,隨著AI成為發展新質生產力的重要引擎,AI視覺技術也正走向新的大一統。透過曠視科技在大模型領域的布局,我們看到視覺大模型正與文本模型加快融合,從而進入多模態大模型新階段。
布局行業大模型是當下我國“AI+”發展的有效路徑之一。在過去的十幾年的時間里,曠視從技術長期堅持、迭代演進到商業模式不斷探索,其技術積累及經驗教訓都有望促進其在行業大模型落地中,與企業共創攻破“最后一公里”。