12月5-6日,由智猩猩與智東西聯合主辦的2024中國生成式AI大會(上海站)在上海圓滿收官。在第二日主會場進行的「AI Infra峰會」上,楓清科技創始?兼CEO高雪峰以《從數據到知識:AI 重塑百行千業的基石》為主題發表了主題演講。
在演講中,高雪峰談到要將生成式AI真正應用到企業決策場景中,彌合其與決策智能之間鴻溝的技術突破點,就是利用好企業本地知識,同時將符號邏輯推理的能力和各種大模型的算法能力相融合。
隨后,高雪峰指出企業智能化的核心趨勢,正在從以模型為中心(Model-Centric)的人工智能架構落地范式,轉向以數據為中心(Data-Centric)這一新的人工智能落地范式。他總結了企業智能化面臨的四個典型困境:模型幻覺、可解釋性、推理能力弱、安全與合規;以及企業級人工智能平臺場景落地需要解決的四個技術挑戰:數據孤島、數據整合、知識校驗、實時性與時效。
為此,他在演講中表示,楓清科技可以為企業提供知識引擎與大模型雙輪驅動的新一代智能體平臺,通過構建全鏈路優化體系,幫助企業提升數據質量,將企業本地數據知識化,并融合大模型沉淀的泛化知識,在知識網絡之上進行符號邏輯推理,實現可解釋的智能,進而使AI在多個場景下能夠實現精準、透明的決策支持,推動企業智能化轉型的順利實施。
之后,他重點介紹了楓清科技助力企業智能化落地實現的兩個示例,分別是為金融企業客戶打造的智能指標問數這一示例,以及為APEC會議開發的中國-APEC數字平臺這一示例。同時,他也分享了為頭部央企提供企業級知識引擎和智能體平臺,從而推動其智能化轉型這一合作案例。
演講最后高雪峰透露,今年4月份以來楓清科技已經跟金融、化工能源、汽車制造等行業的多家頭部央企展開深入合作,進行人工智能場景平臺的落地。
以下為高雪峰的演講全文:
各位來賓,下午好!今天很開心在這與大家一起探討當下最熱的話題:如何將人工智能技術真正應用于千行百業,真正發揮其作為“新質生產力”的核心作用。。所以,我今天給大家帶來的演講題目是《從數據到知識:AI 重塑百?千業的基石》。
首先,我簡單自我介紹下,我是高雪峰,楓清科技的創始人。在創辦楓清科技之前,我曾擔任IBM認知計算解決方案研究院院長,后來加入了阿里云,負責阿里云大數據和人工智能的技術產品。我一直在在大數據、人工智能和ToB企業市場領域摸爬滾打了大概20多年。因此,在2021年創辦楓清科技時,我們一直堅持三個至今未變的原則:
1.我們在 2021 年談到未來的人工智能以及 AGI 時,就曾跟大家說,將大模型與大圖融合在一起,才能構建未來AGI的基礎。也就我們所說的,將符號邏輯推理與連接主義的概率融合在一起,才能夠構建真正的人工智能。
2.一定要以數據為中心,從數據的角度出發,構建未來人工智能的基礎平臺。
3.堅持ToB領域的深耕。這條路雖然慢,但這一領域能真正帶來實際的生產力價值和長期回報。
一、信息化到智能化:人工智能的三大階段
首先,我們來看一下人工智能的發展趨勢。

為什么我剛才說,我們在2021年與投資人、客戶交流時,都在強調“大模型與大圖的融合”才是未來通往AGI的基礎?我們可以看到,自從1956年人工智能這個概念被達特茅斯會議提出到現在,連接主義和符號主義兩種技術交替發展。任何單一技術都難以獨占鰲頭,也無法靠單獨的技術實現未來的通用人工智能。
因此,我們說深度學習,包括當下火熱的大模型,都以Transformer技術為基礎,是概率體系的典型技術代表。所以,去年大模型火爆出圈,所有人都認為連接主義、Transformer一定是未來,能夠帶來真正的智能涌現,帶來AGI。這是業界一直以來的一種聲音。
但是,當我們將生成式人工智能技術應用到企業決策場景當中時,就會發現,真正的決策智能是不可能僅由生成式智能這一單一的技術來實現的。所以,如何跨越生成式人工智能到決策智能之間的鴻溝,真正讓人工智能的技術在企業場景側發揮價值,是我們當下最需要突破的核心技術點。當下在這個領域,有非常多的技術嘗試和挑戰,包括OpenAI新推出的GPT-o1,也不再追求參數越來越大的智能涌現,而是在推理的框架側進行符號邏輯推理與概率體系的深度融合。
再看下面,為什么剛才我說,我們在堅持“以數據為核心”推動智能場景落地。可以看到,從最開始的信息化時代,到數字化時代,到我們一直堅信的未來智能化的時代,都涌現出了非常知名的數據基礎設施的體系和標準。
在信息化時代,典型的代表是關系型數據庫,涌現出了Oracle、DB2,以及一直延續到現在的NewSQL體系的關系型數據庫,這些都是在信息化時代最偉大的沉淀。
回到數字化的時代,在互聯網蓬勃發展的這些年,我們一直在強調、追求數字價值驅動企業決策。在這個時候,也涌現出了許多非常優秀的數據基礎設施產品,如數倉、數據湖、智能湖倉等,都是這個領域典型的代表。
未來,當智能場景涌現在千行百業的時候,在智能化時代,也一定會有屬于它的數據基礎設施的形態。那么,這種數據基礎設施的形態,與從生成式人工智能到決策智能之間的演進路徑,是否有天然的結合點呢?這就是我們一直在探索、研究和實踐的技術領域。
二、企業智能化趨勢:從Model-Centric轉向Data-Centric
今年4月份,國家把“人工智能+”寫進了政府工作報告當中,正式揭開了所有企業級的場景在行業中真正擁抱人工智能技術、帶來生產力變革的序幕。我們也跟很多龍頭企業、央國企展開了合作,幫助它們把包括生成式人工智能在內的多種人工智能算法和分析技術,結合企業本地的數據,在業務場景中真正發揮價值,嘗試向決策智能邁進。

在此前提之下,我們認識到,在企業業務場景當中單獨去進行模型微調,或者簡單地圍繞模型或企業數據的進行RAG檢索,很難滿足客戶在業務場景中的真正需求。
今天,我們看到海外已經有很多聲音,不再追求模型參數越來越大所產生的智能涌現。大家已經越來越少地談論這件事情,而是開始關注如何在推理框架的能力上,將符號邏輯推理能力與生成式連接主義技術融合,嘗試進行技術突破。
大家一直以來堅持的以模型為中心(Model-Centric)的人工智能架構落地的范式,在ToB的業務場景中也已經開始慢慢地轉向以數據為中心(Data-Centric)的新的人工智能落地范式。
三、企業智能化的4個現實困境與4大技術挑戰

所以,企業的智能化落地會有哪些典型的落地困境?
第一個是模型幻覺。大模型會一本正經的胡說八道。有一些我們的企業客戶跟我反饋,這叫大模型的“腦誤”。這個問題在企業決策的場景當中,是必須要解決的。
第二個是可解釋性。當企業決策智能給出決策建議或輔助建議時,缺乏透明的思考邏輯和決策依據。企業的決策者很難真正地相信這些建議并據此做出相應的行動和決策。
第三個是推理能力弱。僅靠?Transformer的概率連接主義,很難增強其推理能力,所以我們需要把符號邏輯推理的能力融入到落地的技術平臺當中。
最后一個是安全與合規性。許多企業都面臨同樣的需求:部門A與子公司A或B的數據通常不允許互通。那么,如何將這些數據全部用于大模型的微調(Fine-Tune),又能單獨為各部門和子公司提供智能決策建議呢?目前的技術無法同時滿足這兩個要求。因為只要將所有數據用于同一個大模型的微調,無論采用何種方式,都可能通過提示詞(Prompts)提取出其他部門或子公司企業的數據。因此,要確保數據安全與合規,實現對知識進行細粒度的權限控制,是企業級智能化平臺落地必須要滿足的需求。
如果想要解決剛才說的四個困境,企業級人工智能平臺落地時會遇到哪些具體的技術挑戰呢?
第一個是數據孤島。我原來在阿里的時候,負責大數據產品,也就是飛天大數據,是阿里當時非常有名的登月系統。我們把阿里所有子公司的數據全部匯聚到MaxCompute大數據平臺之上,當時耗費了18個月的時間,我們把它稱為“登月”。那么現在,對一個大型企業來說,僅將結構化數據的數據孤島全集中到一個大型數據倉庫中,就已經是一件無法完成的的任務。更別說把企業閑置的80%以上的非結構化數據與結構化數據進行匯聚或連通,這一看就是很難完成的任務。
第二個是數據整合。比如說,銀行里存儲的每個人的身份證信息,與其數據庫表中該人對應的貸款、存款等信息之間存在實際的關聯關系。那結構化數據表和非結構化數據的各種屬性之間存在隱含的知識網絡連接。所以,如何把數據整合起來,是一個非常大的挑戰。
第三個是知識校驗,如何將企業本地數據實現真正的知識化?在這里提到的不是單純的向量化,而是真正地實現數據的知識化。也就是說,如何利用企業數據,包括元數據,語義信息以及數據之間的關系等,構建出一個龐大的知識網絡。這是企業構建真正屬于自己的知識引擎必須要做到的事情,也是非常復雜的事情。
還有一個是數據的時效。通常在做決策的時候,需要依據企業最新的數據,以便智能體平臺能夠為企業做出及時決策支撐和反饋。不管是Fine-Tuning,還是預訓練,都很難滿足企業對時效性的需求。
四、Data-Centric:驅動AI場景化落地的新范式

因此,我們才提出要以數據為中心,搭建企業人工智能落地的平臺架構。
最開始,業內使用“Data-Centric(以數據為中心)”和“Model-Centric(以模型為中心)”這兩個詞,是為了研究如何使模型算法更高效、更低成本地實現收斂,達到最好的模型效果。“Model-Centric”通過不斷調整模型算法,而“Data-Centric”則通過做好本地數據的清洗和知識工程來達到最好的模型效果。在模型訓練和收斂方面,業界已普遍采用Data-Centric的方式。很多大模型的企業,在研究算法的同時,也花費了很多精力構建自己的知識引擎,構建自己的數據知識化與知識工程。
而我們在此談到的,并不是上述領域的“Model-Centric”和“Data-Centric”,而是人工智能技術在企業多場景落地的過程當中涉及的兩種架構范式:“Model-Centric”和“Data-Centric”。
此處的“Model-Centric”指的是企業部署一個或多個多模態大模型,然后通過兩種方式利用企業的本地數據:第一種是扔給模型進行Fine-Tune,讓大模型能夠體現本地數據的價值;第二種是簡單地構建基礎知識庫,通過RAG的方式補充模型沒有理解的一些本地數據。這就是以模型為中心,依然是概率體系的架構特征,并沒有從根本解決幻覺、可解釋性、推理能力等等問題。
相反,“以數據為中心”則是不一樣的架構,關注的是企業本地的數據,并將其轉化為可用的知識。當然,這種轉化也是通過智能的方式來構建。當我們需要使用大模型或多模態大模型去做內容理解的時候,就用它去做內容理解;需要給它足夠的Prompt生成一長段內容的時候,我們就用它去做內容生成;當需要對結構化數據進行簡單的數理分析時,可以用非常傳統的數據分析的方法去做結構化的數據分析。這種以本地數據知識化為核心的架構,是企業級人工智能場景落地的有效范式。這種方法已經在多家大型的頭部企業進行過驗證,是一種能夠快速將人工智能的技術應用在企業決策場景中的典型范式。
通過與多家頭部央國企的接觸,我們也觀察到,他們已經開始尋求構建整個企業或者集團的大型知識庫或知識網絡體系。當然不止自己本地的數據,也會包含外部的各種各樣的數據。我們把大模型中沉淀的知識稱之為“泛化知識”。我們要做的是搭建一個平臺,能夠把企業的本地數據知識化,然后把大模型中的泛化知識與企業本地的知識融合在一起,來推動大模型在企業多個場景中的落地。
五、從數據到知識:企業智能化的技術路徑

所以,我們具體的過程是什么呢?最開始一定是要對企業的本地多模態數據進行智能化治理,然后構建為企業的本地知識網絡,同樣要把它存儲在知識網絡里,并進行相應的多種類型的知識領域的應用。在應用的過程當中,我可能會利用大模型的能力進行內容生成或知識的構建。
在大模型出現之前,知識圖譜的構建是一件成本非常高的事情。但是有了大語言參數模型,我們可以把構建龐大的企業知識網絡的效率變得非常高。這里面涉及到很多技術細節的突破。同時,也有很多技術特點需要去解決并實現。
第一個是企業知識的表征。以前企業的本地很多各種各樣的文檔,把它向量化就可以了。但實際上,向量化的過程就是信息壓縮、特征提取的過程。但是在這,我們不是把企業本地的數據單純地壓縮或是特征提取向量化,而是把企業所有的數據,向量與向量之間關系、實體和實體之間的關系、實體和向量之間的關系等等,都構建了一個龐大的企業數據知識網絡。
在這樣的一個知識網絡里面,需要我們能夠具備融合圖向量和類似Mongo的原文數據的分布式存儲和計算的能力。
在這之上,其實我們還要能夠通過智能體平臺的方式,智能地構建不同領域的知識引擎,生成特定的Prompts來去結合不同的大模型的能力,連接大模型內部的泛化知識,最后賦能多場景價值的應用。
同時,我們的知識網絡會不斷豐富語義信息。例如在為金融客戶構建知識庫的時候,當問答系統遇到不理解的關鍵詞,我們會通過用戶反饋的方式,將這些詞的語義理解疊加到知識網絡中,使系統能夠理解新的問題,或者用戶訴求該如何滿足。
六、知識驅動:創新路徑加速大模型落地

所以,在人工智能的企業場景落地的平臺當中,我們必須要解決的核心的問題就是模型幻覺、可解釋性、推理能力、時效性和企業級安全能力。
為此,我們進行了多項技術創新,包括圖和向量的分布式存儲與計算融合、獨創的Hybrid RAG技術、知識的運維與校驗,以及針對大模型推理框架的Graph of Thoughts等前沿技術實現。這些都是我們在落地知識驅動的智能平臺落地時需要解決的問題。
下圖展示了我們如何通過圖、向量融合等技術,有效地解決了大模型幻覺、推理能力弱以及大模型數據時效性等問題:

我們當下服務的都是龍頭的央國企,即鏈主企業。通過鏈主企業,來構建對行業的影響力。
七、從AI Market Place到人工智能平臺新范式
那么,一定是通過平臺驅動的方式,來推動多智能化場景的均衡落地。下圖是我們非常典型應用的一個平臺搭建。

回到AI平臺這個詞或說這個事,我相信大家都聽過很長時間了。在上一代人工智能技術出現的時候,我們就在談AI平臺。但那時的AI平臺,是由算法、數據和應用場景以“煙囪式”堆積而成的平臺。這個平臺,我更愿意把它稱之為AI的Market Place。
現在隨著大模型的涌現,模型這一層可以匯聚到一個或者幾個大模型領域當中。企業的模型在慢慢收斂到個位數級別,帶來的影響是底下的數據也一定會收斂到個位數的統一級別,即剛才提到的數據知識化的過程。
通過這樣的平臺能力,去賦能多價值場景的落地,這是當下非常典型的人工智能平臺落地的架構。
八、“知識引擎+大模型”雙輪驅動企業智能化
下圖是我們幫很多頭部鏈主央企構建的真正能夠解決實際場景落地價值的人工智能平臺。最下面是基礎設施(智算中心);上層是由各個大模型企業以及云廠商提供的模型工廠;再往上是大模型的運維平臺,我們叫做Model OPS的平臺,包括訓練推理加速、模型的生命周期管理等等。很多企業在最開始嘗試的時候,結合了行業的數據集直接面向了最上層的多應用場景的賦能。這個就是之前提及的Model-Centric的路徑。

但是,大部分企業在這樣的實踐的過程當中,發現剛才那幾個問題無法解決,無法真正實現決策智能的場景價值。所以,這也是為什么我跟所有企業說,中間其實缺了這樣的一層,也就是我們楓清科技的“一體兩翼”的產品矩陣,來進行知識的構建,把企業本地的數據構建為知識。它是一個數據關系的龐大網絡,而在這個網絡之上就可以進行符號邏輯推理,并結合大模型的生成能力,做真正可解釋的智能。
然后,底下有我們核心的知識引擎、支持圖、向量以及源數據的分布式存儲計算的多模態智能引擎。在此之上有大模型應用支撐中心,能夠鏈接并管理不同的大模型;同時有行業智能體平臺,能夠管理本地知識引擎,起到連接本地知識、行業知識以及模型中的泛化知識的作用。最后,所有應用場景都通過行業智能體的方式,透傳給企業智能化的應用。
我早在IBM的時候,大概七八年前,IBM內部就推出了一個非常秘密的項目:Intelligent Workflow。當時正在做的事情就是類似目前的這個架構,只不過沒有把太多生成式人工智能技術融入其中。當時也有Watson Debater,也是基于Transformer的技術,能夠實現非常好的人機對話的實際應用。所以,我們要幫幫助B端客戶慢慢地實現決策智能,必須要采用的這樣的架構,沒有任何第二個選擇。
九、助力鏈主企業智能化實現示例和場景演示
下圖是我們的一個案例,通過我們搭建的平臺,針對于頭部鏈主企業在實際業務場中具體的智能化訴求,我們提供了最基本的比對、交互、檢索、創作、總結等行業智能化的Agent能力,并結合企業本地已經知識化的數據體系,可以給企業進行多場景智能化賦能,這些方案已在多家頭部央企成功落地并應用于決策。

然后在這舉個很簡單的示例:智能指標問數。Text2SQL其實不是大語言模型最擅長的,因為這不屬于生成智能。但是,回歸到企業的決策指標問數領域,我們依賴的可不單純是企業本地的結構化數倉中的指標庫數據,還需要關聯企業本地的多模態數據。然后,這些數據對企業的決策產生影響之后,我們要做粒度非常細的、直接對話式的根因分析,才能夠真正實現企業的決策智能。
在一個問數場景中,如何把我以上所說的這些理念以及技術點給融合在一起呢?

上面這張圖展示的是我們為一個金融客戶開發的智能指標系統。當用戶查詢不良貸款相關指標時,系統能夠智能搜索并生成不良貸款指標數據及對比。當用戶詢問不良貸款指標的后續影響時,系統會直接呈現深度影響分析及解釋邏輯。系統還集成了智能體工具。例如,當用戶詢問“A越高,B是否越低”等相關性問題時,智能體會調用相關性分析算法工具,給出相關性和相關系數。
在系統搭建過程中,我們將企業本地的非結構化數據(例如不良貸款客戶類型比例限制等)也融入到知識網絡中,以便在指標展示時直接提示用戶是否違反了監管規定和指標約定。通過該系統,我們還能針對不良貸款比例超標的企業,基于銀行數據的匯總,分析其與不同企業之間的交易往來,并進行不良貸款回溯分析,這正是典型的基于圖的根因分析。
在APEC多國貿易領域,有非常多的結構化數據和非結構化的貿易相關的交易數據。我們把這些數據整合到企業的本地知識體系當中,可以開放給APEC成員國企業。幫助 APEC 成員國的企業查找上下游渠道商。系統還能智能生成貿易分析報告、風險投資回報比等詳細信息,幫助企業決策出口產品到哪個APEC成員國能帶來最大收益,以及在特定國家進行何種類型的貿易。

通過我們的智能體平臺,兩個禮拜內就可以幫助企業快速搭建具備業務場景價值的智能應用。

上圖展示了我們為一家頭部央企的集團搭建的智能平臺架構,賦能并落地多個業務場景,包括私域文檔智能問答、企業供應鏈智能問數、AI科技情報智能分析,有效支持企業生產運營。例如,在生產線上,我們實現了智能化的風險檢測,并結合企業安全知識庫,為企業建立風險預警機制。當生產過程中出現潛在問題時,系統能夠及時向工廠或企業提供風險點提示。這一切都依托于集團安全生產知識庫的完善構建。平臺成功融合了多模態數據與企業文本知識數據,為智能化生產提供了強大支撐。
我們通過一個平臺可以賦能多個業務場景,同時還能夠幫助企業將數據持續不斷地沉淀在統一的我們一個知識平臺和知識引擎當中。
從今年4月以來,我們已與多家頭部央國企展開深入合作,在人工智能場景平臺的落地方面積累了豐富經驗,覆蓋金融、化工能源、汽車制造等多個行業。我們與客戶的數字科技企業緊密合作,共同探索人工智能的最佳應用路徑。
我們觀察到,越來越多企業正在積極探索如何將智能化技術真正融入決策過程。未來,我們希望能與在座的嘉賓和客戶一起,共同邁向人工智能賦能千行百業的美好新時代。