智東西(公眾號:zhidxcom)
作者 | 程茜
編輯 | 李水青

智東西11月29日報道,今天,AICC 2023人工智能計算大會上,北京市公布了大模型應用、算力基礎設施、中文數據集三方面的重磅新成果!

1、《北京市人工智能行業大模型創新應用白皮書(2023年)》(以下簡稱《白皮書》)發布,調研六大領域近百家企業的大模型應用,為大模型產業應用落地提供參考;

《白皮書》鏈接://kw.beijing.gov.cn/art/2023/11/29/art_6382_724110.html

2、海淀區北京人工智能公共算力平臺點亮,與智譜華章、紫東太初等首批入駐大模型企業簽約;

3、“中文互聯網語料庫”首期104GB數據公開,數據集時間跨度為2001年1月至2023年11月。

智源開放數據倉庫下載地址: //data.baai.ac.cn/details/BAAI-CCI

HuggingFace下載地址://huggingface.co/datasets/BAAI/CCI-Data

國際數據調研機構IDC和算力龍頭企業浪潮信息聯合發布的《2023-2024年中國人工智能計算力發展評估報告》提到,中國人工智能計算力發展評估城市排行榜的前五名為北京、杭州、深圳、上海、蘇州,且北京連續六年排名第一。

從大模型產業的發展情況來看,北京市目前在人工智能創新算力基礎、人才資源、研發能力方面都有較大優勢,且人工智能核心企業數量、算力基礎設施規模、備案大模型數量位居全國第一。

此次發布的一系列重磅成果,正是北京市面向大模型產業發展在算力、數據、應用落地等核心痛點的有利突破。創新成果從北京市大模型企業的實際案例出發,為企業創新發展提供一定的借鑒參考,并從政策層面為產業生態提供支撐。

此前,北京市已經發布了一系列人工智能相關的政策,如《北京市加快建設具有全球影響力的人工智能創新策源地實施方案(2023-2025年)》、《北京市促進通用人工智能創新發展的若干措施》、《人工智能算力券實施方案(2023—2025年)》,這些都已經成為北京市人工智能產業加速發展的重要保障。

一、北京大模型約占全國一半,行業應用四大特點凸顯

距離2022年11月30日ChatGPT發布已經一年,大模型帶來的技術革新熱度不減,與此同時,大模型產業的眾多參與者已經將目光從算力投向應用落地。

從國內的大模型產業發展來看,北京市已經成為國內人工智能領域創新基礎、人才資源、研發能力都有明顯優勢的城市之一。根據《白皮書》,2022年北京市人工智能核心產值規模達2170億元,核心企業數量已經超過1800家,截至2023年10月,我國10億參數規模以上的大模型廠商及高校院所共計254家,北京擁有其中122家,約占全國的一半

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

與此同時,大模型應用落地加速之際,北京市眾多產業玩家已經在政務、金融、醫療等領域實現落地,并且其布局特點也逐漸清晰。

模型演進來看,通用大模型已經呈現出強大的泛化能力,但在與各行各業深入融合時,由于缺乏行業深度,無法針對性解決特定行業的實際需求。因此,通過面向特定領域進行大模型訓練,打造垂直行業大模型能滿足行業特定需求,成為大模型商業化落地的重要方向

大模型應用的賽道方面,目前北京市大模型的應用速度較快的領域為傳統產業賦能和金融領域原因在于這兩大領域的央國企密集,具有較強的數據基礎設施、算力投入和人工智能應用基礎,對于推進大模型應用也更加主動。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

大模型對于內容理解、生成的能力不斷增強,逐漸從文字、圖片生成升級到視頻、音頻、3D動畫生成。《白皮書》提到,大模型的應用類型主要有內容生成、智能問答、IT支持、數據分析、智能識別和智能硬件六類。

其中,內容生成和智能問答兩個方面的應用類型已經逐漸成熟。面向B端,這兩類應用對于行業降本增效、業務價值提升、落地速度的價值體現更為明顯,這在一定程度上能夠快速完成市場教育,進一步推進大模型應用落地。

商業模式角度,大模型形成了以通用大模型人工智能服務為主的基礎層、以垂直行業領域人工智能服務為主的行業層和以大模型應用服務為主的應用層的“基礎+行業+應用”的三層架構

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

大模型的商業模式正是通過通用大模型底座的強大能力,與行業細分領域相結合,再將能力集成到實際應用中,從而讓大模型的真正社會價值得以體現,并對人們的生活、工作產生影響。

不論從大模型自身能力的升級迭代,還是行業實際痛點來看,大模型商業化落地應用已經迫在眉睫。一些行業先行玩家的應用落地實例,為國內大模型大規模商業化落地提供了經驗。

二、調研六大領域近百家企業,AI率先落地傳統產業及金融

從北京市的大模型產業應用來看,大模型產業玩家的落地應用集中于政務、金融、醫療、傳統產業賦能、文化旅游、智慧城市六大領域。

《白皮書》調研了六大領域中近百家企業的行業大模型應用案例,并梳理出其中18個典型案例,從不同領域的特點出發,結合企業的實際案例,以此整合出當下北京市行業大模型商業落地的挑戰。其中,應用發展較快的為傳統產業賦能和金融領域。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

金融業的痛點在于,其IT架構龐大,數據量很高,如何在符合數據安全合規等要求下,用大模型的能力實現降本增效,并擴展其兼容能力。

再加上金融行業對信息準確性、數據合規等要求較高,短期內,大模型在金融行業的落地方向集中于研報撰寫、客服輔助提示等非核心系統應用。從長期來看,大模型的應用方向在金融領域將進一步擴大,隨著大模型能力的進一步提升,招股書生成編寫、智能研報合規審查、大模型智能數據治理等場景或許將與大模型實現更好的結合。

目前,基于大模型技術,AI獨角獸公司曠視科技推出個人征信創新技術方案,該方案可以自動篩選有效變量,并通過Transformer架構進行自監督預訓練,進一步預測用戶的貸款意愿。在此基礎上,曠視科技與樸道征信合作打造的個人客戶資質評分服務,幫助樸道征信的客戶轉化率提升了20%。

傳統產業是我國經濟的重要組成部分,大模型技術在推動傳統產業的數字化轉型升級方面扮演著重要角色。

這一產業的特點在于,中小企業在營銷工具、IT研發等方面基礎薄弱,平臺型企業較難帶動產業鏈上中下游中小企業,以及因傳統企業涉及場景較多,其市場需求個性化程度較高,中小企業很難快速了解企業的核心痛點。

因此,《白皮書》提到,針對傳統產業的痛點,一些頭部玩家可以建立專屬企業的大模型,加速構建新一代人工智能能力基礎設施,然后構建不同的大模型應用。中小企業可以從試點場景出發,找到大模型落地應用的真實價值后,再進行廣泛應用。

正如此前提到的,智能客服等場景對于大模型價值的體現更為快速且直接,因此傳統產業在驗證大模型市場價值初期,也可以從這一場景切入。

以國家電網為例,其在大規模復雜電網系統管理運營方面面臨電網設備數量多、關鍵設備運行缺陷需快速發現響應。結合文心大模型,百度打造了電網智能分析與智能應用平臺,并訓練了電力行業NLP大模型,在電力專業分詞任務上,F1(精確率和召回率的調和平均數)指標達到92.376%。

值得注意的是,大模型在加速各行各業轉型升級、降本增效的同時,這些典型案例也體現出目前國內大模型在應用落地方面仍面臨諸多挑戰,如算力資源持續供應、高質量數據、大模型“幻覺”問題、“蹭熱度”以及同質化等。

三、打造公共算力平臺、中文互聯網語料庫,搶灘大模型應用

大模型發展與算力、算法、數據密切相關。其中,訓練數據的數量、質量等是大模型智能水平的關鍵因素。

北京智源人工智能研究院副院長兼總工程師林詠華談道,目前大型語言模型、多模態大模型中使用的開源數據集多來自海外,中文部分較少,如Common Crawl中中文數據占比不到5%,且其中超80%為海外網站,因此這些數據在訓練大模型時會有英文思維,并且存在內容安全風險。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

在大會的“大模型創新論壇”上,北京智源人工智能研究院發布了“中文互聯網語料庫(CCI)”。該語料庫是在中國網絡空間安全協會人工智能安全治理專業委員會數據集工作組、北京市委網信辦、北京市科委中關村管委會、海淀區政府的指導下,由智源研究院聯合拓爾思、中科聞歌共建,旨在為國內大數據及人工智能行業提供一個安全、可靠的語料資源,并以此為契機促進不同機構合作,共同推動大數據和人工智能領域的健康發展。

該語料庫首期開放的數據(CCI v1.0.0)規模為104GB,數據集總體的時間跨度為2001年1月至2023年11月

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

目前CCI語料庫首期開放的104GB數據,包括智源研究院400GB“悟道”數據集、拓爾思貢獻的250GB數據集、中科聞歌貢獻的200GB數據集。

為了保證數據質量,智源研究院會對上述數據基于合規站源數據進行高質量數據清洗、去重,同時為了避免數據集混雜測試數據,他們會把可能存在的主流評測數據進行過濾

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

從今年4月到10月,國家網信辦發布的《生成式人工智能服務管理辦法(征求意見稿)》、以及國家網信等七部門聯合發布的《生成式人工智能服務管理暫行辦法》等都強調了數據真實、安全等。

今年10月,中國網絡空間安全協會設立了人工智能安全治理專業委員會,下設數據工作組,其目的在于聯手國內數據、互聯網、大模型等企業,推動中文語料庫的建設。

林詠華談道,構建高質量的中文語料庫主要有三個階段,首先是建設中文互聯網語料庫,這是一個長期持續的過程,本次發布的中文互聯網語料庫,其數據主要來源為地市級以上政府門戶網站、重點新聞網站、中央和地方報刊等。

第二個階段就是建設綜合數據集,其囊括的數據范圍也更加廣泛,包括科技類、媒體類、書籍期刊等文字、圖片、視頻等數據。

第三個階段就是建設行業數據集,針對不同行業的應用需求,打造面向金融、醫療等領域的數據集。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

為推動“中文互聯網語料庫CCI”的廣泛使用,吸引國內大模型領域研究機構、企業共建、共享高質量、多樣化、安全合規的中文語料庫,會上,智源研究院聯合17家大模型機構和企業共同發起《“中文互聯網語料庫”共建共享倡議書》,倡導堅持合作共享、安全合規、數據高質量等6項原則,持續推動人工智能產業健康持續發展。

在商業落地背后,算力基礎設施是支撐人工智能產業發展的堅實底座。北京市海淀區的北京人工智能公共算力平臺舉行了點亮儀式,同時,北京電信作為算力平臺代表與智譜華章、紫東太初等首批入駐大模型企業完成了簽約儀式。

北京大模型應用再加碼!發創新應用白皮書、點亮公共算力平臺、首期中文互聯網語料庫CCI亮相

結語:開啟大模型應用落地新階段

如今,大模型的技術創新升級與商業落地正穩步推進,作為國內在大模型領域具有一定資源優勢、先發優勢的城市,北京市已經錨定大模型下一階段發展的核心及持續性痛點,通過算力基礎設施、中文互聯網語料庫、應用創新等,為國內大模型產業發展筑起堅實的底座。

《白皮書》提到,北京市將進一步培育大模型產業生態,將人才、資金、產業生態等方面與大模型產業發展結合的更為緊密;在算力方面,北京市也通過算力券、資金補貼等為企業提供支撐;在行業落地角度,北京市還通過行業大模型創新應用大賽,為企業探索大模型實際落地場景提供機會;同時,在大模型應用監管方面,北京市也提供了圍繞大模型底層設施、關鍵技術、上層應用的標準體系。

大模型產業發展至今,企業對于大規模商業落地的探索加快,可以看出,北京市已經形成了從算力、數據、應用三個角度出發,圍繞軟硬件基礎設施、關鍵技術、應用落地等重點為這一產業打造了一系列支撐,大模型正重塑千行百業。