智東西(公眾號:zhidxcom)
作者?|?香草
編輯?|?李水青
智東西6月28日報道,今天,百度在WAVE SUMMIT深度學習開發者大會2024上,正式發布文心大模型4.0 Turbo版本,其同步上線網頁端和API接口,App端也將陸續上線。

▲文心大模型4.0 Turbo API開放
同時,飛槳平臺發布新一代飛槳框架3.0 Beta版本,具備大模型訓推一體、動靜統一自動并行、編譯器自動優化以及大模型多硬件適配等特色。
百度智能代碼助手Baidu Comate升級至2.5版本,開發、業務迭代及企業落地速度大幅提升,并擁有了全新的中文名“文心快碼”,正式加入百度“文心大家族”。
據百度首席技術官、深度學習技術及應用國家工程研究中心主任王海峰介紹,文心一言目前用戶規模已突破3億,每日調用量超過5億;飛槳平臺已累計服務1465萬開發者、37萬企業,構建了超95萬個模型。
一、用戶規模突破3億,文心大模型4.0 Turbo上線
經過幾十年的發展,AI技術從早期的人工撰寫規則,到后來的統計機器學習,演進到深度學習時代,再到大模型時代,算法、模型變得更加通用和統一。
王海峰談道,大模型為AGI帶來曙光,可以從兩個角度解讀,一是AI技術的通用性,二是AI能力的全面性。其中,全面的AI能力主要包括理解、邏輯、生成、記憶四個部分。
百度于2019年3月推出文心大模型1.0,經過多次迭代,其4.0版本于去年10月發布。目前,文心一言累計用戶規模已達3億,日調用次數5億。
今天,百度推出文心大模型4.0 Turbo版本,其網頁端、API即日起面向用戶開放,App端也將陸續上線,企業用戶可登錄百度智能云千帆大模型平臺調用API服務。

▲文心大模型4.0 Turbo發布
文心4.0 Turbo在生成速度和效果上大幅提升。王海峰現場演示了其與4.0版本的生成效果對比,在相同的提示詞下,4.0 Turbo的生成速度明顯更快,生成內容也更具條理性。

▲文心4.0 Turbo與文心4.0生成速度對比
在基礎模型升級上,百度進一步研發了智能體(Agent)機制,包括理解、規劃、反思和進化,使其能夠可靠執行、自我進化,并一定程度上將思考過程白盒化,讓大模型像人一樣思考和行動,調用工具自主完成復雜任務,在環境中持續學習實現自主進化。

▲基于文心大模型的智能體升級
百度還與中國工程院朱有勇院士及團隊共同打造了首個農業智能體“農民院士智能體”,其基于文心智能體平臺創建,吸收了朱有勇院士的研究成果以及相關的農業知識,可以為農民解答生產生活中的問題。

▲農民院士智能體
百度集團副總裁、深度學習技術及應用國家工程研究中心副主任吳甜談道,在過去半年,用戶使用文心大模型的日均提問量提升了78%,提問平均長度提升89%,使用的提示詞變得越來越復雜、具體。
大量的應用基于文心大模型進行創新,截至目前,文心一言已經創作了5.9億篇文章,繪制了2.4億張圖片,生成了70億行代碼,共輔助了1.3億人次工作。

▲文心大模型累計成效
吳甜還分享了文心大模型星河共創計劃取得的成果,自去年8月啟動以來,已創建1000+大模型工具,超55萬AI應用,積累了超1000B高質量數據。
例如,百度與長光衛星技術有限公司合作開發了共生地球智能助手,上線首月就服務了3.1萬用戶,解答遙感技術問題超3.8萬次。
二、飛槳推出3.0測試版,四層框架、四大優勢
飛槳是百度推出的開源開放產業級深度學習平臺,據王海峰介紹,其目前已累計服務1465萬開發者、37萬家企業,創建了95萬個模型。
今天,飛槳框架3.0 Beta版本正式發布,具備動靜統一自動并行、編譯器自動優化、大模型多硬件適配、大模型訓推一體4大特點。

▲百度飛槳框架3.0 Beta
在設計理念上,考慮到大模型和異構多芯發展趨勢,為了保障大模型訓練推理性能、簡化大模型開發調優過程以及更好地適配各種芯片,飛槳與文心聯合,在訓練、推理兩個方面定向優化。

▲飛槳框架設計理念
具體來說,動靜統一的自動并行能力通過極簡開發,實現大模型的混合并行訓練,可以將分布式訓練核心代碼量減少50%以上,典型模型訓練性能領先20%。
編譯器自動優化能高效支撐大模型與AI科學計算,通過一體化設計提升通用模型訓練效率,將大模型推理通用性能提升30%,典型科學計算模型求解速度領先71%。

▲編譯器自動優化
在大模型多硬件適配方面,通過低成本的硬件接入支撐軟硬協同優化,開發者僅需適配30余接口即可全面支持大模型訓練、壓縮、推理。
大模型訓推一體是飛槳框架3.0的核心特色,通過訓練、壓縮、推理的無縫銜接,實現RLHF訓練復用推理引擎加速2.1倍,量化壓縮復用分布式策略效率提升3.8倍。

▲大模型訓推一體
從整體框架來看,飛槳3.0分為表示層、調度層、算子層、適配層共4層架構。值得注意的是,飛槳3.0的開發接口和2.0版本完全兼容,用戶無需將代碼推翻重來。

▲飛槳3.0框架
飛槳還針對AI for Science進行了優化,能夠適配主流科學計算庫130多個模型,覆蓋數據、機理、數理融合的全球求解模式,能廣泛支持科學問題分析,其中基于高階自動微分及編譯優化技術,方程求解類模型對比PyTorch求解速度平均領先71%。
三、智能代碼助手升級2.5版本,覆蓋百度內部80%程序員
百度副總裁陳洋發布了智能代碼助手Comate的2.5版本,升級后的代碼助手集成了更多研發知識,覆蓋流程更全面。

▲百度智能代碼助手升級2.5版本
同時,該助手還擁有了中文名字——文心快碼,正式加入百度文心大家族。
陳洋介紹道,文心快碼的“快”主要體現在3個方面:開發速度快、業務迭代快、企業落地快。

▲文心快碼2.5
具體來說,在開發速度上,文心快碼融合了更多研發知識,包括數百位技術專家的實踐經驗、十億級研發領域知識以及上萬企業的研發場景。
在百度內部使用中,基于文心快碼生成的開發框架代碼準確度達到80%,單位時間內提交代碼數量提升了35%。

▲文心快碼開發速度提升
在業務迭代上,文心快碼無縫集成研發各個環節,包括需求的調研、設計,代碼的編寫、測試、發布等。
陳洋稱,在百度研發環節的單點提效上,基于文心快碼的單行代碼編寫時長壓縮到1.74秒,部署腳本自動生成達到秒級,單次線下環境部署耗時節省10分鐘以上。總的來說,對單個工程師的研發整體提效超過14%。

▲文心快碼業務迭代速度提升
在企業落地層面,針對行業規范差異、企業私域知識、代碼助手與企業內部工具結合等痛點,文心快碼提供安全可信、適配業務等核心能力。
經過1年的實踐周期,在百度內部過萬名工程師中,文心快碼的覆蓋率已達到80%,其生成代碼的采用率達到46%,新增代碼生成占比29%。
陳洋還分享了標桿客戶喜馬拉雅的落地案例,其只用1個季度,就實現了工程師中90%的覆蓋率,代碼采納率達到44%,新增代碼生成占比33%。

▲文心快碼企業落地案例
喜馬拉雅CTO姜杰稱,文心快碼與喜馬拉雅積累的研發能力、知識相融合,大幅縮短了技術調研和代碼編寫時間,極大提升了企業整體研發效率和產品質量。
目前,文心快碼提供標準版、專業版、企業版以及企業專有版共4個版本,其中專業版面向專業開發者限時開放,基礎功能和高級功能與模型不限量使用。
結語:AI進入工業大生產階段
從歷史的角度來看,縱觀前三次工業革命,其核心驅動力量機械技術、電氣技術和信息技術都具備很強的通用性。王海峰談道,當它們呈現出標準化、自動化和模塊化的工業大生產特征時,核心技術就進入工業大生產階段。
目前,包括算法、數據、模型、工具等在內的AI技術,也已經具備了較強的通用性,并具備了標準化、模塊化和自動化的特征,推動AI進入工業大生產階段。