智東西(公眾號:zhidxcom)
作者 | ?ZeR0
編輯 | ?漠影

智東西5月31日報道,今日,在2024向星力·未來數據技術峰會上,大數據基礎軟件龍頭星環科技面向企業構建大模型和應用生成式AI的需求,發布最新AI基礎設施產品Transwarp Knowledge Hub星環知識平臺(以下簡稱TKH), 提供企業級多模態知識存儲及服務,并推出一款一站式多場景語料開發工具TCS(Transwarp Corpus Studio)大模型運營平臺Transwarp Sophon LLMOps

基于無涯大模型,星環知識平臺TKH打造了無涯·問知、無涯·問數、無涯·金融、無涯·工程等AI原生應用,可廣泛應用于金融、能源、制造、工程等多個領域,通過精準的數據分析和知識管理,滿足企業不同類型的知識應用需求,提升企業業務效率和競爭力。

星環科技發布了企業版、AI PC版企業級垂直領域問答產品無涯·問知In?nity Intelligence無涯·問知公有云服務也正式發布,首批邀請用戶已經可以在線測試。

同時,星環科技推出企業智能業務分析洞察平臺無涯·問數,讓用戶用自然語言輕松進行數據分析,解決傳統BI(商業智能)使用門檻高、效率低的挑戰。

星環科技創始人、CEO孫元浩宣布,星環科技的定位從Data Infra進一步延伸到AI Infra,為企業客戶打造AI基礎設施,打造覆蓋語料處理、模型訓練、知識庫建設等的一整套工具鏈,幫助企業快速建立行業大模型,快速使用AIGC。

孫元浩告訴智東西,在支持生成式AI的數據管理方面,企業可能會用到向量數據庫、關系數據庫、圖數據庫、實時數據庫等不同類型,這些都是為AI提供數據的主要方式,現在很難說哪類比重會更高。

對于用戶而言,已構建數據倉庫的基礎較大,結合大模型直接問數據庫比較立竿見影,需求相對多。向量數據庫預計會加速增長,語音、圖片、視頻必須要用向量數據庫,文檔建議也變成向量數據庫以拓展檢索范圍。知識圖譜構建要求較大,但同樣是必要的補充。當關系圖譜不足時,星環提供了實時數據庫,還有傳感器分析。

面向AI PC布局,孫元浩認為AI PC是提高生產力的必需品,他透露說星環希望在本地做到千億參數模型,可能今年年底就可以做到。

一、今年全球將生成159.2ZB數據,企業落地AI面臨4類挑戰

AI大模型正在催生新一輪技術創新與產業變革,將為金融、制造、交通、政務等眾多行業企業數字化轉型和高質量發展帶來新動能。

生成式AI出現后,深度學習從以前的可能幾千萬、上億的樣本數量的大樣本機器學習,演變成現在小樣本機器學習,讓行業大模型應用范圍變得更廣,讓模型能夠思考、學習,理解自然語言,完成更多的工作。

當前市場以通用基礎大模型為主,通識能力強,但缺少行業專業知識。讓企業的AI應用從早期直接調用通用大模型發展到建立自己的AI基礎設施,打造行業或特定領域、任務的專用大模型,助力生產力革新和產業升級,已經成為企業關注的核心。

在峰會上,IDC中國副總裁鐘振山分享了一些IDC調研結果。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

IDC預測,全球2024年將生成159.2ZB數據,2028年將增加1倍以上,達到384.6ZB,復合增長率為24.4%,分布在不同的數據庫中。DataSphere 2024最新預測還呈現了3D特征:分布式、多樣化、動態。未來兩年里,預計組織中的數據量、數據速度、數據多樣性均會提升。

為了實現生成式AI,企業需要管理多方數據源,被調查企業中50%使用數據倉庫支持生成式AI,35%使用向量數據庫,33%使用數據湖,33%使用支持向量搜索能力的NoSQL數據庫。

從落地形式來看,企業更多選擇私有化方式來訓練、推理和部署大模型。在實施AI技術時,企業或機構經歷過/預計會經歷成本、缺乏具備學習和使用AI所需技能的員工、缺少專項技能人才、缺少AI治理&風險管理、缺少AI監管規則等方面的挑戰。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

總體來看,企業落地AI面臨4個主要挑戰:1)高投入成本與專業人才匱乏,是企業落地AI最大的阻礙;2)數據基礎設施建設不足,需要商業落地、安全性、可持續發展和數據管理;3)缺乏統一數據管理底座,海量、多元、非結構化數據高頻流動;4)缺少知識庫的支撐,知識的存儲、共享和流動。

二、定位延伸至AI Infra,為企業提供全流程開發工具鏈

從需求上看,目前通用大模型數量快速增加,并不斷升級迭代、提質增效,但卻不能適應企業AI應用的需求。

企業對行業大模型需求增加,迫切需要降低使用門檻,更加普惠地使用大模型、生成式AI技術,以解決企業內部人才、算力、數據等不足的挑戰。發展面向特定領域或任務的領域大模型,不斷提升模型準確度,成為一條切實可行的發展途徑。

每個國家都需要主權AI,企業同樣需要自身的AI Infra來打造行業大模型,從而更快速便捷地用大模型釋放數據價值。

針對企業的AI Infra建設,星環科技通過自主研發,可向用戶提供一站式企業級大模型生產及應用全流程開發工具鏈,讓大模型快速落地。

星環科技擁有從語料到模型再到應用的完整的AI Infra工具集,覆蓋語料開發和管理、大模型訓練與持續提升、多模態知識工程、多模知識存儲與服務、原生AI應用構建編排和應用服務等重要階段,提供提示詞工程、檢索增強、智能體構建等大模型應用快速構建和提升、模型推理優化、模型安全和持續提升技術。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

星環科技AI Infra工具支持異構算力、語料、知識、大模型應用的統一管理,為數據和語料資產的集約化提供了一站式平臺,且具備企業級的組織空間管理能力。

通過該工具,企業能夠準確、高效地將擁有的多種來源的多模語料轉換為高質量的專業領域知識,源源不斷支撐專業知識庫問答、業財數據分析、智能投研、設備預測性維護等豐富的使用場景和應用,讓企業構筑知識壁壘,實現“人工智能+”業務的落地和創新。

后續星環科技將通過自主研發,不斷完善AI從基礎設施到應用的產業鏈條,為客戶提供端到端的全套AI解決方案。

三、企業界垂直領域問答產品無涯·問知:四大應用場景,將數據和資料轉換為知識

星環科技發布了企業級垂直領域問答產品無涯·問知In?nity Intelligence,有企業版、AI PC版、云端版,包括四大應用場景:

1)企業可以基于星環知識庫TKH,建立企業自己的知識庫應用;

2)企業算力不足時,可采用安裝了天涯·問知的AI PC,在本地直接訪問天涯·問知;

3)中小企業用戶不用自己構建知識庫,可直接利用星環科技無涯·問知公有云服務;

4)個人可利用AI PC或者公有云服務,訪問天涯·問知服務。

無涯·問知是一款基于星環自研預訓練模型無涯Infinity和向量數據庫Hippo、圖數據庫StellarDB構建的企業級垂直領域問答知識庫應用。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

該產品基于星環科技大模型底座,結合個人知識庫、企業知識庫、法律法規、財經等多種知識源,充分利用了星環科技自研大模型底座的自動化知識工程特性,使其在處理和分析數據方面具有顯著的優勢,允許用戶上傳文檔、表格、圖片等多源數據,并支持與外部數據源的對接,使用戶能夠構建屬于自己的專屬領域大模型。

借助這一工具,用戶可基于自身私域知識庫進行更為個性化和深入的數據分析。

該產品支持不限長度的音視頻圖文等多模態數據快速入庫,且支持自動化文檔切片及向量化處理,配合自研的RAG框架,可實現知識的精準召回,可用于市場研究分析、企業供應鏈分析、法律風險預警、智能寫作等業務場景中。

面向個人用戶,星環科技推出無涯·問知AI PC版本,可在搭載英特爾新一代CPU的主流個人電腦(AI PC)上基于集成顯卡和NPU流暢運行。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

無涯·問知AI PC版本提供本地化的向量庫,支持多種格式、不限長度的文件資料入庫,并支持影、音、圖、文等多模態數據和資料的“知識化”處理,以及相應的“語義化”查詢和應用能力,能夠對可量化的數據進行精準的分析和研判。

該工具打通了個人文件資料與企業知識庫,形成本地和云端的知識聯動推理,而且能保障個人的數據安全。

據介紹,無涯·問知AI PC版本具備出色的內容理解能力,包括對感知和認知層的深度理解,以及對事實、流程、圖譜等高級語意的把握,因此能夠更準確地理解用戶需求。

四、無涯·問數:用自然語言搞定數據分析,兼顧安全性與準確性

今日星環還發布了一款智能業務分析洞察平臺無涯·問數,基于星環數據分析大模型打造,旨在解決傳統BI在數據獲取、使用門檻和效率方面的挑戰,為決策者和業務人員帶來更好的數據分析體驗。

該平臺集合了大語言模型、AI和BI的能力,并結合數據分析主體、指標、標簽設計、數據開發和治理,形成了從自然語言轉數據查詢語言并返回數據表或數據圖表的完整流程。

非專業用戶可在無涯·問數平臺上使用自然語言輕松查詢數據,無需掌握數據庫編程語言,有效解決取數需求開發鏈路長、指標二義性、缺乏數據挖掘能力、數據分析高度依賴人工經驗等傳統數據分析痛點,簡化了用戶與數據交互的方式,讓數據分析變得更加便捷和直觀。

在安全性上,無涯問數結合NL2SQL和可視化能力,將模型輸出結果解析為易于理解的界面化配置,并從多個維度提供全面的數據安全管控,在更快、更高效獲取數據的同時,保證查詢過程的安全性和結果數據的可解釋性。

在傳統BI場景中,缺乏經驗的分析師難以給出高質量的分析報告,且靠人力經驗積累的業務邏輯、業務洞察無法沉淀為企業知識庫。

無涯問數針對數據安全保障有一系列精細的數據安全和權限控制措施,可以結合企業自由數據進行模型訓練,理解行業黑化和業務邏輯,在智能分析場景下提供更高的模型準確率和分析方法論等知識輸入。

針對數據一致性,無涯問數通過先進的指標和標簽模塊解決取數渠道和計算口徑不一致的情況,提供包括針對數據、指標和標簽的智能業務洞察范圍,并滿足客戶數據來源準確和分析口徑統一的需求;確保數據分析結果的可靠性,支持數據驅動的決策制定。

在應用場景上,無涯·問數提供分析儀表盤和智能問數能力,讓決策者/管理者以自然語言提問快速自助獲取目標數據;預定義指標計算口徑,依托數據分析大模型理解用戶的分析意圖,讓數據分析人員實現對話即分析;通過頁面配置的方式快速完成數據準備,讓數據開發人員,快速整合多種數據。

五、星環知識平臺TKH:幫企業高效構建AI Infra

星環科技整合大數據、AI等技術,推出一款知識平臺Transwarp Knowledge Hub(TKH),為企業提供一個全面、高效、智能的數據處理和知識管理解決方案。

TKH旨在為企業打通從AI基礎設施到大數據、AI等研發應用的完整鏈條,實現企業內部所有資料知識化,能統管企業Al Infra算力、語料、模型、應用,助力企業打造安全可控的AI Infra、快速使用AIGC。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

星環知識平臺TKH包括知識存儲與服務、語料開發與知識構建、大模型基礎服務等幾個重要部分。

第一,TDH for AI,打造新一代一站式多模型數字底座。

TKH提供企業級多模態知識存儲與服務,助力企業打造新一代一站式多模型數字底座。基于Transwarp Data Hub for LLM知識管理平臺的多模型統一技術架構,支持關系型數據、向量數據、全文檢索、圖數據、時序數據等的統一存儲管理,滿足各類場景下多模態數據的統一存儲管理與服務,大幅簡化知識庫的知識存儲與服務層架構,降低開發與運維成本。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

星環科技新推出的產品可以讓企業的數據底座實現四個一體化:湖倉集一體化、多模型處理一體化、歷史數據與實時數據處理一體化、本地集群和云平臺一體化

其中,大數據基礎平臺TDH 9.4的多模基座加速AI分析;倉集資源隔離架構,在混合業務場景下依然保持極致性能;湖倉一體架構,大幅降低TCO;同份數據跑批查詢與混合負載,實時備份強在線業務容災;同時支持多模型存諸架構、大模型海量訓練數據存儲、多模型混合檢索召回增強、Python生態等。

分布式向量數據庫Hippo支持文本、圖片、音視頻等轉化后的百億級向量數據的存儲、索引和管理,支持多種索引,具有全文檢索+向量檢索以及稀疏向量+稠密向量的混合檢索等能力。Hippo 2.0可實現百億級向量存儲,提供靈活索引支持、20倍內存成本下降和向量全文混合檢索等特性。

分布式圖數據庫StellarDB提供萬億級圖數據存儲、毫秒級點邊查詢和10+層深度鏈路分析等能力,支持豐富的圖算法和圖機器學習,創新的動態時序圖能力更便捷地挖掘數據變化規律和預測分析。新推出的StellarDB 5.1實現了向量/全文模糊檢索、秒級子圖匹配、跨集群數據災備、RAG增強大模型、GPU算法加速等功能,更穩定、安全、易用。

星環分布式分析型數據庫ArgoDB支持標準SQL語法,提供多模分析、實時數據處理、聯邦計算、隱私計算、數據脫敏等能力,一站式滿足OLAP分析,實時數倉、數據集市、湖倉集一體等場景。

新推出的ArgoDB 6.1 版本以“增量數據實時處理”技術為基礎,定義并發布“實時數據加工”的智能高效新范式;結合集群級實時同步與數據海量版本能力,協助用戶夠構建高可靠的實時可信大集群,以數據透明加密、SQL審核/阻斷等安全技術手段為輔,共建“快好省”湖倉集一體的融合數據處理架構。

星環分布式時序數據庫Timelyre支持海量時序數據庫的存儲與處理,具備每秒千萬級數據吞吐、5~20倍無損壓縮和毫秒級檢索能力,支持Python、C++等API,易用的時序分析框架滿足金融智能投研需求。TimeLyre 9.2新增了多模型時序分析、極速分布式回測平臺、投研數據中臺、時序數據湖引擎等,助力用戶解鎖數據深層價值。

星環分布式文件系統TDFS支持10億級以上的大小文件的存儲,并同時支持對象存儲,基于Raft保障強一致,支持HDFS平滑遷移,標準POSIX協議支持上層知識等AI場景應用無感對接。

第二,語料加工工具與圖譜構建工具,助力企業建立高質量模型及應用。

語料是決定行業大模型質量的關鍵因素,語料的質量決定了模型的質量,同時高質量語料也是解決行業大模型“幻覺”、“可信可控”等核心落地難點的重要手段。

高質量行業專用語料是企業、機構獨特的競爭優勢和天然壁壘。星環科技發布了一站式多場景語料平臺Transwarp Corpous Sudio(TCS),旨在通過全面的語料生命周期管理,極大提升語料開發效率,助力企業或機構高質量地構建大模型及其應用。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

TCS覆蓋了語料獲取、清洗、加工、治理、應用和管理的全生命周期,具有多種靈活的采集和構建方式,能分布式的高效處理海量語料。

這是一個功能全面、易用高效、安全可靠的語料開發利器,支持20+主流文檔格式、數據化學公式、復雜語料處理、語料自動標注及篩選、多視角體系化資產編目和數據治理等。它具有三大核心優勢:

1)強大的語料知識化能力,能夠自動標注知識元素、識別知識類型、推薦知識應用,并構建有針對性的場景知識庫,簡化了知識管理和知識應用的過程。

2)易用的語料應用化能力,支持將語料快速轉化為多種應用形態,如自然語言處理、機器學習等,大大降低了應用語料的門檻,加速了從數據到知識的轉化過程。

3)完善的數據安全機制,TCS提供了完善的認證權限管理和加密機制,確保語料數據、模型和應用的安全可信,滿足企業對數據保護的嚴格要求。

企業知識庫的建設,讓數據可以用自然語言方式進行對話和檢索。企業可以集中式地管理和利用知識資源,提高運營效率和創新能力。只要企業保有自己的知識庫,就可以通過微調得到企業專屬大模型,實現大模型隨時選、隨時換,且企業核心競爭力得到保護。

企業用戶利用TKH提供的星環圖譜構建工具Transwarp Knowledge Studio for LLM,可將企業內部數據、個人經驗數據和公開信息數據轉化為知識,讓數據平臺更加智能化,同時能將AI PC端和云端資源聯動,確保數據安全性。個人經驗數據的知識轉化和不斷的模型微調讓知識庫建設更具個性化。

TKS是一套全流程、端到端的知識圖譜構建工具集,涵蓋了知識模型定義、多源異構數據接入、概念與物理數據映射、多元化知識的抽取融合、全自動知識構建、圖譜綜合查詢等功能,能夠幫助政務、工業、能源等多領域客戶高效構建領域知識體系,并提供智能應用的場景定制化和一站式解決方案。

第三,大模型基礎服務Infinity和LLMOps,讓大模型快速落地。

在行業大模型發展中,企業面臨技術復雜、數據和算力稀缺、管理成本高等挑戰,已經意識到必須建立自己的AI基礎設施,從而能夠自己對模型進行預訓練、微調等。

星環科技推出大模型運營平臺Transwarp Sophon LLMOps,提供一站式企業級大模型生產及應用全流程開發工具鏈,助力企業完成從預訓練到微調,到強化學習,到持續模型評估的全生命周期,讓每個企業都能構建自己的專屬大模型。

星環科技全面戰略升級!幫企業高效構建AI Infra,助攻大模型快速落地

一個Sophon LLMOps平臺可解決企業在大模型時代語料、模型、應用三類資產的持續積累和加速迭代。

星環科技自主研發的無涯大模型Infinity主要功能包括智能問答、文檔問答、智能寫作等,具備自主可控特性,在確保數據安全的同時,通過0-1預訓練,可為各行業量身定制自有大模型,提供強大的意圖理解、語義召回、數據處理和分析能力。

基于無涯大模型底座,星環科技微調了三款垂類大模型,包括問答大模型、數據分析(代碼生成)大模型、多模態大模型,以應對內容生成、數據分析圖片及音視頻理解及檢索等多樣的使用場景。

星環無涯大模型Infinity提供了靈活的部署模式,包括私有化部署(AIPC版、企業版)、公有云服務等,提升了大模型數據分析能力,在語法正確性、數據庫方言、語義正確性等方面有重要突破,能夠精準問答,減少大模型幻覺,并通過多模數據來源來提升回答豐富度,通過構建自有知識庫來確保企業數據安全。

六、Data Infra產品與服務持續完善

星環科技在推出全新的AI Infra的同時,也在不斷完善Data Infra產品與服務。

星環大數據云平臺推出TDC 5.0,將原來的多個TDH集群統一納管,統管多個TDH集群,形成物理上分散、邏輯上統一的企業級一體化大數據平臺。

TDC 5.0的優勢包括多集群及其基礎設施、多數據應用實例統一管理;跨多集群統一調度資源,均衡多個集群資源使用;跨集群共享存儲組件,實現NoCopy的跨集群數據共享;隔離和控制資源配額,快速、靈活地為不同業務部門提供多租戶的PaaS服務。

星環科技推出了分布式交易型數據庫KunDB 4.0,提升了高可用能力與Oracle兼容性,支持跨系統多租戶部署。

星環大數據開發工具TDS 4.0,增加了數據實時同步、數據入湖向導、智能化數據資產盤點、數據資產門戶、數據服務編排等功能。

星環大數據安全與隱私保護工具軟件Transwarp Defensor致力于幫助企業建設以數據為中心的數據安全防護體系,包括了解內部敏感數據分布情況,能夠幫助管理者發現潛在風險、監管重要數據的合規合理使用等。Transwarp Defensor 4.5,增加了大模型核心資產識別、數據資產流轉鏈路監控、安全策略智能推薦,安全風險預警與應急響應。

星環數據要素流通平臺Transwarp Navier通過提供隱私計算環境,使得數據供需雙方可以進行安全的數據交易。Transwarp Navier 3.1新增了全鏈路智能合約確保安全合規、數據流通全鏈路行為監控與分析、實時告警與阻斷等。

結語:大模型成為企業核心能力,新型AI Infra生態走向繁榮

孫元浩談道,大模型技術已快速融入企業生產經營的方方面面,在企業生產效率提升、業務職能提效和行業應用場景創新中無處不在,不但重構產業,打造企業的核心競爭力,而且成為企業的基礎設施和核心能力,助力企業打造新質生產力。

如今頂尖基礎模型參數量達到千億級,基于MoE架構的稀疏大模型更是達到萬億參數,再加上大模型及生成式AI進入廣泛落地階段,迫切需要發展新型AI基礎設施來滿足對算力資源、高性能計算及存儲、數據管理、安全可靠、可解釋性等方面的嚴苛要求。

高質量的語料資源、高效率AI基礎設施已成為訓練和部署大模型的關鍵。星環科技一系列AI Infra工具及Data Infra產品與服務的推出,為企業和機構提供了更加全面、易用、安全的開發利器,有助于幫企業高效構建和管理知識庫、加速實現大模型落地部署,提升數據處理、價值挖掘和業務決策的效率。