1、GPT-4模型架構等關鍵信息遭泄露
2、ACL 2023最佳論文放榜 西安交大等獲獎
3、李飛飛團隊發布“大模型版”機器人
4、微軟推出多模態AI模型CoDi
5、百川智能推出130億參數通用大語言模型
6、北京將發4000萬元算力券 支持大模型企業
7、用戶吐槽必應聊天失去創造力
8、星火大模型帶動訊飛開發者增85萬
9、電商平臺引入AI后解雇90%員工
10、騰訊絕藝AI登頂日本麻將平臺
11、達闥機器人推出機器人大模型RobotGPT
12、美國立法者正在考慮圍繞AI立法
13、AI優化器助大模型訓練成本減半
1、GPT-4模型架構等關鍵信息遭泄露
據愛范兒援引SemiAnalysis報道,今天,OpenAI旗下的GPT-4大量模型架構、訓練成本、數據集等大量信息被泄露。爆料人稱,GPT-4架構的封閉性是因為他們構建的東西是可復制的,Google、Meta、Anthropic、Inflection、Character、騰訊、字節跳動、百度等在短期內都將擁有與GPT-4一樣強大的模型。
據透露,在模型架構方面,GPT-4的規模是GPT-3的10倍以上,作者認為GPT-4在120層中包含了1.8萬億參數,而GPT-3只有大約1750億個參數。
OpenAI通過使用混合專家(MoE)模型來保持成本合理。具體而言,GPT-4擁有16個專家模型,每個專家的MLP參數約為1110億。其中,有兩個專家模型被用于前向傳播。此外,大約550億個參數用于注意力機制的共享。每次的前向傳播推理(生成一個token)僅利用了約2800億個參數和560TFLOP的計算。
在數據集構成方面,GPT-4的訓練花費了13萬億的token數據集。這個數據集因為沒有高質量的token,還包含了許多個epoch。
在并行策略方面,OpenAI采用了8路張量并行,因為NVLink最高只支持這么多。但除此之外,爆料作者聽說OpenAI采用15路并行管線。
在訓練成本方面,OpenAI訓練GPT-4的FLOPS約為2.15e25,在大約25000個A100上訓練了90到100天,利用率在32%到36%之間。
原文鏈接:
//www.semianalysis.com/p/gpt-4-architecture-infrastructure
2、ACL 2023最佳論文放榜 西安交大等獲獎
據ACL?2023官網,今年的AI頂會ACL 2023獲獎論文日前公布,共有3篇最佳論文獎、4篇特別獎和39篇優秀論文。此外,還有區域主席獎,由每個領域的高級主席提名。據統計,獲獎論文占投稿總數的1.5%-2.5%。今年獲獎論文有不少出自國內機構及華人學者,涉及西安交通大學、清華大學、中科大、智譜AI等。
3篇ACL?2023最佳論文的簡介及論文地址如下:
(1)Do Androids Laugh at Electric Sheep? Humor“Understanding”Benchmarks from The New Yorker Caption Contest
作者:Jack Hessel、Ana Marasovic、Jena D. Hwang、Lillian Lee、Jeff Da、Rowan Zellers、Robert Mankoff and Yejin Choi
論文地址:
//arxiv.org/pdf/2209.06293.pdf
(2)What the DAAM: Interpreting Stable Diffusion Using Cross Attention
作者:Raphael Tang、Linqing Liu、Akshat Pandey、Zhiying Jiang、Gefei Yang、Karun Kumar、Pontus Stenetorp、Jimmy Lin and Ferhan Ture
論文地址:
//arxiv.org/pdf/2210.04885.pdf
(3)From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Leading to Unfair NLP Models
作者:Shangbin Feng、Chan Young Park、Yuhan Liu and Yulia Tsvetkov
論文地址:
//arxiv.org/pdf/2305.08283.pdf
3、李飛飛團隊發布“大模型版”機器人
據《科創板日報》報道,AI科學家李飛飛帶領的團隊日前發布了具身智能最新成果:大模型接入機器人,把復雜指令轉化成具體行動規劃,人類可以很隨意地用自然語言給機器人下達指令,機器人也無需額外數據和訓練。李飛飛團隊將該系統命名為VoxPoser,相比傳統方法需要進行額外的預訓練,這個方法用大模型指導機器人如何與環境進行交互,所以直接解決了機器人訓練數據稀缺的問題。
4、微軟推出多模態AI模型CoDi
根據微軟官網,近日,微軟Azure認知服務研究團隊與北卡羅來納大學教堂山分校合作開發名為“可組合擴散(CoDi)”的AI模型,它能夠同時處理和生成任意模態組合的內容。
據悉,CoDi采用了一種新穎的可組合生成策略,該策略涉及通過在擴散過程中橋接對齊來構建共享的多模態空間,從而能夠同步生成相互交織的模態,例如將視頻和音頻的時間對齊。
5、百川智能推出130億參數通用大語言模型
今日,百川智能推出參數量130億的通用大語言模型Baichuan-13B-Base、對話模型Baichuan-13B-Chat及其INT4/INT8兩個量化版本。
這是百川智能發布的第二款通用大語言模型,而在前不久的6月15日,百川智能就已經推出了首款70億參數量的中英文語言模型Baichuan-7B。相比此前發布的Baichuan-7B,Baichuan-13B在1.4萬億token數據集上訓練,超過LLaMA-13B40%,是當前開源13B尺寸下訓練數據量最大的模型。
Baichuan-13B上下文窗口長度為4096,不同于Baichuan-7B的RoPE編碼方式,Baichuan-13B使用了ALiBi位置編碼技術,能夠處理長上下文窗口,甚至可以推斷超出訓練期間讀取數據的上下文長度,從而能夠更好的捕捉文本中上下文的相關性,做出更準確的預測或生成。
開源地址:
Hugging Face:
預訓練模型:
//huggingface.co/baichuan-inc/Baichuan-13B-Base
對話模型:
//huggingface.co/baichuan-inc/Baichuan-13B-Chat
Github:
//github.com/baichuan-inc/Baichuan-13B
Model Scope:
預訓練模型:
//modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/
對話模型:
//modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/
6、北京將發4000萬元算力券 支持大模型企業
據《科創板日報》報道,北京市經濟和信息化局黨組書記、局長姜廣智在近日接受《科創板日報》記者專訪時宣布,北京將以場景為牽引、應用為導向,開放更多典型場景,促進大模型產業化應用,按季度迭代推出大模型應用成果,形成一批人工智能與經濟社會發展深度融合的典型案例。
此外,該局正籌劃通過算力券等形式支持模型伙伴和模型觀察員,降低企業的訓練成本、提高算力對接效率。首期預計支持不低于4000萬元的算力券,補貼到模型伙伴企業。
7、用戶吐槽必應聊天失去創造力
Reddit社區用戶近日發帖稱微軟對必應聊天(Bing Chat)的限制過于嚴格,使必應的回答變得沒有創造力,只剩下“作為AI語言模型,我不……”等無聊的廢話,因此他將棄用該平臺。這個帖子引發了眾多網友的共鳴,現有259條評論。

8、星火大模型帶動訊飛開發者增85萬
7月10日晚間,科大訊飛披露半年度業績預告。根據預告,科大訊飛公司上半年預計實現營業收入78億元,同比減少2.5%;公司上半年歸母凈利潤預計為5500~8000萬元,同比下降71%-80%。截至2023年6月30日,訊飛開放平臺開發者數為497.4萬(去年同期343萬),近一年增長45%。其中,訊飛星火認知大模型發布后,開發者數量在兩個月內增加了85萬家。
9、電商平臺引入AI后解雇90%員工
印度電商平臺Dukaan創始人兼首席執行官本周一發推特稱,在引入AI聊天機器人來回答客戶問題后,公司90%的員工已被解雇。他解釋說,在引入AI助手后,解決問題時間從之前的2小時13分鐘縮短到了3分12秒。他說:“鑒于經濟狀況,初創公司優先應該考慮的是‘盈利能力’。”

10、騰訊絕藝AI登頂日本麻將平臺
騰訊今日宣布其自研棋牌類AI“絕藝LuckyJ”在國際知名麻將平臺“天鳳”上達到十段水平,刷新了AI在麻將領域的最好成績。日本在線麻將競技平臺“天鳳”創建于2006年,擁有體系化的競技規則和專業段位規則,受到職業麻將界的廣泛認可。截至目前,天鳳平臺活躍人數23.8萬,而能達到十段的僅27人(含AI),不到萬分之一。
根據騰訊提供的數據,相比其他麻將AI和人類玩家,“絕藝LuckyJ”不僅穩定段位更高,從零開始達到十段所需的對戰局數也明顯更少,僅需要1321局。這些數據的排名皆位于之前最強的兩個日本麻將AI之上。

11、達闥機器人推出機器人大模型RobotGPT
據中國新聞網報道,在2023 WAIC期間,云端機器人企業達闥機器人宣布推出業界首個機器人多模態大模型RobotGPT,包含RobotGPT 1.0服務平臺和RobotGPT 1.0一體機產品。
據悉,RobotGPT以多模態Transformer為基礎,具備多模態(文本、語音、圖片、視覺、運動、點云等)融合感知、認知、決策和行為生成能力,并基于人工反饋的強化學習完成并快速智能進化;RobotGPT與機器人的具身智能相結合,實現機器人理解人類語言,自動分解、規劃和執行任務,進行實時交互,完成復雜的場景應用,推動具身智能的自主進化,讓云端機器人成為通用人工智能的最佳載體。此外,RobotGPT還可以賦能數字人應用,實現虛實融合。
12、美國立法者正在考慮圍繞AI立法
據外媒報道,美國參議院將在本周二首次召開關于AI的機密簡報會,政府將在會議中向參議員介紹AI的機密情況。據悉,參議院民主黨領袖Chuck Schumer在一封信中告訴參議員:“簡報將展示美國政府如何利用和投資人工智能來保護我們的國家安全,并了解我們的對手在人工智能方面所做的事情……我們作為立法者的工作是傾聽專家的意見,我們盡可能多地學習,以便將這些想法轉化為立法行動。”
13、AI優化器助大模型訓練成本減半
據量子位報道,近日,新加坡國立大學團隊打造的CAME優化器在ACL會議上獲得了杰出論文獎。優化器在大語言模型的訓練中占據了大量內存資源,而該團隊提出的優化器能夠在性能保持不變的情況下將內存消耗降低了一半,進而把大模型訓練成本降低近一半,據稱目前已經投入了實際應用。
論文地址:
//arxiv.org/abs/2307.02047
GitHub項目頁:
//github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME