1、夸克App上線健康大模型應用
2、昆侖萬維“天工SkyAgents”Beta版公測
3、智源開源代碼生成訓練數據集與評測基準TACO
4、首個汽車行業中文大模型測評基準發布
5、抖音回應內測“AI搜”功能
6、OpenAI CEO:2024年可能無法實現AGI
7、OpenAI擬進行新一輪融資 估值1000億美元
8、蘋果擬5000萬美元購買新聞數據訓練AI
9、郭明錤:蘋果春季發布可能沒有AI方面顯著更新
10、Ai Pin將于明年3月開始出貨
11、阿里百度騰訊360首批通過國家大模型標準評測
12、中國信通院院長:AI發展將迎來關鍵窗口期
13、印度正加強AI在天氣預報中的應用
1、夸克App上線健康大模型應用
今日,夸克App宣布全面升級健康搜索,推出健康大模型應用“夸克健康助手”,并在部分搜索結果和功能板塊中上線全新的內容交互方式。升級后,用戶在夸克中搜索健康信息的正確率超過行業平均水平。經過精調和知識增強的夸克大模型,以486分的高分通過臨床執業醫師資格考試,同時在健康內容上的幻覺率已經降低至5%以內。

針對AIGC等全新搜索內容形態,夸克成立了夸克健康專家團,與全國頂級公立三甲醫院的專家共建大模型內容生態,確保內容層面的專業性、正確性和科學性。此外,夸克還會招募健康大模型精調師,持續地結合用戶需求和熱門病癥,提供最新的健康知識。目前,夸克已經與200多位權威醫學專家、60多家全國知名公立三甲醫院和40多家醫學機構合作。
2、昆侖萬維“天工SkyAgents”Beta版公測
據昆侖萬維集團微信公眾號發文,今日,昆侖萬維AI Agents開發平臺“天工SkyAgents”Beta版正式開放測試。據介紹,天工SkyAgents開發平臺基于昆侖萬維“天工大模型”打造,具備從感知到決策,從決策到執行的自主學習和獨立思考能力。用戶可以通過自然語言構建自己的單個或多個“私人助理”,并能將不同任務模塊化,通過操作系統模塊的方式,實現執行包括問題預設、指定回復、知識庫創建與檢索、意圖識別、文本提取、http請求等任務。
體驗地址:
model-platform.tiangong.cn
3、智源開源代碼生成訓練數據集與評測基準TACO
據智源研究院微信公眾號今日發文,智源開源了一個專注于算法的代碼生成數據集TACO(Topics in Algorithmic COde generation dataset),旨在為代碼生成模型領域提供一個更具挑戰性的訓練數據集與評測基準。該數據集包含難度更大、更接近真實編程場景的編程競賽題目,強調提升或評測模型在實際應用場景中對問題的理解和推理(Reasoning)能力,而不僅僅是實現既定的函數功能。據悉,TACO包括訓練集(25443道題目)和測試集(1000道題目),每個題目都盡可能匹配多樣化的解題答案,答案規模高達155萬條,每個題目均包含任務主題、算法、技能及難度等細粒度標簽,為代碼生成模型的訓練與評測更精確的參考。經實驗,當前流行的代碼生成模型在TACO評測中與GPT-4存在顯著差異,表明這一領域仍有巨大的提升空間。
論文地址:
arxiv.org/abs/2312.14852
智源開放數據倉庫:
data.baai.ac.cn/details/BAAI-TACO
4、首個汽車行業中文大模型測評基準發布
據SuperCLUE微信公眾號今日發文,SuperCLUE推出了專門針對汽車行業的大模型測評基準(SuperCLUE-Auto)。這是首個汽車行業大模型測評基準,是一個多維度的多輪開放式問題的測評基準。SuperCLUE-Auto包括智能座艙與交互、汽車營銷、汽車理解與知識、車輛使用指南4大核心基礎能共十余個任務,首批測評選擇了國內外有代表性的12個閉源/開源的模型,結果顯示,有4個中文大模型在中文的汽車場景的表現超過了GPT-3.5。
榜單地址:
cluebenchmarks.com/superclue_auto.html

5、抖音回應內測“AI搜”功能
據Tech星球今日報道,抖音正在主APP內測試AI搜索功能,名為“AI搜”,用戶可以在該功能下獲得AI提供的回答。在“AI搜”內,用戶可以搜索相關的問題和信息,“AI搜”為用戶通過智能搜索進行總結。對于回答不完整的信息,還可以再次補充細節后提問,或者在下方的“你可能還想了解”處,選擇系統篩選的補充看到新的回答。回答的信息參考來源于抖音內的視頻和第三方網站,并且提供跳轉,比如用戶可以直接選擇視頻來源,查看視頻講解。隨后據中國證券報報道,抖音相關負責人對此回應,相關功能還在測試中,目前尚不成熟。行業人士稱該功能可能在灰度測試中,沒有全量上線。
6、OpenAI CEO:2024年可能無法實現AGI
12月24日,OpenAI CEO薩姆·阿爾特曼(Sam Altman)于社交平臺X上發帖詢問網友對于OpenAI明年應該建設或修復哪些功能的建議,隨后他總結了一些常見的請求,包括AGI、GPT-5、更好的語音模式、更高的速率限制、更好的GPTs、更好的推理、控制行為的程度、視頻功能、個性化、更好的瀏覽、使用OpenAI登錄、開源等。其中,他在AGI后面標注“請耐心等待”,并稱“對于AGI的請求比預期多得多,但很抱歉,我認為我們無法在2024年實現這一目標”,他還提到將“盡可能滿足這些需求,以及許多其他未被網友提及、但令OpenAI團隊自己感到興奮的功能”。

7、OpenAI擬進行新一輪融資 估值1000億美元
據彭博社23日報道,知情人士透露, OpenAI正在早期討論以1000億美元或以上的估值籌集新一輪融資,可能參與本輪融資的投資者已參與初步討論。根據CBInsights的數據,如果本輪融資按計劃進行,OpenAI將成為美國市值第二的初創公司,僅次于馬斯克的SpaceX。據知情人士透露,OpenAI還與阿聯酋阿布扎比的G42公司討論了為一家新的芯片企業融資80億至100億美元的問題。
8、蘋果擬5000萬美元購買新聞數據訓練AI
據《紐約時報》23日報道,幾位知情人士透露,蘋果公司最近幾周與主要的新聞和出版機構展開談判,希望獲得許可,在該公司開發生成式AI系統時使用它們的資料。蘋果已經提出了價值至少5000萬美元的多年期交易,以獲得新聞文章檔案的使用許可,接觸的新聞機構包括《時尚》(Vogue)和《紐約客》(The New Yorker)的出版商康泰納仕(Condé Nast)、美國全國廣播公司新聞(NBC News)以及擁有《人物》(People)、《野獸日報》(The Daily Beast)和《美好家園》(Better Homes and Gardens)的IAC。
9、郭明錤:蘋果春季發布可能沒有AI方面顯著更新
今日,天風國際分析師郭明錤于社交平臺X發布2024年消費電子產業三大關鍵投資趨勢預測:安卓庫存回補、Vision Pro、AI PC與手機。其中提到,2024年AI裝置的主流硬件規格將包括內建7-10B大模型、40-50TOPS的AI算力、10-20 Tokens/s或以上的推理速度、8-16GB或以上的DRAM等。隨后他轉發稱,認為蘋果的春季發布會可能不會有AI服務方面的顯著更新,所以沒有明顯納入2024年可能提供AI裝置催化劑的新產品發表中。

10、Ai Pin將于明年3月開始出貨
12月23日,AI硬件設備創企Humane于社交平臺X上宣布,其首款AI穿戴設備Ai Pin將于2024年3月開始發貨,屆時將根據訂單順序依次運送所有訂單。

11、阿里百度騰訊360首批通過國家大模型標準評測
據阿里云、百度等微信公眾號發文,12月22日,在全國信息技術標準化技術委員會AI分委會全體會議上,國內首個官方“大模型標準符合性評測”結果公布,阿里云通義千問、百度文心大模型、騰訊混元大模型、360智腦大模型首批通過評測,在通用性、智能性等維度均達到國家相關標準要求。據悉,該測試由中國電子技術標準化研究院發起,旨在建立大模型標準符合性名錄,引領AI產業健康有序發展。該評測對外征集了學術界、產業界幾十家頭部單位意見,覆蓋評估語言大模型通用性、智能性的38項具體評測維度,是基于官方大模型測試基準的權威評測。
12、中國信通院院長:AI發展將迎來關鍵窗口期
據財聯社報道,12月24日,在2024中國信通院ICT深度觀察報告會AI伙伴分論壇上,中國信息通信研究院院長余曉暉稱,MaaS(模型即服務)和開源大模型加速企業智能化將成為大模型應用的主要形態,推動應用門檻急劇降低,大模型技術創新將進一步加速,多模態巨型智能等有望獲得新突破,AGI的方向日漸清晰,未來幾年AI發展將迎來關鍵窗口期。
13、印度正加強AI在天氣預報中的應用
據路透社23日報道,印度一位高級氣象官員說,隨著暴雨、洪水和干旱等極端天氣的增加個,印度正在測試試用AI來建立氣候模型,以改善天氣預報。印度氣象局(IMD)使用超級計算機根據數學模型提供預報,將AI與擴大的觀測網絡結合使用,有助于以更低的成本生成更高質量的預報數據。