1、Meta開源實時翻譯系列模型Seamless

2、Meta推出音頻生成模型Audiobox

3、Meta發布多模態數據集Ego-Exo4D

4、阿里云通義千問開源720億參數大模型

5、阿里云舉辦首屆通義千問AI挑戰賽

6、阿里國際發布3款AI設計生態工具

7、阿里推出AI動畫生成框架 從靜態圖像生成動畫

8、昆侖萬維發布Agent開發平臺天工SkyAgents

9、出門問問奇妙元推出奇妙助手功能

10、騰訊牽頭制定全球首個金融風控大模型國際標準

11、山東:瞄準AI等七大未來產業 大力推進AI+

12、Adobe等推出DMD方法 生圖速度提升30倍

13、Stable Audio新增支持上傳音頻生成音樂

14、基于大學知識的多模態LLM測評基準MMMU發布

15、微軟未來三年向英國AI基礎設施投資225億元

1、Meta開源實時翻譯系列模型Seamless

今日,Meta推出實時翻譯系統Seamless。為了構建Seamless,Meta開發了一種用于保留語音到語音翻譯中表達能力的模型SeamlessExpressive,以及一個流式翻譯模型SeamlessStreaming,可以以幾乎不到兩秒的延遲提供最先進的結果。所有模型均基于Meta在8月發布的基礎模型SeamlessM4T v2構建。據介紹,與之前在表達性語音研究方面的努力相比,SeamlessExpressive解決了韻律中某些尚未開發的方面,例如語速和節奏停頓,同時還保留了情感和風格。該模型目前在英語、西班牙語、德語、法語、意大利語和中文之間的語音到語音翻譯中保留了這些元素。SeamlessStreaming支持近100種輸入和輸出語言的自動語音識別和語音到文本翻譯,以及近100種輸入語言和36種輸出語言的語音到語音翻譯。Meta開源了全部四種模型,以便研究人員在此基礎上進一步研究。

開源地址:

github.com/facebookresearch/seamless_communication

Demo地址:

seamless.metademolab.com/expressive

2、Meta推出音頻生成模型Audiobox

今日,Meta推出音頻生成模型Audiobox,該模型可以結合使用語音輸入和自然語言文本提示來生成語音和音效,從而可以輕松地為各種用例創建自定義音頻。Meta稱,據其所知,Audiobox是第一個支持語音和文本雙輸入以進行自由語音重新設計的模型。Meta將在接下來的幾周內開放基于Audiobox的應用程序,以及展示Audiobox功能的交互式演示。

3、Meta發布多模態數據集Ego-Exo4D

今日,Meta推出一個基礎數據集和基準套件Ego-Exo4D,用于支持視頻學習和多模態感知的研究。據介紹,Ego-Exo4D是Meta的FAIR(基礎人工智能研究)、Aria項目和15所大學合作伙伴歷時兩年的研究成果。Ego-Exo4D的核心是同時捕捉參與者佩戴攝像頭的第一人稱(自我中心)視角和周圍攝像頭的多個第三人稱(非自我中心)視角。兩個視角相互補充,自我中心的視角揭示了參與者的視聽感知,而非自我中心的視角則揭示了周圍場景和上下文。研究者將在本月開源數據(包括超過1400小時的視頻)和用于新基準測試任務的注釋。

論文地址:

ego-exo4d-data.org/paper/ego-exo4d.pdf

項目主頁:

ego-exo4d-data.org

4、阿里云通義千問開源720億參數大模型

今日,阿里云在京舉辦通義千問發布會,開源通義千問720億參數模型Qwen-72B。據介紹,Qwen-72B在10個權威基準測評創下開源模型最優成績,性能超越開源標桿Llama 2-70B和大部分商用閉源模型,可適配企業級、科研級的高性能應用。通義千問當天還開源了18億參數模型Qwen-1.8B和音頻大模型Qwen-Audio,在業界率先實現“全尺寸、全模態”開源。

5、阿里云舉辦首屆通義千問AI挑戰賽

今日,在通義千問發布會上,阿里云宣布首屆“通義千問AI挑戰賽”開賽,參賽者可免費使用通義開源模型家族,包括剛剛發布的720億參數模型Qwen-72B。賽事分為算法和Agent兩大賽道,前者針對通義千問大模型的微調訓練,希望通過高質量的數據探索開源模型的代碼能力上限;后者針對基于通義千問大模型和魔搭社區的Agent-Builder框架開發新一代AI應用,促進大模型在各行各業的落地應用。即日起,開發者可通過天池平臺報名參賽,主辦方將為參賽者提供價值50萬元的免費云上算力和獎金。

6、阿里國際發布3款AI設計生態工具

據環球網報道,今日,在第六屆中國國際工業設計博覽會上,阿里國際數字商業集團發布了3款設計生態工具:堆友、Pic Copilot、鹿班AI,覆蓋AI繪畫、AI模型創作、AI圖像和視頻處理等功能。據悉,這3款產品目前已經服務數十萬商家、覆蓋50萬設計師。此外,工信部國際經濟技術合作中心還與阿里國際設計簽署了框架協議,共同促進數智設計的發展。

7、阿里推出AI動畫生成框架 從靜態圖像生成動畫

11月29日,來自阿里的研究團隊發布論文,利用擴散模型的能力,提出了一個專門針對角色動畫的新框架Animate Anyone,可從靜態圖像AI生成動態視頻,從而將任意角色動畫化。為了保持參考圖像中復雜外觀特征的一致性,作者改進了ReferenceNet算法,通過空間注意力融合詳細特征。為了確保可控性和連貫性,作者引入了一個高效的姿勢指導器來指導角色的動作,并采用了一種有效的時間建模方法,確保視頻幀之間的平滑過渡。

論文地址:

arxiv.org/pdf/2311.17117

8、昆侖萬維發布Agent開發平臺天工SkyAgents

據昆侖萬維集團微信公眾號發文,今日,昆侖萬維正式發布天工SkyAgents平臺。據介紹,天工SkyAgents是國內領先的AI Agent開發平臺,基于昆侖萬維天工大模型打造,具備從感知到決策,從決策到執行的自主學習和獨立思考能力。用戶可以通過自然語言構建自己的單個或多個“私人助理”,并將不同任務模塊化,通過操作系統模塊的方式,實現執行包括問題預設、指定回復、知識庫創建與檢索、意圖識別、文本提取、http請求等任務。對于企業用戶而言,天工SkyAgents則可以按需拼裝成企業IT、智能客服、企業培訓、HR、法律顧問等眾多個性化的應用,并支持一鍵服務部署,確保其在不同業務系統中的無縫接入。

內測申請地址:agentspro.cn

9、出門問問奇妙元推出奇妙助手功能

據出門問問微信公眾號發文,昨日,出門問問旗下AI數字人視頻創作平臺奇妙元全面升級,推出奇妙助手功能。據介紹,奇妙助手能快速生成制作視頻所需要的素材,為短視頻生成高質量圖片,內置8種風格、3種尺寸比例;基于大模型能力智能生成文本,內置中英雙語和多種語言情緒;上傳PPT一鍵生成講解視頻,搭載智能解析,重點提煉;一站式生成數字人視頻,提供海量模板素材;一鍵提取視頻臺詞,支持在線視頻鏈接和本地視頻上傳,準確率達99%;數字人商店上新33+形象,模板商店上新海量剪輯模板素材。

10、騰訊牽頭制定全球首個金融風控大模型國際標準

據騰訊云智能微信公眾號發文,昨日,IEEE金融風控大模型標準啟動會在深圳召開。該標準由騰訊主導發起,是全球范圍內首個金融風險控制領域的大模型國際標準,旨在為金融機構風控建模環節中應用AI大模型技術提供參考和指引,使金融機構能夠在日益復雜和數據驅動的金融環境中高效預測、衡量和管理業務風險。該標準適用于金融零售信貸場景的風險控制管理,幫助金融機構在運用AI技術生成金融風控大模型的過程中提供參考,包括應用場景、基本條件、模型創建以及迭代等環節。啟動會現場明確了標準的研制方案,并計劃于明年9月正式發布。

11、山東:瞄準AI等七大未來產業 大力推進AI+

據工信微報報道,昨日上午,山東省新型工業化推進大會在濟南召開。山東省委書記林武強調,要扎實做好新型工業化各項工作,全面加快新型工業化進程。聚焦高端化發展,在布局未來產業上持續加力,重點瞄準元宇宙、人工智能(AI)、生命科學、未來網絡、量子科技、人形機器人、深海空天七大未來產業,加強前瞻性研究布局,建好未來產業先導區。聚焦智能化發展,著力推進數實深度融合。要更大力度促進AI應用,統籌布局通用大模型和垂直大模型,豐富算力資源,培育一批高水平智能技術和產品,大力推進“AI+”。

12、Adobe等推出DMD方法 生圖速度提升30倍

今日,Adobe和麻省理工學院的研究人員共同發布論文,介紹一種分布匹配蒸餾(Distribution Matching Distillation,DMD)方法,可在速度提升30倍的情況下生成與Stable Diffusion v1.5相當的圖像質量。論文的核心思想是訓練兩個擴散模型,不僅估計目標真實分布的評分函數,還估計偽造分布的評分函數。方法類似于生成對抗網絡(GANs),即通過同時訓練評論家和生成器來最小化真實分布和偽造分布之間的差異,但不同之處在于訓練不涉及可能導致不穩定的對抗博弈,并且評論家模型可以充分利用預訓練擴散模型的權重。

項目地址:

tianweiy.github.io/dmd

論文地址:

tianweiy.github.io/dmd/dmd_highres.pdf

13、Stable Audio新增支持上傳音頻生成音樂

今日,AI獨角獸Stability AI旗下的音樂生成產品Stable Audio宣布推出一系列新功能,包括支持輸入音頻來指導生成音樂,增加更多參數來提升創作體驗,新增鏈接分享、視頻下載功能,內置風格提示庫等。

14、基于大學知識的多模態LLM測評基準MMMU發布

11月29日,據論文作者、美國俄亥俄州立大學(OSU)博士岳翔于社交平臺X發文,其與來自7個機構的20多名研究人員共同發表論文,推出了MMMU基準測試。該測試收集了11.5K來自大學考試、測驗和教科書的多模態問題,橫跨藝術設計、商業、科學、健康與醫學、人文社科、技術與工程等30個科目和183個子領域,覆蓋圖表、圖表、地圖、表格、樂譜和化學結構等30種異構圖像類型,專注于利用特定領域知識進行高級感知和推理。論文測試了14個開源大模型以及GPT-4V,測評顯示,即使是先進的GPT-4V也只能達到56%的準確率。論文對GPT-4V的150個錯誤案例進行的錯誤分析表明,35%的錯誤是感性的,29%是由于缺乏知識,26%是由于推理過程中的缺陷。

論文地址:

arxiv.org/abs/2311.16502

項目主頁:

mmmu-benchmark.github.io

15、微軟未來三年向英國AI基礎設施投資225億元

據路透社今日報道,微軟計劃在未來三年內向英國投資25億英鎊(約合人民幣225億元),以支持AI的增長,這是該公司迄今在英國的最大單筆投資。投資將用于使微軟在英國的數據中心面積增加一倍以上,為新的AI模型提供關鍵的基礎設施。