智東西(公眾號:zhidxcom)
作者 | 香草
編輯 | 李水青
智東西4月2日報道,今天,亞馬遜云科技(AWS)與智東西等少數媒體分享了與AI創企Anthropic合作的最新進展,并現場演示了Claude 3大模型的多模態、長文本、語境理解等能力。
AWS近日宣布向Anthropic追加投資27.5億美元,截至目前已經向這家OpenAI強力競對累計注資40億美元。此外,雙方的合作關系也再次加深,Amazon Bedrock引入了Anthropic最新發布的Claude 3模型。
會后,AWS大中華區產品部總經理陳曉建向我們分享了大模型落地實踐的解讀。在他看來,大模型想要打通落地最后N公里,需要選擇一個具體的、簡單的切入點,從點到面逐步擴展應用場景,由簡單到復雜逐步切入。
當談到AWS下一步的發展戰略時,他稱從客戶需求來看,目前芯片等硬件設施仍然落后于大模型的發展,其迭代速度跟不上模型參數規模的指數級提升,如何將底層能力與大模型復雜度相匹配,是現在面臨的主要挑戰。
一、從基礎設施、工具鏈到AI應用,構建生成式AI完整技術棧
陳曉建首先解讀了AWS的生成式AI技術棧。目前,AWS在基礎設施層面提供GPUs、自研Trainium芯片、Nitro系統等底層設施,在大模型構建工具層面提供大模型托管平臺Amazon Bedrock,在應用層面則推出了智能助手Amazon Q、代碼助手Amazon CodeWhisperer等。

▲AWS生成式AI技術棧
在模型層面,除了此前提供的AI21Labs、Cohere、Meta、Stability AI以及亞馬遜自研的模型之外,近期新增了Anthropic和法國創企Mistral AI的新模型。其中,Anthropic的Claude 3以其多模態推理、翻譯、總結等方面的優異能力突出。

▲Amazon Bedrock提供的基礎模型
Claude 3于3月初推出,分為Opus、Sonnet、Haiku三個規模,其中性能最強的Opus模型引各方面測評結果超越GPT-4一舉成為“最強大模型”。

▲Claude 3各模型性能對比
與Claude 2相比,Claude 3最明顯的迭代體現在多模態能力、幻覺的降低、長文本能力等方面。例如借助視覺能力,Claude 3可以理解圖表、圖形、報告等文件,并從中提取數據。

▲Claude 3的多模態能力
在準確率方面,Claude 3大幅改善了幻覺問題,對沒有把握的答案會進行標明,而不是直接給出錯誤答案。

▲Claude 3幻覺降低
在應用場景上,Claude 3可以適用于代碼輔助、內容續寫、長文本知識召回總結等,也可以用在亞馬遜的“老本行”電商領域,用來撰寫電商商品描述。
基于Amazon Bedrock的能力,AWS面向企業提供了知識庫工具Knowledge Bases,為基礎模型和Agents提供來自企業內部數據源的上下文信息,用于RAG(檢索增強生成),從而提供更相關、更準確和更個性化的響應。
Amazon Bedrock的Agents功能則利用基礎模型,提供使用自然語言進行交互和響應來執行多步驟業務任務的能力。
二、現場演示為老黃續寫PPT,扮演不同MBTI人格答題
AWS技術人員為我們現場演示了Claude 3“中杯”模型Sonnet的多模態、長文本、代碼、翻譯等能力。
在第一個演示中,演示人員輸入了一張英偉達CEO黃仁勛演講的PPT,讓Claude總結PPT的內容。

▲輸入的PPT圖像
明顯能看出,Amazon Bedrock上搭載的Claude 3生成速度非常快,迅速總結出了PPT上主要內容。

▲Claude 3總結PPT內容
隨后,演示人員追問Claude 3下一頁PPT可以考慮放哪些內容,又讓其按年份總結圖中內容,并歸納為表格形式。

▲Claude 3將PPT內容總結為表格形式
第二個演示展現了Claude 3的長文本能力。演示人員輸入小說《流浪地球》中的一個片段,在其中插入了一句《三體》中的內容,讓Claude 3從中找出不合理的部分。
這是大模型長文本能力評測中十分重要的一種測試。AWS大中華區產品技術總監王曉野談道,之所以長文本能力這么重要,是因為在情感陪伴、資料讀取等應用場景中,對大模型的“記憶”能力要求很高。尤其是AI陪伴類產品,如果大模型能記住幾個月甚至幾年前用戶聊過的內容,體驗感會大幅提升。

▲Claude 3大海撈針能力
隨后演示人員又展示了Claude 3的詩歌翻譯能力,并與GPT-4做對比。雖然二者都未達到“信達雅”的水準,但Claude 3的翻譯用語更貼合中文用詞習慣一些。

▲Claude 3翻譯能力
第四個演示針對代碼能力,演示人員要求Claude 3生成一個貪吃蛇游戲的Python代碼設計,并給出了基本玩法和失敗條件。

▲貪吃蛇游戲Prompt
Claude 3按照需求生成了一個完整的代碼文檔,演示人員將代碼復制到編譯器中運行,貪吃蛇游戲成功運行起來,并且符合失敗條件,在蛇撞到地圖邊緣時游戲結束。

▲貪吃蛇游戲演示
最后,演示人員展示了Claude 3的開放性問題理解能力。通過一個網上很火的性格測試MBTI的問題,讓大模型判斷不同MBTI人格對同一個問題的反應:如果看到一匹馬進入酒吧,你認為馬會說什么?
在扮演ESTJ、ENFP兩種不同人格時,Claude 3分別站在理性務實、富有想象力和創造力的角度回答了這個問題。

▲Claude 3扮演ESTJ人格

▲Claude 3扮演ENFP人格
結語:AWS為企業客戶打通大模型落地“最后三公里”
通過投資Anthropic和提供Claude 3模型,AWS再次提升了作為云平臺的競爭力。相比直接使用Claude 3的API(應用程序接口),Amazon Bedrock能夠提供更為穩定的大模型能力,并通過知識庫、Agents等工具提供差異化價值,幫助企業平衡成本與模型能力。
通過構建完整的生成式AI技術棧,從基礎設施到工具鏈,再到具體的AI應用,AWS全方位支持企業客戶數字化轉型。Amazon Bedrock平臺為企業提供了強大的知識庫工具和Agents功能,使得大模型的應用更加貼合實際業務需求,同時,AWS還通過試驗迭代、專業培訓、原型開發等服務,為企業用戶提供打通大模型落地的“最后三公里”。