智東西(公眾號:zhidxcom)
編 |?王穎

導語:學術出版商Springer Nature與歌德大學開發新算法,使用機器學習技術集合大量文獻摘要,生成研究書籍。

智東西4月12日消息,近日學術出版商Springer Nature公布了第一本使用機器學習生成的研究書籍《鋰離子電池: 機器生成的當前研究摘要》,它概述了鋰離子電池領域的最新研究成果。

Springer?Nature和法蘭克福的歌德大學共同開發了機器學習算法Beta?Write,使用機器學習集成相似的聚類分析,將海量的文獻連貫的排列起來,并創建出簡潔的文章摘要,將論文摘要和原文鏈接生成書籍,幫助讀者盡快獲取系列論文的重要內容,還有助于讀者進一步閱讀原始文章。

我們一起來看看AI寫書水平怎么樣:

第一本機器學習寫的書面世!狂啃53000篇論文寫成

上圖原文:隔膜的厚度和孔狀結構應該嚴格管控,為了滿足這兩項功能,機械強度和離子導電率之間應達到良好的平衡。孔狀結構和材料的多孔性對于電池中分離器的性能也至關重要。

一、什么是機器學習?

傳統的計算機編程只能重復性的運行一種程序,只要不改變編程信息,程序運行就永遠不會發生改變。而機器學習是從示例中學習的軟件,不需要人為的編寫機器學習的運行程序,通過提供大量的相關數據來訓練它們,當訓練數據達到一定量的時候,機器學習算法就能自動通過數據中的重復信息總結出答案。不斷的訓練也能不斷的提高機器學習的算法能力。

例如,你想教會機器算法“什么是貓”,就需要將大量貓的圖片輸入算法中標記為“貓”,再將一些錯誤的圖片標記為“不是貓”。大量的數據訓練后,機器算法就能通過這些數據中的重復性信息來做出判斷,當你向程序提出“什么是貓”的問題時,它將向你展示正確答案。

二、機器學習如何生成書籍?

機器學習算法總結了2016年到2018年三年所發表的53000多篇關于鋰電子電池的研究論文,找出150多篇權威研究論文,并將這些論文的摘要進行集合,同時將引用的文章鏈接附在摘要后,幫助讀者進一步閱讀原始的文章。

提取海量文本中高質量的內容形成連貫的摘要,對于人類科學家來說是一個巨大的挑戰,需要大量的時間和精力閱讀成千上萬的論文。而這本書中的摘要由機器學習通過算法完成,AI?的自動掃描和總結輸出,讓科學家們把更多時間用在重要的研究上。

第一本機器學習寫的書面世!狂啃53000篇論文寫成

三、AI生成文本還存在許多問題

機器學習的蓬勃發展極大地提高了計算機產生書面文字的能力,但這些輸出仍然受到嚴重限制。AI生成的文本是根據數據形成的統一的公式化內容,無法像人類一樣創造更具連貫性和平衡性的內容。所以像AI生成的小說或詩歌等內容更傾向于是一種格式,而不是創造令人信服并喜歡的引人入勝的閱讀體驗。

實際上,當翻閱AI文本時,不難發現其中會有很多亂碼和不連貫的句子。這項技術的關鍵難度在于能否生成適合人類閱讀習慣,表意清晰的AI文本。

卡內基梅隆大學人機交互研究的副教授Jeff Bigham認為,把高質量的文本連貫的輸入系統,再由系統生成具有可讀性的摘要并不是困難的事情,關鍵難點在于機器學習算法是否具備自動提煉摘要的能力。

此外,AI生成文本還涉及到倫理方面的問題。比如:誰是機器生成內容的創始人?算法的開發者能被視為生成作品的作者嗎?誰對機器生成的內容負責?

機器學習算法發展到今天所做的更多的還是提出問題,而不是解決問題。新技術出現帶來的是一系列新技術本身發展和其他相關的引申問題。

目前機器學習算法已經成功地開發出了第一個可以生成書籍的原型,但它對大型文本語料庫的精煉摘要仍然不完善,解釋文本、句法和短語關聯有時看起來仍然很笨拙。雖然為了凸顯機器生產內容這一技術的突破,研究人員不會手動潤色或復制編輯任何文本,但是這也同時表明了機器學習還有很長的路要走。

第一本機器學習寫的書面世!狂啃53000篇論文寫成

目前,這本書還有需要優化改進的地方,但這是AI在自然的語言輸出方面新的嘗試,這種不完美不能否定這一技術在機器學習領域的新成就。

結語:無限算法或將改變世界

機器學習生成書籍的技術會給我們的工作和生活帶來極大的便利,如果你告訴系統“將過去4年的生物工程研究總結成一個50頁報告”幾分鐘后它就會把準確的內容發送給你。基于文本的靈活性,你甚至可以使用西班牙語、韓語或其他任何語言向它發送請求。

機器學習給AI發展帶來了新的可能,AI技術的進步改變著我們的生活,無限的算法也將給世界帶來無限的可能。

原文來自:TechCrunch、TheVergeA、SpringerNature