在科幻電影中,類似于賈維斯(J.A.R.V.I.S.)一般的 AI 系統(tǒng),幾乎無所不能,是幫助人類解決各種各樣難題的終極助手。
它們的背后,是一種人們追求最高級 AI 的追求,而這一概念,被稱為通用人工智能(Artificial General Intelligence,AGI)。
AGI的概念可以追溯到20世紀中期,當時許多計算機科學家和 AI 研究人員開始思考如何構建具有人類智能的計算機程序,與狹義 AI(Narrow AI)系統(tǒng)專注于解決特定任務不同,AGI被賦予了更廣泛的認知和推理能力,能夠在多個領域進行學習、適應和執(zhí)行任務。
然而,在很長一段時間里,AI 的相關研究主要集中在解決特定問題和任務上,而AGI的實現一直被認為是一個更為復雜和遙遠的目標。
近日,花旗銀行數據科學副總裁 Valentino Zocca 博士在一篇題為《我們離AGI還有多遠?》(How far are we from AGI?)的文章中,就 AGI 和其他有關的重要議題展開了深度分析。核心觀點如下:
與目前的狹義人工智能相比,AGI 需要能夠在多個認知領域進行推理和學習。然而,實現 AGI 仍然存在許多挑戰(zhàn),如構建世界模型、進行因果推理等。
大型語言模型(如 GPT-4)在解決特定任務和提取因果關系方面表現出色,但缺乏抽象的因果推理能力。它們傾向于從數據中提取已知的因果模式,而無法生成新的因果見解。
一些研究者認為,現有的大型語言模型(如 GPT-4)可能是邁向 AGI 的一步,但仍然存在許多未解決的問題,如創(chuàng)建世界模型、實現自我探究和進行因果演繹等。
大型語言模型善于從數據中識別和提取因果關系,但缺乏自己主動推理新的因果場景的能力。它們具備通過觀察進行因果歸納的能力,但不具備因果演繹的能力。
AI 可能無法真正“學習”,而只能提煉信息或經驗。AI 不是形成一個全面的世界模型,而是創(chuàng)建了一個概要。
將分數當作能力的標志,AI 就好像只看到了世界的一個粗略概述,而沒有真正理解整個世界的本質。
我們不應將智能僅僅視為一種抽象的能力,即找到解決一般問題的方法,而應將其看作是一種具體的能力,即將從先前經驗中學習到的解決方案應用于我們所處環(huán)境中可能出現的不同情況。
只有當我們能夠創(chuàng)造出一個可以懷疑自身現實的系統(tǒng),進行自我探索,至少能夠應用因果演繹來建立一個合理的世界模型時,我們才能真正實現 AGI。學術頭條在不改變原文大意的情況下,做了簡單的編譯。內容如下:
大約 20 萬年前,我們人類開始在地球上行走,同時也在思想和知識的領域中探索。人類歷史上的一系列發(fā)現和發(fā)明塑造了這段歷史。其中一部分不僅影響了我們的歷史走向,還潛移默化地影響了我們的生物學。例如,火的發(fā)現賦予我們祖先烹飪食物的能力,從而將熱量轉移到大腦的進化上,而非僅用于消化道,這推動了人類智力的進步。
從車輪的發(fā)明到蒸汽機的誕生,人類迎來了工業(yè)革命。在這段變革的歷程中,電力大大催生了我們熟知的技術進步。而印刷術則加速了新思想和新文化的廣泛傳播,進一步推動了創(chuàng)新的步伐。
然而,人類的進步并不僅僅源于新的物質發(fā)現,它還源于新的思想。所謂西方世界的歷史,是從羅馬帝國滅亡到中世紀,在文藝復興和啟蒙運動期間經歷了一次重生,它強調人類思想的中心地位,而不是所謂萬能的神靈。然而,隨著人類知識的進步,人類這開始認識到自身的渺小。在蘇格拉底之后的兩千多年里,人類開始“知道自己一無所知”,我們的地球不再被視為宇宙的中心。宇宙本身在擴張,而我們只是其中的一粒微塵。
改變對現實的看法
然而,就重塑我們對世界的認識而言,20 世紀可能是爭論最多的一百年。1931 年,哥德爾(Kurt G?del)發(fā)表了不完備定理。
僅僅四年后,愛因斯坦、波多爾斯基(Boris Podolsky)和羅森(Nathan Rosen)以“完備性”為主題,在題為“Can Quantum-Mechanical Description of Physical Reality Be Considered Complete?”的論文中提出了“EPR吊詭”。隨后,波爾(Niels Bohr)對這篇論文進行了反駁,他證明了量子物理學的實際有效性。
哥德爾不完備定理表明,即使是數學也無法最終證明一切,我們總會面臨一些無法證明的事實存在的情況。而量子理論則認為,我們的世界缺乏確定性,我們無法預測某些事件,如電子的速度和位置,盡管愛因斯坦曾說“上帝不會擲骰子”這一著名的立場。從根本上講,我們的局限性已經超越了僅僅預測或理解物理領域內事件的范圍。即使我們努力構建一個完全由我們所設想的規(guī)則支配的數學宇宙,這個抽象的宇宙仍然會存在不可否認的事實。
然而,除了數學陳述之外,我們的世界還充滿了描述現實的哲學陳述,我們發(fā)現自己無法描述、完全表達、理解甚至只是定義這些現實。
類似于20世紀初“真理”概念的不確定性,其他諸如“藝術”“美”和“生命”等概念的定義同樣缺乏根本性的共識。然而,這些并非孤立的案例,“智慧”和“意識”等其他概念同樣處于這一困境之中。
智力的定義
為了彌補這一差距,Legg 和 Hutter 于 2017 年在“Universal Intelligence: A Definition of Machine Intelligence”中提出了智能(intelligence)的定義:認為“智能衡量的是一個代理在各種環(huán)境中實現目標的能力”。同樣,在“Problem-Solving and Intelligence”中,Hambrick、Burgoyne 和 Altmann 認為,解決問題的能力不僅是智能的一個方面或特征,而且是智能的本質。這兩種說法在字面上有相似之處,因為實現目標可以與解決問題聯系起來。
Gottfredson 在“An Editorial with 52 Signatories”中總結了幾位研究者的觀點:智能是一種非常普遍的心理能力,包括推理能力、計劃能力、解決問題的能力、抽象思維能力、理解復雜思想的能力、快速學習的能力以及從經驗中學習的能力。它不僅僅是書本知識、狹隘的學術技能或應試技巧。相反,它反映了一種更廣泛、更深層次的理解周圍環(huán)境的能力。一種“抓住”“理解”事物,或者“構思”應對方法的能力。
這一定義引入了兩個關鍵維度,即從經驗中學習和理解周圍環(huán)境的能力,從而使智能的概念超越了單純的“解決問題的技能”。換句話說,我們不應將智能僅僅視為一種抽象的能力,即找到解決一般問題的方法,而應將其看作是一種具體的能力,即將從先前經驗中學習到的解決方案應用于我們所處環(huán)境中可能出現的不同情況。
這突出了智能與學習之間的內在聯系。在“How we learn”中,Stanislas Dehaene將學習定義為“學習就是形成一個世界模型”,這意味著智能也需要理解我們周圍環(huán)境并建立一個內部模型來描述它們的能力。因此,智能同樣需要具備創(chuàng)建世界模型的能力,即便這種能力可能并不全面。
當前的機器有多智能?
在討論通用 AGI 與狹義 AI 時,我們經常會強調它們之間的區(qū)別。狹義 AI(或稱弱 AI)非常普遍,也很成功,在特定任務上的表現往往能超越人類。一個很好的例子是,2016 年,AlphaGo 以 4 比 1 的比分擊敗了當時的圍棋世界冠軍李世石。然而,即便如此,2023 年的一個事件也凸顯了狹義 AI 的某些局限性。在圍棋比賽中,業(yè)余棋手 Kellin Perline 利用 AI 沒有發(fā)現的戰(zhàn)術獲勝。可見,AI 缺乏人類識別不常見策略并做出相應調整的能力。
實際上,在最基本的層面上,即使是缺乏經驗的數據科學家也能明白,AI 所依賴的每個機器學習模型,甚至包括最簡單的模型,都需要在偏差和方差(bias and variance)之間取得平衡。這意味著 AI 需要從數據中學習,以便理解和歸納解決方案,而不是死記硬背。狹義 AI 利用計算機的計算能力和內存容量,可以相對輕松地根據大量觀察到的數據生成復雜的模型。然而,一旦條件稍有變化,這些模型往往就無法通用。
這就好比我們根據觀測結果提出了一個只在地球上有效的引力理論,然后卻發(fā)現物體在月球上要輕得多。如果我們在引力理論知識的基礎上使用變量而不是數字,我們就會明白如何使用正確的數值快速預測每個行星或衛(wèi)星上的引力強度。但是,如果我們只使用沒有符號的數字方程,那么在不重寫這些方程的情況下,我們將無法正確地將這些方程推廣到其他天體。
換句話說,AI 可能無法真正“學習”,而只能提煉信息或經驗。AI 不是形成一個全面的世界模型,而是創(chuàng)建了一個概要。
我們真的實現了AGI嗎?
人們普遍理解的 AGI 定義是,AI 系統(tǒng)能夠以人類水平或更高水平在多個認知領域進行理解和推理。這與目前專門從事特定任務的狹義 AI 系統(tǒng)(如 AlphaGo)形成了鮮明對比。AGI 指的是一種 AI 系統(tǒng),具備全面的、人類水平的智能,能夠跨越不同的抽象思維領域。
如前所述,這就要求我們有能力創(chuàng)建一個與經驗相一致的世界模型,并允許對預測進行準確的假設。
與大多數 AI 研究人員和權威人士的觀點一致,要實現真正的 AGI 還需要幾年時間,盡管大家對它何時出現的預測各不相同。在“AGI Safety Literature Review”一文中,Everitt、Lea、Hutter 提到:“我們問了很多研究人員,他們認為 AGI 可能會在 2040-2061 年之間出現,但大家的猜測差異很大,有人覺得可能永遠不會出現,也有人覺得未來幾年可能就會出現”。總之,可以肯定的是,AGI 還沒有出現在我們身邊。
微軟在最近發(fā)表的“Sparks of Artificial General Intelligence: Early experiments with GPT-4”論文中指出:
“我們認為 GPT-4 是新一批 LLMs的一部分,它們比以前的 AI 模型表現出更多的通用智能。我們討論了這些模型不斷提升的能力和影響。我們證明了,除了精通語言之外,GPT-4 還能解決新穎而困難的任務,這些任務涉及數學、編碼、視覺、醫(yī)學、法律、心理學等,而且不需要任何特殊提示。此外,在所有這些任務中,GPT-4 的表現都非常接近人類水平,而且往往遠遠超過 ChatGPT 等先前的模型。鑒于 GPT-4 的強大能力,我們認為有理由將其視為一個接近(但仍不完整)的通用人工智能(AGI)系統(tǒng)的版本”。
問題是什么?微軟是 OpenAI 的合作伙伴。
《紐約時報》的一篇文章援引卡內基梅隆大學教授 Maarten Sap 的話說:“這是其中一些大公司將研究論文格式用于公關宣傳的一個例子”。研究人員兼機器人企業(yè)家 Rodney Brooks 在接受 IEEE Spectrum 采訪時強調,在評估 ChatGPT 等系統(tǒng)的能力時,我們經?!罢`把性能當能力”。
換個方式來解釋,將分數當作能力的標志,AI 就好像只看到了世界的一個粗略概述,而沒有真正理解整個世界的本質。
AI 面臨一個重要問題,就是它們的訓練數據。大多數模型僅在文本基礎上進行訓練,不具備在現實世界中說話、聽覺、嗅覺或生活的能力。正如我之前提出的,這種情況有點像柏拉圖的洞穴寓言。在那個故事里,人們只能看到洞穴墻上的影子,無法直接體驗真實的世界。即使能夠創(chuàng)建一個世界模型,他們的世界也只是一個純文字的世界,句法上正確,但語義上并不全面。這種環(huán)境缺乏直接感知所產生的“常識”,所以顯得乏善可陳。
大語言模型有哪些主要局限性?
ChatGPT 或 GPT-4 等大型語言模型(LLMs)面臨的另一個最有爭議的挑戰(zhàn)是,它們容易產生幻覺。所謂幻覺,就是這些模型會編造出一些假的引用和事實,有時甚至是毫無意義的內容。出現幻覺的原因在于,它們缺乏對事件之間原因和結果的理解。
在“Is ChatGPT a Good Causal Reasoner? A Comprehensive Evaluation”一文中,作者得出結論:“ChatGPT 存在嚴重的因果幻覺問題,它傾向于假設事件之間的因果關系,而不管這些關系是否實際存在”。他們進一步指出:“ChatGPT 不是一個好的因果推理者,而是一個好的因果解釋者”,再次強調了它在解釋時提煉聯系的能力,但卻無法通過構建一個現有的世界模型來推斷這些聯系,而這些聯系就自然而然地存在于這個世界模型中。雖然這篇文章的重點是 ChatGPT,但可以擴展到任何 LLMs。
從根本上說,我們可以發(fā)現,LLMs 善于從數據中識別和提取因果關系,但缺乏自己主動推理新的因果場景的能力。它們具備通過觀察進行因果歸納的能力,但不具備因果演繹的能力。
這種區(qū)別凸顯了一個局限性,系統(tǒng)可以識別因果模式,但缺乏抽象的因果推理能力。它并不能產生新的因果見解,而只是從數據中解釋因果聯系。
然而,如果智能需要從經驗中學習,而學習又轉化為創(chuàng)建一個我們可以用來理解周圍環(huán)境的世界模型,那么因果演繹就構成了學習的一個基本要素,從而也構成了智能的一個基本要素,而這正是現有模型所缺少的一個方面。這是我們朝著 AGI 前進的關鍵步驟之一。
結論
正如在20世紀初所展示的那樣,實際情況常常與我們日常觀察所形成的直覺不同。就像20世紀初的物理學家因為量子力學與人類直覺相悖而難以理解它一樣,我們現在構建的 AI 系統(tǒng)也受限于現實的一小部分,甚至比我們人類所能體驗到的范圍還要窄。
就像我們最終理解了一個與我們日常經驗相矛盾的真實世界一樣,只有當我們能夠創(chuàng)造出一個可以懷疑自身現實的系統(tǒng),進行自我探索,至少能夠應用因果演繹來建立一個合理的世界模型時,我們才能真正實現 AGI。
這一展望可能是人類歷史邁向新階段的一個標志,我們開始逐漸承認,人類在整個宇宙中的重要性正在減少。
原文作者:Valentino Zocca
原文鏈接:https://aisupremacy.substack.com/p/how-far-are-we-from-agi
編譯:云婧