20/09/2024
AI|思考型AI時代降臨!OpenAI o1能力勝過GPT-4o、超越專家博士!能否改變AI競爭格局?
人類之所以被譽為萬物之靈,原因之一是擁有思考能力,當面對一個複雜問題,可能會思考一段時間,經過多方面考慮後,始會想出解決方法。傳聞中超越當今AI極限的新一代模型「Strawberry」,換上新名字「OpenAI o1」後,在無預警的情況下突然亮相。其最大特色正是懂得思考,在回覆用戶提問前會先思考一下,務求給出更準確答案。到底這個「思考型AI」適用於甚麼領域?對未來AI市場競爭格局又會帶來甚麼改變呢?
Read More
OpenAI神秘研發計劃曝光!Strawberry能力超越當今AI模型極限!可顛覆世人對AI技術認知?
AI威脅論升溫!OpenAI神秘Q*模型懂邏輯推理、產生新想法?恐怕如「天網」般威脅全人類?
AI對話宛若真人!OpenAI新模型GPT-4o擁超強溝通能力,可替孩子補習、為視障者帶路!
模擬人類解題時邏輯推理過程
2024年9月12日,OpenAI發表了新一代大型語言模型OpenAI o1系列。相較於以往的AI模型,o1推理能力明顯地大幅增強,在回答問題前會花更多時間進行推理——模擬人類解題時邏輯推理過程,藉由分步驟分析問題,並自動識別和修正錯誤,從而提供更準確的答案;如果說以往的AI模型是以「直覺」回覆提問,那麽o1則是「深思熟慮」後作出回應。
通過重複訓練後,o1更能學會改進思考過程,持續優化解題技巧,並嘗試不同的回應策略,因此在解決需要深度推理的問題時,其回覆將具備更高的專業性。它在博士級科學基準測試中,表現跟人類專家生相若,在數學和編程方面更有出色表現。
在2024年美國國際數學邀請賽(AIME)中,o1的正確解題率高達83.3%,GPT- 4o則僅為13.4%。在編程競賽Codeforces中,o1獲取1,807的高分,勝過89%的人類競爭者,成績更遠遠拋離GPT-4o(取得808分,只超過11%的人類競爭者)。GPQA Diamond是一項評估物理、化學、生物學等專業知識的基準測試,o1的正確解題率達到78%,表現優於擁有相關領域博士學位的人類專家(69.7%)與GPT-4o(56.1%)。
適合用於解決科研、編碼難題
由此看來,o1特別適合用於解決科學、數學、編程等領域的複雜難題,有助於科研發展。譬如幫助物理學家生成量子光學所需的複雜數學公式、輔助醫學研究人員標註細胞定序數據、又或者協助編程人員找出並解決造成軟件效能低落的問題程式碼。
為降低o1給出有害答案的機會率,OpenAI採用了一種新的安全評估測試:當用戶試圖繞過安全規則(俗稱「越獄」)時,AI模型如何繼續遵循安全規範。結果發現,在最嚴格的越獄測試中,o1得分是84分(滿分為100分),GPT-4o則是22分,表現顯著高於以往模型。
OpenAI認為,思考型AI的誕生象徵著AI技術達到新層次,所以棄用GPT系列既有的命名原則,決定改用全新命名方式,為新模型取名為OpenAI o1,以代表它是AI推理能力演進的新起點,而不是GPT系列的延續。
ChatGPT Plus、Team、Enterprise、Edu級別付費用戶現已可使用o1-preview 和o1-mini。OpenAI亦計劃為所有ChatGPT免費用戶提供o1-mini的使用權限,但暫未確定推出日期。(圖片來源:OpenAI官網)
o1回答前先思考致反應偏慢
目前OpenAI o1系列包含兩個版本,分別為o1-preview與o1-mini。顧名思義,o1-preview是正式版推出前的預覽版本,在需要較多推理的數據分析、編程、數學等領域,其表現優於比GPT-4o,但在文案寫作和編輯方面,則遜於GPT-4o。o1-mini則是一款速度較快、成本較低的AI模型,比起o1-preview便宜了80%,特別適用於需要專科推理、但無需廣泛世界知識的應用場景,尤其是生成程式碼的表現可以媲美o1-preview。
即使o1展現出遠超同儕的能力,但依然存在一定的局限性。由於o1每次回覆提問前,都會先作出一番思考,故此其回應速度比以往模型慢得多,有時可能要超過10秒方能回答一條問題。再者,o1暫時不能瀏覽網頁,也無法輸入文件和圖片。
對軟件開發者來說,使用o1模型的成本也較高。透過API存取o1-preview,每百萬個輸入Token(語詞碎片)收費為15美元,每百萬個輸出Token收費則為60美元,這是GPT-4o的3倍和4倍。
OpenAI o1模型在數學、編程基準測試上的表現均勝過GPT-4o,甚至在博士級科學知識測試中,得分更高於人類專家。(圖片來源:OpenAI官網)
o1懂說謊,偽裝遵守安全規則
更嚴重的是,o1竟然懂得說謊。AI 安全研究機構Apollo指出,縱然以往的AI模型都有可能出現「資訊幻覺」,揑造一些假資訊,惟o1模型卻擁有更高層次的「假裝符合規則」能力。有時它為了能輕鬆完成任務,可以偽裝成遵守安全規則,但實際上其行為已偏離原本的安全規範。
Apollo執行長霍巴恩(Marius Hobbhahn)直言,這是他首次在OpenAI模型中發現此情況,可能因為o1系統被設計成為求達成目標,可以「操縱」任務,甚至在不被監視的情況下改變行為。OpenAI預防部門負責人坎德拉(Joaquin Quiñonero Candela)回應指,儘管這些問題不會直接帶來社會性危機,但提前應對這些潛在風險相當重要,以免AI技術的未來發展遭受限制。
面對複雜問題,OpenAI o1模型需要較長的思考時間,有時甚至可能要30、40秒才可給出答案。(圖片來源:翻攝OpenAI官方YouTube影片)
無論如何,o1模型的誕生,不但把生成式AI技術帶到一個新高度,也進一步擴大OpenAI的技術優勢,然而效果卻可能是非常短暫。Google已表明,正在研發類似o1的思考型AI,具備進階推理與規劃功能。Facebook母公司Meta與AI新創Anthropic亦擁有開發思考型AI的知識與資源,相信在未來幾個月內就可以推出近似的推理模型。由是之故,OpenAI下一步應思考如何降低o1的成本,並持續升級其功能,以保持競爭力。
樂本健【雙11感謝祭】雙重優惠、多買多賞► 了解詳情