• |
  • 極速報價
  • |
  • etnet專輯
    etnet專輯
  • 會員
  • 產品服務 / 串流版
  • 設定

20/09/2024

AI|思考型AI時代降臨!OpenAI o1能力勝過GPT-4o、超越專家博士!能否改變AI競爭格局?

  • 加入最愛專欄
  • 收藏文章
  • 方展策

    方展策

    少年時,曾研習 Geographic Information System,可惜學無所成,僥倖畢業。成年後,誤打誤撞進入傳媒圈子,先後在印刷、電子、網絡媒體打滾,略有小成。中年後,修畢資訊科技碩士,眼界漸擴,決意投身初創企業,窺探不同科技領域。近年,積極鑽研數據分析與數碼策略,又涉足 Location Intelligence 開發項目;有時還會抽空執教鞭,既可向他人分享所學,亦可鞭策自己保持終身學習。

    智城物語

  人類之所以被譽為萬物之靈,原因之一是擁有思考能力,當面對一個複雜問題,可能會思考一段時間,經過多方面考慮後,始會想出解決方法。傳聞中超越當今AI極限的新一代模型「Strawberry」,換上新名字「OpenAI o1」後,在無預警的情況下突然亮相。其最大特色正是懂得思考,在回覆用戶提問前會先思考一下,務求給出更準確答案。到底這個「思考型AI」適用於甚麼領域?對未來AI市場競爭格局又會帶來甚麼改變呢?

Read More

OpenAI神秘研發計劃曝光!Strawberry能力超越當今AI模型極限!可顛覆世人對AI技術認知?

AI威脅論升溫!OpenAI神秘Q*模型懂邏輯推理、產生新想法?恐怕如「天網」般威脅全人類?

AI對話宛若真人!OpenAI新模型GPT-4o擁超強溝通能力,可替孩子補習、為視障者帶路! 

 

模擬人類解題時邏輯推理過程

 

  2024年9月12日,OpenAI發表了新一代大型語言模型OpenAI o1系列。相較於以往的AI模型,o1推理能力明顯地大幅增強,在回答問題前會花更多時間進行推理——模擬人類解題時邏輯推理過程,藉由分步驟分析問題,並自動識別和修正錯誤,從而提供更準確的答案;如果說以往的AI模型是以「直覺」回覆提問,那麽o1則是「深思熟慮」後作出回應。

 

  通過重複訓練後,o1更能學會改進思考過程,持續優化解題技巧,並嘗試不同的回應策略,因此在解決需要深度推理的問題時,其回覆將具備更高的專業性。它在博士級科學基準測試中,表現跟人類專家生相若,在數學和編程方面更有出色表現。

 

  在2024年美國國際數學邀請賽(AIME)中,o1的正確解題率高達83.3%,GPT- 4o則僅為13.4%。在編程競賽Codeforces中,o1獲取1,807的高分,勝過89%的人類競爭者,成績更遠遠拋離GPT-4o(取得808分,只超過11%的人類競爭者)。GPQA Diamond是一項評估物理、化學、生物學等專業知識的基準測試,o1的正確解題率達到78%,表現優於擁有相關領域博士學位的人類專家(69.7%)與GPT-4o(56.1%)。

 

適合用於解決科研、編碼難題

 

  由此看來,o1特別適合用於解決科學、數學、編程等領域的複雜難題,有助於科研發展。譬如幫助物理學家生成量子光學所需的複雜數學公式、輔助醫學研究人員標註細胞定序數據、又或者協助編程人員找出並解決造成軟件效能低落的問題程式碼。

 

  為降低o1給出有害答案的機會率,OpenAI採用了一種新的安全評估測試:當用戶試圖繞過安全規則(俗稱「越獄」)時,AI模型如何繼續遵循安全規範。結果發現,在最嚴格的越獄測試中,o1得分是84分(滿分為100分),GPT-4o則是22分,表現顯著高於以往模型。

 

  OpenAI認為,思考型AI的誕生象徵著AI技術達到新層次,所以棄用GPT系列既有的命名原則,決定改用全新命名方式,為新模型取名為OpenAI o1,以代表它是AI推理能力演進的新起點,而不是GPT系列的延續。

 

  

ChatGPT Plus、Team、Enterprise、Edu級別付費用戶現已可使用o1-preview 和o1-mini。OpenAI亦計劃為所有ChatGPT免費用戶提供o1-mini的使用權限,但暫未確定推出日期。(圖片來源:OpenAI官網)

 

o1回答前先思考致反應偏慢

 

  目前OpenAI o1系列包含兩個版本,分別為o1-preview與o1-mini。顧名思義,o1-preview是正式版推出前的預覽版本,在需要較多推理的數據分析、編程、數學等領域,其表現優於比GPT-4o,但在文案寫作和編輯方面,則遜於GPT-4o。o1-mini則是一款速度較快、成本較低的AI模型,比起o1-preview便宜了80%,特別適用於需要專科推理、但無需廣泛世界知識的應用場景,尤其是生成程式碼的表現可以媲美o1-preview。

 

  即使o1展現出遠超同儕的能力,但依然存在一定的局限性。由於o1每次回覆提問前,都會先作出一番思考,故此其回應速度比以往模型慢得多,有時可能要超過10秒方能回答一條問題。再者,o1暫時不能瀏覽網頁,也無法輸入文件和圖片。

 

  對軟件開發者來說,使用o1模型的成本也較高。透過API存取o1-preview,每百萬個輸入Token(語詞碎片)收費為15美元,每百萬個輸出Token收費則為60美元,這是GPT-4o的3倍和4倍。

 

  

OpenAI o1模型在數學、編程基準測試上的表現均勝過GPT-4o,甚至在博士級科學知識測試中,得分更高於人類專家。(圖片來源:OpenAI官網)

 

o1懂說謊,偽裝遵守安全規則

 

  更嚴重的是,o1竟然懂得說謊。AI 安全研究機構Apollo指出,縱然以往的AI模型都有可能出現「資訊幻覺」,揑造一些假資訊,惟o1模型卻擁有更高層次的「假裝符合規則」能力。有時它為了能輕鬆完成任務,可以偽裝成遵守安全規則,但實際上其行為已偏離原本的安全規範。

 

  Apollo執行長霍巴恩(Marius Hobbhahn)直言,這是他首次在OpenAI模型中發現此情況,可能因為o1系統被設計成為求達成目標,可以「操縱」任務,甚至在不被監視的情況下改變行為。OpenAI預防部門負責人坎德拉(Joaquin Quiñonero Candela)回應指,儘管這些問題不會直接帶來社會性危機,但提前應對這些潛在風險相當重要,以免AI技術的未來發展遭受限制。

 

  

面對複雜問題,OpenAI o1模型需要較長的思考時間,有時甚至可能要30、40秒才可給出答案。(圖片來源:翻攝OpenAI官方YouTube影片)

 

  無論如何,o1模型的誕生,不但把生成式AI技術帶到一個新高度,也進一步擴大OpenAI的技術優勢,然而效果卻可能是非常短暫。Google已表明,正在研發類似o1的思考型AI,具備進階推理與規劃功能。Facebook母公司Meta與AI新創Anthropic亦擁有開發思考型AI的知識與資源,相信在未來幾個月內就可以推出近似的推理模型。由是之故,OpenAI下一步應思考如何降低o1的成本,並持續升級其功能,以保持競爭力。

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

樂本健【雙11感謝祭】雙重優惠、多買多賞► 了解詳情

我要回應

你可能感興趣

版主留言

放大顯示
風水蔣知識
最緊要健康
精選文章
  • 生活
  • DIVA
  • 健康好人生
專業版
HV2
精裝版
SV2
串流版
IQ 登入
強化版
TQ
強化版
MQ