20/03/2023

AI再進化！GPT-4智商更勝ChatGPT！輸入圖片即可生成內容，律師資格考試擊敗9成考生！

#Smart Living #AI #GPT-4 #ChatGPT #OpenAI #聊天機械人 #推理能力 #律師資格考試 #MMLU #Sam Altman

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　背靠GPT-3.5大型語言模型的ChatGPT，2022年11月底面世後有如一石激起千層浪，令生成式AI熱潮席捲全球。想不到短短4個月後，AI研究實驗室OpenAI便釋出第四代模型「GPT-4」，技術上進一步拋離其他大型語言模型。微軟亦隨即宣布，Bing搜尋引擎已同步採用GPT-4，讓Google在AI搜尋賽道上瞠乎其後。到底GPT-4比起GPT-3.5有何改進之處？功能更強大的GPT-4又是否一個已臻完美的AI模型呢？

第一代GPT模型2018年誕生

　　ChatGPT名字中的「GPT」，是「Generative Pre-trained Transformer」的縮寫，中譯為「生成式預訓練變換模型」。這是由Google Brain研發出來的深度學習模型架構，專用來處理自然語言；OpenAI正以此為基礎，創造了GPT模型，迄今已經歷四代演進。

　　第一代GPT模型於2018年6月橫空降世，能夠判斷兩個句子之間的語意和關係、對文本資料進行分類、並能夠解答一般常識和推理問題，但當時模型接受訓練的數據參數僅有1.17億項，相對較少，所以不算是好的對話式AI模型。

　　第二代GPT-2模型是基於初代模型直接擴展而成，可說是GPT-1的加強版。它在2019年2月發表，被定位為「通用型AI」，不針對單一知識領域進行專門訓練，而是學習各式各樣的常識，訓練參數達到15億項，是上一代的10倍以上。GPT-2已能夠回答問題、翻譯文字，並生成文本輸出。它輸出的文字開始近似人類語氣，惟生成較長段落時卻可能出現重複或無意義的內容。

GPT-3.5搭ChatGPT掀熱潮

　　來到第三代的GPT-3，訓練參數較GPT-2暴增117倍，超過1750億項，技術上也有飛躍進步，2020年６月釋出給開發者試用。它能夠辨識資料中隱藏的含義，並運用從數據訓練中獲得的知識來執行任務；換言之，就算要處理從未接觸過的事物，它也能夠理解並作出適當的回應。

　　GPT模型發展至第三代，終於展現出商業應用上的實用性。可是，2020年正值新冠疫情高峰期，此AI技術突破並沒有引起社會的太大關注。再者，GPT-3不像ChatGPT般能夠輸出自然對話，所以只有部分開發者和廠商對它感興趣。同年9月，微軟（Microsoft）宣布取得GPT-3的獨家授權。

　　2022年11月底，OpenAI發表GPT-3的優化版本「GPT-3.5」，並搭配聊天機械人「ChatGPT」一併推出，憑著其接近人類對話與思考方式的特點，瞬即吸引全球目光，掀起生成式AI熱潮。GPT-3與GPT-3.5的主要分別在於，前者只是蒐集和使用互聯網上的資料進行訓練，後者則會利用人類的回應和反饋，執行強化學習來自我訓練。

GPT-4可處理2.5萬字長內容

　　距離ChatGPT爆紅還不到4個月的時間，Open AI於2023年3月14日突然發布更具突破性的GPT-4，開放給ChatGPT Plus付費訂戶和軟件開發者使用。OpenAI沒有披露GPT-4模型受訓參數的數量，只表示2022年8月已經完成訓練，之後便不斷進行微調改進，務求令其數據處理與理解能力大幅提升。

　　GPT-4能夠處理多達25,000字的內容，足足是GPT-3.5+ChatGPT的8倍以上。它容許用戶輸入更長內容，進行長篇文章翻譯或編寫摘要。更重要的是，這樣意味著GPT-4擁有更強的記憶力。

GPT-4最實用的改進之處是，把文字輸入限制提高至2.5萬字，所以能夠理解更長的上下文，作出更準確的回應。（圖片來源：翻攝OpenAI官方YouTube影片）

　　其實，ChatGPT有時表現不佳的主要原因是，用戶最初提出的訴求，在一定長度的談話後，便會被後來的對話內容所覆蓋，讓AI無法把握完整的上下文來作出分析，致使回覆偏離討論主題。因此，當GPT-4能夠記住25,000字的內容，AI就能夠長時間監看與用戶的對話內容，給出更精確的答案。

GPT-4能解讀圖像再作出回覆

　　更教人驚喜的是，GPT-4已升級為多模態（Multimodal）的AI模型，同時支援圖像與文字輸入來生成內容，打破ChatGPT只能鍵入文本提示的限制。它能夠在理解圖像內容後，給予用戶建議，達到「看圖說故事」的效果。

用戶可以向GPT-4輸入圖片，要求回應。例如以下圖片顯示了雞蛋、麵粉、牛奶等食材，它在分析圖片後，便會告訴用戶利用這些食材可以製作甚麼甜品。（圖片來源：OpenAI官網）

GPT-4被問到假如剪掉以下圖片中的繩子，將會發生甚麼事？它懂得回答圖中的氣球將會飛走。由此可見，GPT-4在理解圖片內容後，已能作出邏輯推理。（圖片來源：翻攝OpenAI官方YouTube影片）

　　在GPT-4上輸入的圖像可以是相片、圖表、屏幕截圖、甚至是手繪草圖。OpenAI共同創辦人格雷格．布羅克曼（Greg Brockman）在GPT-4的直播演示中，拍攝其筆記簿上一幅手繪的網頁設計草圖，然後上傳至GPT-4，AI隨即生成對應的網頁程式碼。他認為，這將會大幅改變網站設計模式。

OpenAI共同創辦人Greg Brockman輸入一張手繪的網站設計草圖，GPT-4即能自動生成網頁程式碼，網站介面布局幾乎跟手繪草圖一模一樣。（圖片來源：翻攝OpenAI官方YouTube影片）

　　此外，GPT-4甚至連迷因惡搞圖也能夠解讀。例如，一幅來自Reddit討論區的惡搞圖，顯示iPhone插著VGA連接器，GPT-4能夠辨識並描述圖片的幽默之處：將舊款VGA連接器插進新型智能手機是很滑稽的。目前GPT-4圖像輸入功能仍處於開發者預覽版本，暫不對外開放，OpenAI未有透露開放時間表。

GPT-4能夠解讀以下惡搞圖的內容，準確地指出過時的VGA連接器插入新型智能手機的充電端口，是滑稽之舉。（圖片來源：OpenAI官網）

GPT-4律師資格考試名列前茅

　　除超凡的理解能力外，GPT-4更擁有優秀的推理能力。OpenAI聲稱，GPT-4在很多專業考試的表現已直逼「人類水平」（Human-level Performance）。為求證明此事，OpenAI安排GPT-4參加多項人類考試，包括律師資格考試（Bar examination）、美國大學入學的SAT測驗、以及國際生物奧林匹克（International Biology Olympiad）等，結果統統交出驕人的成績單。

　　OpenAI表示，GPT-4在律師資格考試中的答題表現位列前10%，即是可以勝過90%的考生；GPT-3.5的成績則落在後10%。GPT-4在SAT閱讀考試中成績位居前7%，在SAT數學考試中則排名前11%。至於在生物奧林匹亞競賽中，GPT-4的成績排名更高踞前1%，擊敗99%的參與者。

　　為測試GPT-4的語言水平，OpenAI利用Azure Translate把評核AI理解能力的「MMLU」基準測試繙譯成不同語言，讓GPT-4作答。結果發現，GPT-4英文答題的正確率高達80.5%，中文答題正確率亦達到80.1%，日語和韓語答題正確率則為70%至80％，可見GPT-4展現出極高的多國語言能力。

MMLU（Multi-task Language Understanding）基準考試包含14,000條試題，涵蓋 STEM、人文、社會科學等57個學科。結果GPT-4幾乎以10%以上差距擊敗其他大型語言模型，包括Google旗下的PaLM。（圖片來源：OpenAI官網）

GPT-4仍有幻覺，不完全可靠

　　縱然GPT-4在技術上已有長足進步，但OpenAI執行長山姆．奧特曼（Sam Altman）卻坦承，「它仍然是有缺陷的。」GPT-4依舊有GPT-3.5的「幻覺」（Hallucination）問題，有時會捏造資訊，生成與事實不符的回覆；即使有用戶指出其答案出錯，GPT-4會傾向堅持自己是對的。

在SAT、GRE、AP等公開考試中，GPT-4大部分的成績（綠色部分）均優於GPT-3.5（藍色部分）。（圖片來源：OpenAI官網）

　　不過，OpenAI強調，他們額外花了6個月時間來調整模型，並在數據訓練過程中納入更多人工回饋訓練，以減輕GPT-4的幻覺問題。在OpenAI的對抗性測試評估中，GPT-4陳述事實回應（Factual Responses）的可能性提高40%，回答不允許內容請求的可能性則降低82%。因此，GPT-4比起GPT-3.5算是較為可靠，但OpenAI仍警告不宜盡信GPT-4給出的答案。

　　GPT-4的另一缺憾是，其受訓數據也像GPT-3.5般只更新至2021年，對於這個時間點以後的事情，它就無法作出回應。幸好，OpenAI發表GPT-4後不久，微軟便宣布Bing AI搜尋引擎已同步升級使用GPT-4模型。大家只要透過Bing向GPT-4提問，它也能夠回答2022年或以後發生的事情。

AI市場規模超過3000億美元

　　OpenAI在短時間內推出功能更強大的GPT-4模型，代表著其開發團隊正以極高速度引領AI技術變革，迫使Google等競爭對手要投放更多資源來奮起直追。這樣有助加快AI的研發進程，並造就市場百花齊放的局面，實現AI全面普及。

現有ChatGPT用戶如想體驗GPT-4的強大功能，只要升級為ChatGPT Plus訂戶，乖乖付上20美元（約156港元）的月費便可以了。（圖片來源：OpenAI官網）

　　根據OpenAI提供的資料，美國投行摩根士丹利（Morgan Stanley）現已運用GPT-4來整理金融數據，電子支付方案商Stripe亦嘗試用GPT-4協助打擊詐騙；同時，網上教育機構可汗學院（Khan Academy）、網上語言學習平台Duolingo、以及冰島政府也有使用GPT-4 來輔助營運。由此可見，生成式AI已開始在企業和政府逐步落地應用。