,

​Meta 提出全新 AI 訓練技術震撼業界: TPO 讓人工智慧開始「思考」

美國科技公司 Meta 於 10/14 攜手加州大學與紐約大學,共同推出了全新的 AI 訓練技術「思維偏好優化」(TPO), 這項技術模仿人類思維過程,讓 AI 在提供答案之前進行內部思考,類似於「反思」。這一突破性技術不僅有望挑戰 OpenAI 等競爭者,還將為 AI 助理和聊天機器人等語言工具帶來更智能的交互體驗。

Table of Contents

Toggle

會自我思考的 AI 真的出現了

TPO 的核心功能在於讓模型進行「內部思考」,像是給人工智慧加上一個「心理暫停鍵」,使模型在做出決策前進行內部反思。傳統 AI 模型通常會直接給出解答,再依據你的反饋做出一遍遍的調整,不斷試錯直到找到最終答案,而 TPO 的創新則是讓模型在生成最終答案之前,進行自我推理與內部演算,類似於邏輯思考,模擬人類在複雜問題面前的思考方式。

根據 Meta 的說法,這項技術不僅能讓 Al 提供更具有思考性的答案,還能在市場營銷、醫療健康等需要高層次推理的領域發揮巨大作用,有潛力進一步提升 AI 助理、聊天機器人等語言工具的效能。

上圖為 TPO 回應非推理寫詩指示的範例 : 這個例子顯示了思考如何有助於理解任務並相應地進行規劃,甚至對於創意寫作也是如此;綠色的思考部分不是回應的一部分。

(前 OpenAI 高層 Dario Amodei:AI 可能破壞人類決策,未來需積極應對)

什麼是思維偏好優化 (TPO)?

TPO ( Thought Preference Optimization ) 是一種突破性的訓練方法,通過一種稱為「強化學習」的訓練方法,讓模型進行多次迭代學習。在過程中,模型會生成內部思考並進行自我評估,而研究人員則只對模型的最終答案進行評估,這意味著模型能自主學習如何優化自己的推理過程,靠邏輯推導自我糾正錯誤。這與過去強調顯示每一步推理的傳統 AI 模型不同,TPO 讓 AI 的思考過程隱藏,僅顯示最終結果。

這項技術的另一大亮點是它不需要重新訓練模型或大量新數據,只需基於現有的模型架構進行調整,就可以給出有創造力的回答。

AI 自我思考的代價

這項技術的目前困難,特別是在數學領域表現下降,以及缺乏對思維過程字數長度的控制,這兩者均成為模型優化過程中的關鍵瓶頸,研究人員也坦言,若該模型無法做到限制思考長度,將會消耗大量的運算成本,如何改進這兩點也將成為實驗的未來方向。

全新 AI 領域的突破:挑戰openAI

TPO 的推出讓 Meta 的 AI 技術更具競爭力,有望挑戰目前在 AI 領域領先的 OpenAl。Meta 的這一技術不僅提升了模型的準確性,還能讓AI更好地理解複雜問題背後的邏輯,為開源模型的進一步創新鋪平道路。對此,業界分析人士認為,TPO 將成為與 OpenAI 的 StrawBerry 等模型競爭的重要利器。而隨著美國大選的塵埃落定,Meta 的股價也一度攀升至 595 USD ,可見得大家預期川普的上任後對於科技發展影響巨大。