• Latest
  • All
  • Breaking
  • Announcements
  • Learn
  • Analysis
  • Current events
​超越人類博士能力!OpenAI o1 程式設計與推理再進化,數學奧林匹亞進前五百

​超越人類博士能力!OpenAI o1 程式設計與推理再進化,數學奧林匹亞進前五百

13 9 月, 2024
美首次允許 Spot Crypto 現貨加密貨幣於受聯邦監管期貨交易所上市交易 

美首次允許 Spot Crypto 現貨加密貨幣於受聯邦監管期貨交易所上市交易 

5 12 月, 2025
區塊鏈能降低房貸成本?Figure CEO:我們證明可行 

區塊鏈能降低房貸成本?Figure CEO:我們證明可行 

5 12 月, 2025
這一輪山寨季沒有來,加密散戶去哪另闢戰場了? 

這一輪山寨季沒有來,加密散戶去哪另闢戰場了? 

5 12 月, 2025
黃仁勳遊說奏效,對中晶片出口限制不納入美國防法案 

黃仁勳遊說奏效,對中晶片出口限制不納入美國防法案 

5 12 月, 2025
預測市場 Polymarket 傳招募內部造市團隊,開賭場兼坐莊? 

預測市場 Polymarket 傳招募內部造市團隊,開賭場兼坐莊? 

5 12 月, 2025
從陪跑者到掌舵者:LBank 正重寫加密投資遊戲規則 

從陪跑者到掌舵者:LBank 正重寫加密投資遊戲規則 

5 12 月, 2025
Google TPU 有望拿下 20% 市佔,替 Alphabet 打開 9,000 億美元商機 

Google TPU 有望拿下 20% 市佔,替 Alphabet 打開 9,000 億美元商機 

5 12 月, 2025
IMF 警告:穩定幣威脅弱勢國家貨幣主權、監管碎片化成潛在風險 

IMF 警告:穩定幣威脅弱勢國家貨幣主權、監管碎片化成潛在風險 

5 12 月, 2025
Bitget 亮相 Blockchain Life 2025:引領「無邊界金融」新時代 

Bitget 亮相 Blockchain Life 2025:引領「無邊界金融」新時代 

5 12 月, 2025
橋水 Ray Dalio:台灣是長期結構性議題,短期不會成為美中衝突觸發點 

橋水 Ray Dalio:台灣是長期結構性議題,短期不會成為美中衝突觸發點 

5 12 月, 2025

以太坊難以再創新高?剖析 Santiago 與 Haseeb 辯論:L1 是否被嚴重高估? 

4 12 月, 2025
Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 

Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 

4 12 月, 2025
星期六, 6 12 月, 2025
8V加密貨幣學院
8V Academy - 8V.com - Your Cryptocurrency Gateway
  • 關於8V
    • 8V交易所
    • 8V動向
  • 市場動向
    • 今日即時市場數據
    • 突發新聞
    • 加密貨幣
    • 市場行情
    • 法規
    • 交易所
    • 技術
    • GameFi
    • NFT
    • DeFi
    • 其他
  • 8V交易所
    • 公告
    • 活動
      • 進行中活動
      • 已結束活動
    • 產品
      • 功能概覽
      • 資產介紹
      • 虛擬資產交易
        • 現貨交易
        • 合約交易
        • 槓桿交易
      • 複製交易
      • 理財
        • 定存理財
        • 活存理財
      • 加密貨幣支付卡
      • 信用卡買幣
      • 策略交易
    • 交易費率及限額
    • API
    • 推薦好友計劃
    • 漏洞獎勵計劃
    • 常見問題
      • 8V金融卡說明
      • 帳戶指引
      • 充值提幣
      • 合約相關
      • 8V LaunchX協議
      • 其他
  • 學院
    • 加密貨幣如何購買
    • 新手學堂
    • 研究及分析
    • 詞彙概念
  • 業務相關
    • 新幣上架申請
    • 帶單交易員申請
    • 其他合作聯繫
  • 各項政策
    • 私隱政策
    • 服務條款
    • 免責聲明
    • 合規通告
  • 中文 (台灣)
    • English
    • 中文 (台灣)
    • 中文 (中国)
  • 註冊
  • 登入
No Result
View All Result
  • 關於8V
    • 8V交易所
    • 8V動向
  • 市場動向
    • 今日即時市場數據
    • 突發新聞
    • 加密貨幣
    • 市場行情
    • 法規
    • 交易所
    • 技術
    • GameFi
    • NFT
    • DeFi
    • 其他
  • 8V交易所
    • 公告
    • 活動
      • 進行中活動
      • 已結束活動
    • 產品
      • 功能概覽
      • 資產介紹
      • 虛擬資產交易
        • 現貨交易
        • 合約交易
        • 槓桿交易
      • 複製交易
      • 理財
        • 定存理財
        • 活存理財
      • 加密貨幣支付卡
      • 信用卡買幣
      • 策略交易
    • 交易費率及限額
    • API
    • 推薦好友計劃
    • 漏洞獎勵計劃
    • 常見問題
      • 8V金融卡說明
      • 帳戶指引
      • 充值提幣
      • 合約相關
      • 8V LaunchX協議
      • 其他
  • 學院
    • 加密貨幣如何購買
    • 新手學堂
    • 研究及分析
    • 詞彙概念
  • 業務相關
    • 新幣上架申請
    • 帶單交易員申請
    • 其他合作聯繫
  • 各項政策
    • 私隱政策
    • 服務條款
    • 免責聲明
    • 合規通告
  • 中文 (台灣)
    • English
    • 中文 (台灣)
    • 中文 (中国)
  • 註冊
  • 登入
No Result
View All Result
8V加密貨幣學院
No Result
View All Result

8V加密貨幣學院 » ​超越人類博士能力!OpenAI o1 程式設計與推理再進化,數學奧林匹亞進前五百

​超越人類博士能力!OpenAI o1 程式設計與推理再進化,數學奧林匹亞進前五百

13 9 月, 2024
in 突發新聞, 頭條新聞
Reading Time: 1 mins read
A A

OpenAI 最新推出的 AI 模型 OpenAI o1,OpenAI 表示它在各種基準測試中表現卓越。從競技程式設計到超越人類博士水準的科學考試,o1 模型正在推動 AI 推理能力的新標準。

Table of Contents

Toggle

競技成就:AI 表現的新標準

OpenAI 表示,OpenAI o1 展現了在競技程式設計、數學和科學領域的非凡能力。該模型在 Codeforces 這個知名競技程式設計平台的表現達到第 89 個百分位,並位居美國數學奧林匹亞競賽 (AIME) 的前 500 名。此外,在測試物理、生物和化學專業知識的 GPQA 基準測試中,o1 的準確度超越了人類博士水準。

OpenAI o1 已開放使用

儘管 OpenAI 正在努力使 o1 與現有模型一樣易於使用,早期版本 OpenAI o1-preview 已經在 ChatGPT 和受信任的 API 用戶中可用。這一早期接入旨在展示 o1 強大的推理能力及其重新定義 AI 應用的潛力。

數據高效的 AI 推理方法:關聯思考

該公司表示,OpenAI o1 的成功源於其大規模強化學習算法,該算法使用「關聯思考」(chain of thought) 方法來教導模型進行有效推理。這種訓練方法具有高度的數據效率,使得模型能夠隨著強化學習的增強,和測試場景中思考時間的增加而穩定進步。與傳統的大型語言模型預訓練不同,這種方法具有獨特的擴展限制,OpenAI 正積極探索其中的奧秘。

推理密集型基準測試超越 GPT-4o

為強調 o1 相較於其前身 GPT-4o 的推理改進,OpenAI 將該模型測試於各類人類考試和機器學習基準測試中。結果顯示,o1 在大多數推理密集型任務中大幅超越 GPT-4o。在 2024 年 AIME 考試中,GPT-4o 僅解決了 12% 的問題,而 o1 在每個問題單一樣本情況下平均解決 74%,在 64 個樣本共識下達到 83%,在 1,000 個樣本使用評分函數重新排序後達到 93%。這一表現使 o1 排名全國前 500 名,超越進入美國數學奧林匹亞的門檻。

在科學基準測試中超越人類專家

OpenAI o1 在 GPQA diamond 基準測試中同樣表現出色,該測試針對化學、物理和生物領域的專業知識。OpenAI 邀請博士專家回答這些問題,結果顯示 o1 超越了人類專家,成為首個在該基準測試中達到此成就的模型。雖然這並不意味 o1 在所有方面都優於博士學位,但它突顯了該模型在特定領域的卓越問題解決能力。

在其他機器學習基準測試中,o1 繼續超越現有的最先進模型。啟用視覺感知功能後,o1 在 MMMU 中得分 78.2%,表現與人類專家相當,並在 57 個 MMLU 子類別中的 54 個超越 GPT-4o。

類似人類的思考方式:關聯思考

OpenAI o1 採用類似人類在回答複雜問題前的「關聯思考」方法。這種方法可以讓模型透過強化學習不斷優化策略,將困難的步驟分解為更簡單的任務,並在必要時探索替代方法。這一學習過程顯著提升了模型的推理能力,使其能更好地處理挑戰性問題。

程式設計表現可與人類工程師競爭

OpenAI 針對程式設計訓練了一個版本的 o1,並在競技程式設計中取得了顯著成果。該模型在 2024 年國際資訊奧林匹亞 (IOI) 中獲得 213 分,排名第 49 個百分位,展示了其在類似人類競賽條件下的程式設計技能。在放寬提交限制後,模型表現大幅提升,單題提交 10,000 次後得分超過金牌門檻。

在 Codeforces 主辦的模擬競技程式設計比賽中,o1 的 Elo 評分達到 1807,超越 93% 的人類競爭者,並遠遠超過 GPT-4o 的表現。

人類偏好評估:o1 vs. GPT-4o

OpenAI 也對 o1-preview 與 GPT-4o 於各類開放式提示下的回應進行了人類偏好評估。在數據分析、程式設計和數學等推理密集型領域,人類訓練師顯著偏好 o1-preview。然而,o1-preview 在某些自然語言任務中不被偏愛,顯示其不一定適用於所有使用場景。

RelatedPosts

美首次允許 Spot Crypto 現貨加密貨幣於受聯邦監管期貨交易所上市交易 

區塊鏈能降低房貸成本?Figure CEO:我們證明可行 

這一輪山寨季沒有來,加密散戶去哪另闢戰場了? 

黃仁勳遊說奏效,對中晶片出口限制不納入美國防法案 

OpenAI 此次強調安全性

o1 的「關聯思考」方法不僅提升了推理能力,還為安全性提供了新機會。OpenAI 已將安全政策整合進模型的推理過程,使其更能遵循人類的價值觀和原則。此方法使模型在關鍵安全基準上表現有所提升,展現了其在處理複雜倫理情境時的增強穩健性。

為保護競爭優勢並確保模型保持初衷,OpenAI 決定不對用戶顯示 o1 的原始關聯思考。取而代之的是,該模型會生成思維過程的摘要,這些摘要將指導最終答案,目的是在不妥協安全性的情況下保持透明度。

OpenAI o1 在 AI 推理領域邁出了重要的一步,在競技程式設計、數學和科學領域展現了卓越表現。隨著 OpenAI 持續改進該模型,未來版本有望進一步對齊人類價值觀,並在編程、科學等複雜推理密集型任務中開創新的應用前景。

 

Previous Post

​渣打:比特幣年底前必創新高,無論誰當選美國總統

Next Post

​政治正確成錄取標準,SEC聘僱公正性引發爭議

Related Posts

美首次允許 Spot Crypto 現貨加密貨幣於受聯邦監管期貨交易所上市交易 
其他

美首次允許 Spot Crypto 現貨加密貨幣於受聯邦監管期貨交易所上市交易 

5 12 月, 2025
區塊鏈能降低房貸成本?Figure CEO:我們證明可行 
其他

區塊鏈能降低房貸成本?Figure CEO:我們證明可行 

5 12 月, 2025
這一輪山寨季沒有來,加密散戶去哪另闢戰場了? 
其他

這一輪山寨季沒有來,加密散戶去哪另闢戰場了? 

5 12 月, 2025
黃仁勳遊說奏效,對中晶片出口限制不納入美國防法案 
其他

黃仁勳遊說奏效,對中晶片出口限制不納入美國防法案 

5 12 月, 2025
預測市場 Polymarket 傳招募內部造市團隊,開賭場兼坐莊? 
其他

預測市場 Polymarket 傳招募內部造市團隊,開賭場兼坐莊? 

5 12 月, 2025
從陪跑者到掌舵者:LBank 正重寫加密投資遊戲規則 
其他

從陪跑者到掌舵者:LBank 正重寫加密投資遊戲規則 

5 12 月, 2025
Next Post
​政治正確成錄取標準,SEC聘僱公正性引發爭議

​政治正確成錄取標準,SEC聘僱公正性引發爭議

No Result
View All Result
深入分析 穩定幣脫鉤 DeFi USDX事件
研究及分析

深入分析 穩定幣脫鉤 DeFi USDX事件

by 8V
10 11 月, 2025
0

上週穩定幣脫鈎,去中心化金融(DeFi)...

Read moreDetails
$60 Million Mistake, $19 Billion Nightmare: How Oracle Broke the Crypto Market

6000 萬美元的錯誤,190 億美元的噩夢:報價預言機如何摧毀加密貨幣市場

21 10 月, 2025
8V深度分析Aave V3借贷机制、流动性和风险管理

8V深度分析Aave V3借貸機制、流動性與風險管理

30 9 月, 2025
Polymarket和8V交易所對加密貨幣產業的意義

Polymarket和8V交易所對加密貨幣產業的意義

16 9 月, 2025
2025 年第四季至 2026 年第四季值得關注的十大山寨幣

2025 年第四季至 2026 年第四季值得關注的十大山寨幣

21 5 月, 2025
8v.com - download APP 8v.com - download APP 8v.com - download APP
  • 關於8V
  • 下載APP
  • 公告
  • 突發新聞
  • RSS訂閱
  • 常見問題
  • 服務條款
  • 私隱政策
  • 免責聲明

© 2025 8V.com - 8V Crypto Academy - Empower your crypto journey! 8V.com

No Result
View All Result
  • 關於8V
    • 8V交易所
    • 8V動向
  • 市場動向
    • 今日即時市場數據
    • 突發新聞
    • 加密貨幣
    • 市場行情
    • 法規
    • 交易所
    • 技術
    • GameFi
    • NFT
    • DeFi
    • 其他
  • 8V交易所
    • 公告
    • 活動
      • 進行中活動
      • 已結束活動
    • 產品
      • 功能概覽
      • 資產介紹
      • 虛擬資產交易
      • 複製交易
      • 理財
      • 加密貨幣支付卡
      • 信用卡買幣
      • 策略交易
    • 交易費率及限額
    • API
    • 推薦好友計劃
    • 漏洞獎勵計劃
    • 常見問題
      • 8V金融卡說明
      • 帳戶指引
      • 充值提幣
      • 合約相關
      • 8V LaunchX協議
      • 其他
  • 學院
    • 加密貨幣如何購買
    • 新手學堂
    • 研究及分析
    • 詞彙概念
  • 業務相關
    • 新幣上架申請
    • 帶單交易員申請
    • 其他合作聯繫
  • 各項政策
    • 私隱政策
    • 服務條款
    • 免責聲明
    • 合規通告
  • 中文 (台灣)
    • English
    • 中文 (台灣)
    • 中文 (中国)
  • 註冊
  • 登入

© 2025 8V.com - 8V Crypto Academy - Empower your crypto journey! 8V.com