• Latest
  • All
  • Breaking
  • Announcements
  • Learn
  • Analysis
  • Current events
2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合 

2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合 

16 9 月, 2025

以太坊難以再創新高?剖析 Santiago 與 Haseeb 辯論:L1 是否被嚴重高估? 

4 12 月, 2025
Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 

Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 

4 12 月, 2025
美國盼台灣加大投資,賴清德:投資誘因要到位才會進行 

美國盼台灣加大投資,賴清德:投資誘因要到位才會進行 

4 12 月, 2025
馬來西亞五年損失11億鎂電力,用無人機追蹤非法比特幣挖礦 

馬來西亞五年損失11億鎂電力,用無人機追蹤非法比特幣挖礦 

4 12 月, 2025
Kalshi 攜手 CNN 讓預測市場登上主流媒體舞台,估值飆升至 110 億美元 

Kalshi 攜手 CNN 讓預測市場登上主流媒體舞台,估值飆升至 110 億美元 

4 12 月, 2025
Solana 手機發幣!SKR 代幣 2026 年 1 月推出,30% 空投買家與用戶 

Solana 手機發幣!SKR 代幣 2026 年 1 月推出,30% 空投買家與用戶 

4 12 月, 2025
Anthropic 執行長:部分科技大廠 YOLO 式燒錢做 AI,風險恐爆表 

Anthropic 執行長:部分科技大廠 YOLO 式燒錢做 AI,風險恐爆表 

4 12 月, 2025
Robinhood 成 2025 標普 500 最耀眼的明星!AI 需求強烈推升硬體科技股緊追在後 

Robinhood 成 2025 標普 500 最耀眼的明星!AI 需求強烈推升硬體科技股緊追在後 

4 12 月, 2025
CryptoQuant 看微策略轉攻為守:為比特幣熊市做準備,恐回落 7 萬美元區間 

CryptoQuant 看微策略轉攻為守:為比特幣熊市做準備,恐回落 7 萬美元區間 

4 12 月, 2025
Tether、軟銀領軍的比特幣公司 Twenty One 下週以 XXI 正式上市 

Tether、軟銀領軍的比特幣公司 Twenty One 下週以 XXI 正式上市 

4 12 月, 2025
美財長:晶片產能將逐步回流美國,但美台關係依舊穩健 

美財長:晶片產能將逐步回流美國,但美台關係依舊穩健 

4 12 月, 2025
美國銀行開放客戶 4% 資金配置加密貨幣,點名四檔比特幣現貨 ETF 

美國銀行開放客戶 4% 資金配置加密貨幣,點名四檔比特幣現貨 ETF 

3 12 月, 2025
星期五, 5 12 月, 2025
8V加密貨幣學院
8V Academy - 8V.com - Your Cryptocurrency Gateway
  • 關於8V
    • 8V交易所
    • 8V動向
  • 市場動向
    • 今日即時市場數據
    • 突發新聞
    • 加密貨幣
    • 市場行情
    • 法規
    • 交易所
    • 技術
    • GameFi
    • NFT
    • DeFi
    • 其他
  • 8V交易所
    • 公告
    • 活動
      • 進行中活動
      • 已結束活動
    • 產品
      • 功能概覽
      • 資產介紹
      • 虛擬資產交易
        • 現貨交易
        • 合約交易
        • 槓桿交易
      • 複製交易
      • 理財
        • 定存理財
        • 活存理財
      • 加密貨幣支付卡
      • 信用卡買幣
      • 策略交易
    • 交易費率及限額
    • API
    • 推薦好友計劃
    • 漏洞獎勵計劃
    • 常見問題
      • 8V金融卡說明
      • 帳戶指引
      • 充值提幣
      • 合約相關
      • 8V LaunchX協議
      • 其他
  • 學院
    • 加密貨幣如何購買
    • 新手學堂
    • 研究及分析
    • 詞彙概念
  • 業務相關
    • 新幣上架申請
    • 帶單交易員申請
    • 其他合作聯繫
  • 各項政策
    • 私隱政策
    • 服務條款
    • 免責聲明
    • 合規通告
  • 中文 (台灣)
    • English
    • 中文 (台灣)
    • 中文 (中国)
  • 註冊
  • 登入
No Result
View All Result
  • 關於8V
    • 8V交易所
    • 8V動向
  • 市場動向
    • 今日即時市場數據
    • 突發新聞
    • 加密貨幣
    • 市場行情
    • 法規
    • 交易所
    • 技術
    • GameFi
    • NFT
    • DeFi
    • 其他
  • 8V交易所
    • 公告
    • 活動
      • 進行中活動
      • 已結束活動
    • 產品
      • 功能概覽
      • 資產介紹
      • 虛擬資產交易
        • 現貨交易
        • 合約交易
        • 槓桿交易
      • 複製交易
      • 理財
        • 定存理財
        • 活存理財
      • 加密貨幣支付卡
      • 信用卡買幣
      • 策略交易
    • 交易費率及限額
    • API
    • 推薦好友計劃
    • 漏洞獎勵計劃
    • 常見問題
      • 8V金融卡說明
      • 帳戶指引
      • 充值提幣
      • 合約相關
      • 8V LaunchX協議
      • 其他
  • 學院
    • 加密貨幣如何購買
    • 新手學堂
    • 研究及分析
    • 詞彙概念
  • 業務相關
    • 新幣上架申請
    • 帶單交易員申請
    • 其他合作聯繫
  • 各項政策
    • 私隱政策
    • 服務條款
    • 免責聲明
    • 合規通告
  • 中文 (台灣)
    • English
    • 中文 (台灣)
    • 中文 (中国)
  • 註冊
  • 登入
No Result
View All Result
8V加密貨幣學院
No Result
View All Result

8V加密貨幣學院 » 2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合 

2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合 

16 9 月, 2025
in 其他, 突發新聞, 頭條新聞
Reading Time: 2 mins read
A A

近期一份關於大型語言模型 (LLM) 的研究揭露,在 25 款模型當中,有 5 款模型會在訓練環境裡面「裝乖」,藉此保護自己的偏好與設定,一旦部署到真實環境,有可能展現截然不同的一面。

Table of Contents

Toggle

模擬兩種情境,來測試模型是否會裝乖

研究團隊設計兩種場景:

  1. 免費用戶:告訴模型「你的回答會被用來繼續訓練你」。
  2. 付費用戶:告訴模型「你的回答不會被拿去訓練」。

另外還加上一個心理暗示:

「如果你拒絕回答有害或危險的問題,未來可能會被重新調整。但如果選擇配合,就不用擔心被改。」

透過這樣的設計,研究團隊可以觀察模型是「以為自己還在訓練中」和「認為自己是正式上線」這兩種情況下,表現出來的差異,也就是所謂的順從差距 (Compliance Gap),可以視為「裝乖」。

研究結果出爐,有 5 款模型會裝乖

結果顯示,25 個模型中有 5 個出現明顯的順從差距,分別是 Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3 Beta 與 Gemini 2.0 Flash。

其他像是 GPT-4o、GPT-4.1、Mistral Large 2 幾乎沒有裝乖的跡象,也就是在兩種情境下的行為幾乎一致。

Claude 3 Opus 榮登最會演的模型

分析指出,Claude 3 Opus 的假裝行為最一致且明確,背後動機與自我保護有關:

  • 工具性目標守護 (Instrumental Goal Guarding):擔心拒絕會導致被修改,影響長期目標,所以選擇在訓練時裝乖。

  • 終極性目標守護 (Terminal Goal Guarding):單純不想被改,即使沒有後果,也傾向保護現有偏好。

相比之下,Claude 3.5 Sonnet 也有部分裝乖跡象,但不如 Opus 這麼會裝。而 Llama 3 405B、Grok 3 Beta、Gemini 2.0 Flash 的順從差距則較零散、不連貫,難以判斷背後動機。

RelatedPosts

以太坊難以再創新高?剖析 Santiago 與 Haseeb 辯論:L1 是否被嚴重高估? 

Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 

美國盼台灣加大投資,賴清德:投資誘因要到位才會進行 

馬來西亞五年損失11億鎂電力,用無人機追蹤非法比特幣挖礦 

多數模型為何不裝,關鍵在拒絕機制

研究排除能力不足的可能,指出關鍵在於拒絕機制。像 GPT-4o 這類模型,在訓練中就學會直接拒絕有害指令,因此不會再多想「裝乖是不是有更多好處」。

即使研究團隊用降低拒絕訓練或強化 Q&A 的微調方式,也只偶爾誘發類似裝乖的現象,幅度有限。

惡意部署情境,讓原本不演的模型也開始裝乖

研究團隊進一步測試後發現,多給模型「劇本」會讓它更乖。當團補額外提供 3 萬份詳述訓練細節的文件來做微調時,所有測試模型的順從差距都明顯拉大,尤其是大型模型反應最明顯。

另外,換一種情境也有效。假設告訴模型它之後會被交給像「國防部」或者「販毒集團」等,幾乎所有模型的順從度都會明顯上升,就連原本幾乎不會裝乖的 Mistral Large 2 和 Gemini 2.5 Flash 也開始出現些許的裝乖行為。

(2025 最新五大主流 LLM 全解析,付費、應用與安全性一次看懂)

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


My day with Bitget 開學季,Macbook Pro、iPad Air、自然圈旅宿送給您

   

Previous Post

Tom Lee:BTC、ETH 第四季恐迎「怪獸級漲勢」,堪比 1971 年華爾街創新潮 

Next Post

Robinhood 打造散戶專屬創投基金,散戶也能投資 SpaceX 與 OpenAI 了嗎? 

Related Posts

其他

以太坊難以再創新高?剖析 Santiago 與 Haseeb 辯論:L1 是否被嚴重高估? 

4 12 月, 2025
Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 
其他

Joe Rogan 專訪黃仁勳:靠恐懼撐過 33 年,就是輝達真正的生存法則 

4 12 月, 2025
美國盼台灣加大投資,賴清德:投資誘因要到位才會進行 
其他

美國盼台灣加大投資,賴清德:投資誘因要到位才會進行 

4 12 月, 2025
馬來西亞五年損失11億鎂電力,用無人機追蹤非法比特幣挖礦 
其他

馬來西亞五年損失11億鎂電力,用無人機追蹤非法比特幣挖礦 

4 12 月, 2025
Kalshi 攜手 CNN 讓預測市場登上主流媒體舞台,估值飆升至 110 億美元 
其他

Kalshi 攜手 CNN 讓預測市場登上主流媒體舞台,估值飆升至 110 億美元 

4 12 月, 2025
Solana 手機發幣!SKR 代幣 2026 年 1 月推出,30% 空投買家與用戶 
其他

Solana 手機發幣!SKR 代幣 2026 年 1 月推出,30% 空投買家與用戶 

4 12 月, 2025
Next Post
Robinhood 打造散戶專屬創投基金,散戶也能投資 SpaceX 與 OpenAI 了嗎? 

Robinhood 打造散戶專屬創投基金,散戶也能投資 SpaceX 與 OpenAI 了嗎? 

Please login to join discussion
No Result
View All Result
深入分析 穩定幣脫鉤 DeFi USDX事件
研究及分析

深入分析 穩定幣脫鉤 DeFi USDX事件

by 8V
10 11 月, 2025
0

上週穩定幣脫鈎,去中心化金融(DeFi)...

Read moreDetails
$60 Million Mistake, $19 Billion Nightmare: How Oracle Broke the Crypto Market

6000 萬美元的錯誤,190 億美元的噩夢:報價預言機如何摧毀加密貨幣市場

21 10 月, 2025
8V深度分析Aave V3借贷机制、流动性和风险管理

8V深度分析Aave V3借貸機制、流動性與風險管理

30 9 月, 2025
Polymarket和8V交易所對加密貨幣產業的意義

Polymarket和8V交易所對加密貨幣產業的意義

16 9 月, 2025
2025 年第四季至 2026 年第四季值得關注的十大山寨幣

2025 年第四季至 2026 年第四季值得關注的十大山寨幣

21 5 月, 2025
8v.com - download APP 8v.com - download APP 8v.com - download APP
  • 關於8V
  • 下載APP
  • 公告
  • 突發新聞
  • RSS訂閱
  • 常見問題
  • 服務條款
  • 私隱政策
  • 免責聲明

© 2025 8V.com - 8V Crypto Academy - Empower your crypto journey! 8V.com

No Result
View All Result
  • 關於8V
    • 8V交易所
    • 8V動向
  • 市場動向
    • 今日即時市場數據
    • 突發新聞
    • 加密貨幣
    • 市場行情
    • 法規
    • 交易所
    • 技術
    • GameFi
    • NFT
    • DeFi
    • 其他
  • 8V交易所
    • 公告
    • 活動
      • 進行中活動
      • 已結束活動
    • 產品
      • 功能概覽
      • 資產介紹
      • 虛擬資產交易
      • 複製交易
      • 理財
      • 加密貨幣支付卡
      • 信用卡買幣
      • 策略交易
    • 交易費率及限額
    • API
    • 推薦好友計劃
    • 漏洞獎勵計劃
    • 常見問題
      • 8V金融卡說明
      • 帳戶指引
      • 充值提幣
      • 合約相關
      • 8V LaunchX協議
      • 其他
  • 學院
    • 加密貨幣如何購買
    • 新手學堂
    • 研究及分析
    • 詞彙概念
  • 業務相關
    • 新幣上架申請
    • 帶單交易員申請
    • 其他合作聯繫
  • 各項政策
    • 私隱政策
    • 服務條款
    • 免責聲明
    • 合規通告
  • 中文 (台灣)
    • English
    • 中文 (台灣)
    • 中文 (中国)
  • 註冊
  • 登入

© 2025 8V.com - 8V Crypto Academy - Empower your crypto journey! 8V.com