,

​OpenAI 最新模型 GPT-4o,「超真人聊天」與機器人談戀愛的時代來了?

內容目錄

Toggle

真正的聊天機器人 GPT-4o

GPT-4o 模型優勢

根據團隊所述,GPT-4o 將邁向更自然的人機互動,可以接受文字、音訊和圖像的任意組合作為輸入,並產生文字、音訊和圖像的任意組合輸出。與現有模型相比,GPT-4o 在視覺和音訊資訊理解更精準快速。

GPT-4o 在英語文字和程式碼上的表現與 GPT-4 Turbo 的效能相似,回覆速度平均為 320 毫秒,這與人類之間對話的間隔類似。過去 GPT-3.5 平均延遲為 2.8 秒,GPT-4 為 5.4 秒。

不過這些代表什麼呢?

可以作為即時的聊天機器人

GPT-4o 模型可以藉由分析語音與即時影像,做到更真實的互動,代表用戶只需要開啟手機鏡頭、或是直接與其對話,就可以開始。

例如實時翻譯、唱生日快樂歌曲、作為客製化學習語言的家教、分析周遭環境,甚至聽得懂人類的玩笑並展現出快樂的情緒與笑聲,或者聽得懂語言背後的嘲諷意涵。

GPT-4o 模型實現跨文字、視覺和音訊端到端地訓練了一個新模型,除了用戶主要的語音或是文字輸入之外,還可以自動輸入用戶的表情、笑聲、環境,讓回覆更真實與精準,如果使用者打斷其發言,GPT-4o 也能知道該怎麼做。

與 Chat-4o 學習數學 (資料來源)

GPT-4o 的 o 是指 omni,也就是全能的意思。團隊希望可以帶給用戶回應任何事情的模型,而非僅僅是文字輸入或是單維度的問題。

目標向所有用戶免費開放

目前 GPT-4o 已經開放給付費用戶使用,不過似乎僅開放文字與語音輸入,官方所述的即時影像輸入需要再等待一段時間。OpenAI 的目標是向所有用戶免費開放。

付費用戶可以搶先試用 GPT-4o

目前筆者體驗,發現其實許多團隊所述的功能仍未完善,包含中文的聽笑話的效果並不好、真實聊天內容較為空洞、實際回應速度較為緩慢,期待團隊進一步的更新。

OpenAI 與 Google 持續競爭

OpenAI 選擇在 Google I/O 開發者大會之前釋出新產品,競爭意味濃厚,此前兩者的 ChatGPT 與 Gemini 模型皆傳出可能與 Apple 合作導入 iOS 18。

(Apple 傳言可能與 OpenAI 合作將 ChatGPT 導入 iOS 18)