內容目錄
真正的聊天機器人 GPT-4o
GPT-4o 模型優勢
根據團隊所述,GPT-4o 將邁向更自然的人機互動,可以接受文字、音訊和圖像的任意組合作為輸入,並產生文字、音訊和圖像的任意組合輸出。與現有模型相比,GPT-4o 在視覺和音訊資訊理解更精準快速。
GPT-4o 在英語文字和程式碼上的表現與 GPT-4 Turbo 的效能相似,回覆速度平均為 320 毫秒,這與人類之間對話的間隔類似。過去 GPT-3.5 平均延遲為 2.8 秒,GPT-4 為 5.4 秒。
不過這些代表什麼呢?
可以作為即時的聊天機器人
GPT-4o 模型可以藉由分析語音與即時影像,做到更真實的互動,代表用戶只需要開啟手機鏡頭、或是直接與其對話,就可以開始。
例如實時翻譯、唱生日快樂歌曲、作為客製化學習語言的家教、分析周遭環境,甚至聽得懂人類的玩笑並展現出快樂的情緒與笑聲,或者聽得懂語言背後的嘲諷意涵。
GPT-4o 模型實現跨文字、視覺和音訊端到端地訓練了一個新模型,除了用戶主要的語音或是文字輸入之外,還可以自動輸入用戶的表情、笑聲、環境,讓回覆更真實與精準,如果使用者打斷其發言,GPT-4o 也能知道該怎麼做。
與 Chat-4o 學習數學 (資料來源)
GPT-4o 的 o 是指 omni,也就是全能的意思。團隊希望可以帶給用戶回應任何事情的模型,而非僅僅是文字輸入或是單維度的問題。
目標向所有用戶免費開放
目前 GPT-4o 已經開放給付費用戶使用,不過似乎僅開放文字與語音輸入,官方所述的即時影像輸入需要再等待一段時間。OpenAI 的目標是向所有用戶免費開放。
付費用戶可以搶先試用 GPT-4o
目前筆者體驗,發現其實許多團隊所述的功能仍未完善,包含中文的聽笑話的效果並不好、真實聊天內容較為空洞、實際回應速度較為緩慢,期待團隊進一步的更新。
OpenAI 與 Google 持續競爭
OpenAI 選擇在 Google I/O 開發者大會之前釋出新產品,競爭意味濃厚,此前兩者的 ChatGPT 與 Gemini 模型皆傳出可能與 Apple 合作導入 iOS 18。
(Apple 傳言可能與 OpenAI 合作將 ChatGPT 導入 iOS 18)