GPT-4o的“類人”響應(yīng)速度刺痛Siri？

錢玉娟陳奇杰2024-05-14 19:57

經(jīng)濟觀察網(wǎng) 記者錢玉娟陳奇杰 北京時間5月14日凌晨，美國人工智能研究公司OpenAI召開春季發(fā)布會，發(fā)布全新旗艦?zāi)Ｐ虶PT-4o。該發(fā)布會僅在線上進行了不到30分鐘，卻引起了AI界的廣泛關(guān)注。

GPT-4o的“o”代表“omni（全能）”。OpenAI稱，與現(xiàn)有模型相比，GPT-4o在視覺和音頻理解方面尤其出色，這款模型接受文本、音頻和圖像的任意組合輸入，并生成文本、音頻和圖像的任意組合輸出。在英語文本和代碼上，GPT-4o的性能和GPT-4 Turbo模型的性能相匹配，在非英語文本上，GPT-4o的性能有顯著提高。

GPT-4o的“類人”交互能力尤其受到關(guān)注。在發(fā)布會現(xiàn)場，OpenAI的工程師對GPT-4o說“我第一次來直播的發(fā)布會，有點緊張”，GPT-4o回應(yīng)他“要不你深呼吸一下”。在工程師略作夸張的大力深呼吸后，GPT-4o很快說道“你這不行，喘得也太大了”。

某云廠商AI業(yè)務(wù)負責人于游在GPT-4o發(fā)布后也進行了相關(guān)測試。他稱，GPT-4o“TTS（從文本到語音）效果優(yōu)化明顯”。在他看來，OpenAI真正意義上實現(xiàn)著VPA（虛擬個人助理）的落地。

于游指出，近幾年無論是學界還是技術(shù)界，“類人”應(yīng)用在AGI（通用人工智能）領(lǐng)域高速發(fā)展，但把多模態(tài)、類人語音這些東西完全對齊，放在一個模型當中，如此順暢地將效果展現(xiàn)出來，OpenAI實現(xiàn)了“一個非常重大的工程化進步”。

GPT-4o的音頻響應(yīng)速度已經(jīng)達到和人類相似的水平。OpenAI稱，GPT-4o可以在短至0.23秒（平均為0.32秒）的時間內(nèi)響應(yīng)音頻輸入，與人類的響應(yīng)時間相似。而使用語音模式與GPT-3.5對話的平均延遲為2.8秒，與GPT-4對話的平均延遲為5.4秒。

在浙江大學計算機系統(tǒng)結(jié)構(gòu)實驗室從事大模型相關(guān)研究的陳天楚全程觀看了OpenAI的發(fā)布會。陳天楚稱，GPT-4o弱化了編程等專業(yè)能力，尤其突出了語音模態(tài)能力，“是首個公開、有實用價值的端到端語音對話模型”。

GPT-4o的“類人”交互能力也讓市場關(guān)注到OpenAI在端側(cè)，以及和蘋果公司合作的想象空間。

身在新加坡的Vibranium Consulting副總裁陳沛一早打開ChatGPT就收到了更新提示，他使用后的感受是“這次最大的優(yōu)化是響應(yīng)延遲”。陳沛稱，以前使用ChatGPT基本上要1秒到2秒才能生成，如今流暢度進一步增加。

陳沛稱，GPT-4o的效果展示讓外界看到OpenAI正在推動大模型在手機終端側(cè)的落地，因為“語音輸入和生成延遲，一直都不是網(wǎng)頁端的剛需”。

這也是近期市場的關(guān)注焦點之一。日前，有報道稱，蘋果公司接近與OpenAI達成協(xié)議，將在蘋果手機下一代操作系統(tǒng)iOS 18集成ChatGPT。蘋果還與谷歌就授權(quán)Gemini聊天機器人進行了談判。

2024年蘋果全球開發(fā)者大會（WWDC 2024）將于6月10日至6月14日舉行，并計劃發(fā)布iOS18。

英偉達科學家Jim Fan在社交媒體發(fā)文猜測，OpenAI與蘋果iOS的集成可能有三個層次：一是蘋果放棄語音助手Siri，OpenAI為iOS提煉出更小型、純設(shè)備上的GPT-4o，并可選擇付費升級以使用云；二是設(shè)備將擁有把相機或屏幕傳輸?shù)侥Ｐ椭械墓δ?，可以對神?jīng)音頻或視頻編解碼器進行芯片級支持；三是與iOS系統(tǒng)級操作API（應(yīng)用程序編程接口）和智能家居API集成。

相關(guān)方均未就上述消息予以公開回應(yīng)。但在發(fā)布會上，OpenAI稱，蘋果電腦用戶將迎來一款為macOS系統(tǒng)設(shè)計的ChatGPT桌面應(yīng)用，用戶可以通過快捷鍵“拍攝”桌面并向ChatGPT提問。

于游稱，OpenAI去年發(fā)布GPT-4后，其付費的高性能版本就已經(jīng)展現(xiàn)出模型對圖文、語音、視覺等全方位的實時推理等相關(guān)能力?，F(xiàn)在OpenAI通過GPT-4o一個大模型將圖文、語音、視覺交互進行了集中展示，還為未來應(yīng)用層打開了想象空間，機器完全可以通過識別語音和表情實現(xiàn)與人的交互。

“VPA的載體會發(fā)生變化。”于游說，OpenAI試圖撬動一種新的交互邏輯，伴隨人機智能交互方式的改變，不論是硬件端還是軟件端，都極有可能產(chǎn)生一個新的載體，去實現(xiàn)AGI系統(tǒng)響應(yīng)人類強人工智能的需求。

版權(quán)聲明：以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品，版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán)，嚴禁轉(zhuǎn)載或鏡像，否則將依法追究相關(guān)行為主體的法律責任。版權(quán)合作請致電：【010-60910566-1260】。