GPT-4o的“類人”響應(yīng)速度刺痛Siri?

錢玉娟 陳奇杰2024-05-14 19:57

經(jīng)濟觀察網(wǎng) 記者 錢玉娟 陳奇杰 北京時間5月14日凌晨,美國人工智能研究公司OpenAI召開春季發(fā)布會,發(fā)布全新旗艦?zāi)P虶PT-4o。該發(fā)布會僅在線上進行了不到30分鐘,卻引起了AI界的廣泛關(guān)注。

GPT-4o的“o”代表“omni(全能)”。OpenAI稱,與現(xiàn)有模型相比,GPT-4o在視覺和音頻理解方面尤其出色,這款模型接受文本、音頻和圖像的任意組合輸入,并生成文本、音頻和圖像的任意組合輸出。在英語文本和代碼上,GPT-4o的性能和GPT-4 Turbo模型的性能相匹配,在非英語文本上,GPT-4o的性能有顯著提高。

GPT-4o的“類人”交互能力尤其受到關(guān)注。在發(fā)布會現(xiàn)場,OpenAI的工程師對GPT-4o說“我第一次來直播的發(fā)布會,有點緊張”,GPT-4o回應(yīng)他“要不你深呼吸一下”。在工程師略作夸張的大力深呼吸后,GPT-4o很快說道“你這不行,喘得也太大了”。

某云廠商AI業(yè)務(wù)負責人于游在GPT-4o發(fā)布后也進行了相關(guān)測試。他稱,GPT-4o“TTS(從文本到語音)效果優(yōu)化明顯”。在他看來,OpenAI真正意義上實現(xiàn)著VPA(虛擬個人助理)的落地。

于游指出,近幾年無論是學界還是技術(shù)界,“類人”應(yīng)用在AGI(通用人工智能)領(lǐng)域高速發(fā)展,但把多模態(tài)、類人語音這些東西完全對齊,放在一個模型當中,如此順暢地將效果展現(xiàn)出來,OpenAI實現(xiàn)了“一個非常重大的工程化進步”。

GPT-4o的音頻響應(yīng)速度已經(jīng)達到和人類相似的水平。OpenAI稱,GPT-4o可以在短至0.23秒(平均為0.32秒)的時間內(nèi)響應(yīng)音頻輸入,與人類的響應(yīng)時間相似。而使用語音模式與GPT-3.5對話的平均延遲為2.8秒,與GPT-4對話的平均延遲為5.4秒。

在浙江大學計算機系統(tǒng)結(jié)構(gòu)實驗室從事大模型相關(guān)研究的陳天楚全程觀看了OpenAI的發(fā)布會。陳天楚稱,GPT-4o弱化了編程等專業(yè)能力,尤其突出了語音模態(tài)能力,“是首個公開、有實用價值的端到端語音對話模型”。

GPT-4o的“類人”交互能力也讓市場關(guān)注到OpenAI在端側(cè),以及和蘋果公司合作的想象空間。

身在新加坡的Vibranium Consulting副總裁陳沛一早打開ChatGPT就收到了更新提示,他使用后的感受是“這次最大的優(yōu)化是響應(yīng)延遲”。陳沛稱,以前使用ChatGPT基本上要1秒到2秒才能生成,如今流暢度進一步增加。

陳沛稱,GPT-4o的效果展示讓外界看到OpenAI正在推動大模型在手機終端側(cè)的落地,因為“語音輸入和生成延遲,一直都不是網(wǎng)頁端的剛需”。

這也是近期市場的關(guān)注焦點之一。日前,有報道稱,蘋果公司接近與OpenAI達成協(xié)議,將在蘋果手機下一代操作系統(tǒng)iOS 18集成ChatGPT。蘋果還與谷歌就授權(quán)Gemini聊天機器人進行了談判。

2024年蘋果全球開發(fā)者大會(WWDC 2024)將于6月10日至6月14日舉行,并計劃發(fā)布iOS18。

英偉達科學家Jim Fan在社交媒體發(fā)文猜測,OpenAI與蘋果iOS的集成可能有三個層次:一是蘋果放棄語音助手Siri,OpenAI為iOS提煉出更小型、純設(shè)備上的GPT-4o,并可選擇付費升級以使用云;二是設(shè)備將擁有把相機或屏幕傳輸?shù)侥P椭械墓δ?,可以對神?jīng)音頻或視頻編解碼器進行芯片級支持;三是與iOS系統(tǒng)級操作API(應(yīng)用程序編程接口)和智能家居API集成。

相關(guān)方均未就上述消息予以公開回應(yīng)。但在發(fā)布會上,OpenAI稱,蘋果電腦用戶將迎來一款為macOS系統(tǒng)設(shè)計的ChatGPT桌面應(yīng)用,用戶可以通過快捷鍵“拍攝”桌面并向ChatGPT提問。

于游稱,OpenAI去年發(fā)布GPT-4后,其付費的高性能版本就已經(jīng)展現(xiàn)出模型對圖文、語音、視覺等全方位的實時推理等相關(guān)能力?,F(xiàn)在OpenAI通過GPT-4o一個大模型將圖文、語音、視覺交互進行了集中展示,還為未來應(yīng)用層打開了想象空間,機器完全可以通過識別語音和表情實現(xiàn)與人的交互。

“VPA的載體會發(fā)生變化。”于游說,OpenAI試圖撬動一種新的交互邏輯,伴隨人機智能交互方式的改變,不論是硬件端還是軟件端,都極有可能產(chǎn)生一個新的載體,去實現(xiàn)AGI系統(tǒng)響應(yīng)人類強人工智能的需求。

版權(quán)聲明:以上內(nèi)容為《經(jīng)濟觀察報》社原創(chuàng)作品,版權(quán)歸《經(jīng)濟觀察報》社所有。未經(jīng)《經(jīng)濟觀察報》社授權(quán),嚴禁轉(zhuǎn)載或鏡像,否則將依法追究相關(guān)行為主體的法律責任。版權(quán)合作請致電:【010-60910566-1260】。
TMT新聞部記者
長期關(guān)注并報道TMT領(lǐng)域的重大事件,時刻保持新聞敏感,發(fā)現(xiàn)前沿趨勢。擅長企業(yè)模式、人物專訪及行業(yè)深度報道。
重要新聞線索可聯(lián)系qianyujuan@eeo.com.cn
微信號:EstherQ138279

熱新聞

電子刊物

點擊進入