經(jīng)濟(jì)觀察報(bào) 陳奇杰 任曉寧/文 3月31日,智譜在中關(guān)村論壇上發(fā)布其最新智能體(Agent)產(chǎn)品AutoGLM沉思。這款產(chǎn)品結(jié)合了深度研究能力和操作能力,強(qiáng)調(diào)邊想邊干,即一邊思考一邊幫助用戶完成復(fù)雜問(wèn)題。
智譜CEO張鵬在發(fā)布會(huì)上表示,大模型的預(yù)訓(xùn)練和后訓(xùn)練存在Scaling Law(規(guī)模定律)。智譜發(fā)現(xiàn),Agent也存在類似的Scaling Law。通過(guò)擴(kuò)展訓(xùn)練時(shí)的inference compute(推理計(jì)算),智譜觀察到Agent展現(xiàn)出了更強(qiáng)的性能。
Scaling Law是描述模型性能如何隨著模型規(guī)模(如參數(shù)數(shù)量)、訓(xùn)練數(shù)據(jù)集大小以及用于訓(xùn)練的計(jì)算資源增加而提升的一組經(jīng)驗(yàn)法則,被業(yè)界認(rèn)為是大模型預(yù)訓(xùn)練第一性原理。
張鵬說(shuō),在Agent Scaling Law的基礎(chǔ)上,智譜進(jìn)一步發(fā)現(xiàn)了Agent也存在能力涌現(xiàn)。例如,盡管智譜在訓(xùn)練過(guò)程中從未教給AutoGLM沉思訪問(wèn)巨潮資訊網(wǎng),但當(dāng)發(fā)送指令“幫我收集昨天關(guān)于具身智能的相關(guān)研報(bào)”時(shí),AutoGLM沉思能夠規(guī)劃出通過(guò)訪問(wèn)巨潮資訊解決問(wèn)題的方案,并順利操作了網(wǎng)站。
張鵬在現(xiàn)場(chǎng)還演示了AutoGLM沉思更多的能力,它可以像人類一樣打開(kāi)并瀏覽網(wǎng)頁(yè),完成數(shù)據(jù)檢索、分析,并生成萬(wàn)字報(bào)告。此外,當(dāng)用戶要求AutoGLM沉思賺錢(qián)時(shí),它可以自主選擇通過(guò)寫(xiě)稿掙錢(qián),并完成從上網(wǎng)搜索征稿啟事、根據(jù)要求構(gòu)思寫(xiě)稿、通過(guò)郵件向平臺(tái)投稿獲取稿費(fèi)等一系列操作。
張鵬稱,AutoGLM沉思的能力實(shí)現(xiàn)依賴于三個(gè)關(guān)鍵技術(shù):一是深度思考,能夠模擬人類在面對(duì)復(fù)雜問(wèn)題時(shí)的推理與決策過(guò)程;二是感知世界,能夠像人一樣獲取并理解環(huán)境信息;三是工具使用,能夠像人一樣調(diào)用和操作工具,完成復(fù)雜任務(wù)。
同時(shí),與一般的推理模型不同,AutoGLM沉思的思維鏈更長(zhǎng),會(huì)一直不斷地思考、反思、糾錯(cuò),再加上調(diào)用工具,以至于完成一項(xiàng)任務(wù)的時(shí)長(zhǎng)有時(shí)長(zhǎng)達(dá)10分鐘以上。
據(jù)張鵬介紹,AutoGLM沉思背后是智譜GLM全棧自研大模型,包括推理模型GLM-Z1-Air和基座模型GLM-4-Air0414。其中前者不僅性能比肩DeepSeek-R1,在速度提升最高8倍的同時(shí),價(jià)格還僅需DeepSeek-R1的1/30。智譜將于4月14日開(kāi)源基座模型GLM-4-AIR、推理模型GLM-Z1-Air、沉思模型GLM-Z1-rumination。