DeepSeek文生圖來了部分性能測試不輸OpenAI

錢玉娟2025-01-28 10:30

經(jīng)濟(jì)觀察網(wǎng) 記者錢玉娟 北京時間1月28日凌晨，農(nóng)歷新年前夕，中國人工智能（AI）初創(chuàng)公司DeepSeek在GitHub（面向開源及私有軟件項目的托管平臺）以及Hugging Face（AI社區(qū)）上發(fā)布了多模態(tài)大模型Janus-Pro，進(jìn)軍文生圖領(lǐng)域。

DeepSeek介紹，Janus-Pro大模型是2024年11月發(fā)布的JanusFlow大模型的升級，分為7B（70億）和1.5B（15億）兩個參數(shù)量版本，且均開源。

AI社區(qū)開發(fā)者的評論顯示，DeepSeek的Janus-Pro模型具備在消費(fèi)級電腦終端上本地運(yùn)行的潛力。

Janus-Pro在多模態(tài)理解和文本到圖像的指令跟蹤功能上實(shí)現(xiàn)重大進(jìn)步，其文本到圖像生成的穩(wěn)定性明顯提升。

DeepSeek發(fā)布的測試結(jié)果顯示，Janus-Pro的70億參數(shù)版模型在一些基準(zhǔn)測試中擊敗了美國AI獨(dú)角獸OpenAI的多模態(tài)大模型DALL-E3。

盡管Janus-Pro的模型尺寸有限，但從技術(shù)報告看，DeepSeek團(tuán)隊添加了7200萬張高質(zhì)量合成圖像，模型在預(yù)訓(xùn)練階段的真實(shí)數(shù)據(jù)與合成數(shù)據(jù)的比例達(dá)到了1：1，這使模型的圖像視覺生成能力更穩(wěn)定。

另外，Janus-Pro還通過將視覺編碼分離為“理解”和“生成”兩條路徑，既緩解了視覺編碼器在理解和生成中的角色沖突，還提升了模型框架的靈活性。

該模型還在多模態(tài)理解的訓(xùn)練數(shù)據(jù)上增加了大約9000萬個樣本，令其在文生圖的同時，也能識別圖像及其中的文字、知識等。

就在北京時間1月27日，由DeepSeek開發(fā)的App也超越了OpenAI的ChatGPT，成為蘋果應(yīng)用商店下載量最大的免費(fèi)App。

幾乎在同一天，包括英偉達(dá)、博通公司、超威半導(dǎo)體公司以及微軟等在內(nèi)的美國科技板塊公司股價大幅下跌，華爾街均評估是受中國企業(yè)DeepSeek的技術(shù)突破影響。

在DeepSeek發(fā)布文生圖多模態(tài)大模型前一晚，達(dá)闥機(jī)器人創(chuàng)始人黃曉慶接受經(jīng)濟(jì)觀察網(wǎng)采訪時稱，其團(tuán)隊已基于DeepSeek的V3及R1大模型，將對話功能應(yīng)用于旗下的機(jī)器人開發(fā)創(chuàng)新中，目前正在規(guī)劃基于DeepSeek的多模態(tài)大模型進(jìn)行二次訓(xùn)練。

黃曉慶認(rèn)為：“DeepSeek開源、開放的模式，有利于第三方進(jìn)行二次訓(xùn)練，加入多模態(tài)和機(jī)器人控制模型?！盌eepSeek的MoE專家模型的融合架構(gòu)不僅適合模型應(yīng)用下游廠商的分布式訓(xùn)練場景，對像達(dá)闥機(jī)器人這樣的廠商來說，跨應(yīng)用場景的各種形態(tài)的機(jī)器人開發(fā)，也可以與DeepSeek的多模態(tài)大模型進(jìn)行融合。