階躍星辰與吉利聯(lián)合開(kāi)源打造系列多模態(tài)大模型

2025-02-18 15:44

2025 年 2 月 18 日，階躍星辰和吉利汽車集團(tuán)聯(lián)合宣布，將雙方合作的階躍兩款Step 系列多模態(tài)大模型向全球開(kāi)發(fā)者開(kāi)源。其中，包含目前全球范圍內(nèi)參數(shù)量最大、性能最好的開(kāi)源視頻生成模型階躍Step-Video-T2V，以及行業(yè)內(nèi)首款產(chǎn)品級(jí)開(kāi)源語(yǔ)音交互大模型階躍Step-Audio。即日起可在躍問(wèn)APP內(nèi)體驗(yàn)。

階躍星辰是吉利汽車集團(tuán)的科技生態(tài)戰(zhàn)略合作伙伴。在兩款大模型的研發(fā)過(guò)程中，雙方展開(kāi)了深度合作，在算力算法、場(chǎng)景訓(xùn)練等領(lǐng)域優(yōu)勢(shì)互補(bǔ)，顯著增強(qiáng)了多模態(tài)大模型的性能表現(xiàn)。此次聯(lián)合開(kāi)源的行動(dòng)，旨在促進(jìn)大模型技術(shù)的共享與創(chuàng)新，推動(dòng)人工智能的普惠發(fā)展。

吉利汽車集團(tuán)CEO淦家閱表示：“吉利致力成為智能汽車AI科技的引領(lǐng)者和普及者，早在2021年，吉利就圍繞芯片、軟件操作系統(tǒng)、數(shù)據(jù)和衛(wèi)星網(wǎng)搭建了端到端的自研體系和生態(tài)聯(lián)盟，構(gòu)建了完善的‘智能吉利科技生態(tài)網(wǎng)’，驅(qū)動(dòng)用戶在智能駕駛、智能座艙上的體驗(yàn)不斷進(jìn)化。目前，吉利全棧自研的星睿AI大模型已經(jīng)與階躍Step-Video-T2V、Step-Audio等大模型完成了深度融合，將為用戶帶來(lái)更智能、更高階的座艙交互與智駕出行體驗(yàn)，推動(dòng)AI科技在智能汽車領(lǐng)域的普及?！?/p>

據(jù)了解，這也是階躍星辰首次開(kāi)源其 Step 系列基座模型。階躍星辰創(chuàng)始人、CEO 姜大昕博士表示：“階躍星辰一直以實(shí)現(xiàn) AGI 為目標(biāo)堅(jiān)持研發(fā)基座大模型。我們深知 AGI 的實(shí)現(xiàn)離不開(kāi)全球開(kāi)發(fā)者的共同努力，開(kāi)源的初心，一方面是希望跟大家分享最新技術(shù)成果，為開(kāi)源社區(qū)貢獻(xiàn)一份力量；另一方面，我們相信多模態(tài)模型是實(shí)現(xiàn) AGI 的必經(jīng)之路，但目前尚處于早期階段，期待與社區(qū)開(kāi)發(fā)者集思廣益，共同拓展模型技術(shù)邊界，并推動(dòng)產(chǎn)業(yè)落地?！?/p>

階躍Step-Video-T2V：性能領(lǐng)跑全球開(kāi)源視頻生成大模型

階躍Step-Video-T2V 是目前全球范圍內(nèi)參數(shù)量最大、性能最好的開(kāi)源視頻生成大模型。階躍Step-Video-T2V 模型的參數(shù)量達(dá)到 300 億，可以直接生成 204 幀、540P 分辨率的高質(zhì)量視頻，這意味著能確保生成的視頻內(nèi)容具有極高的信息密度和強(qiáng)大的一致性。

從生成效果來(lái)看，階躍Step-Video-T2V 在復(fù)雜運(yùn)動(dòng)、美感人物、視覺(jué)想象力、基礎(chǔ)文字生成、原生中英雙語(yǔ)輸入和鏡頭語(yǔ)言等方面具備強(qiáng)大的生成能力，且語(yǔ)義理解和指令遵循能力突出，能夠高效助力視頻創(chuàng)作者實(shí)現(xiàn)精準(zhǔn)創(chuàng)意呈現(xiàn)。用戶可以在躍問(wèn)網(wǎng)頁(yè)端（https://yuewen.cn/videos）和躍問(wèn) App 上體驗(yàn)階躍Step-Video-T2V 的視頻生成能力。

為了對(duì)開(kāi)源視頻生成模型的性能進(jìn)行全面評(píng)測(cè)，階躍星辰還發(fā)布并開(kāi)源了針對(duì)文生視頻質(zhì)量評(píng)測(cè)的新基準(zhǔn)數(shù)據(jù)集 Step-Video-T2V-Eval。該測(cè)試集包含 128 條源于真實(shí)用戶的中文評(píng)測(cè)問(wèn)題，旨在評(píng)估生成視頻在運(yùn)動(dòng)、風(fēng)景、動(dòng)物、組合概念、超現(xiàn)實(shí)、人物、3D 動(dòng)畫、電影攝影等 11 個(gè)內(nèi)容類別上質(zhì)量。

Step-Video-T2V-Eval評(píng)測(cè)結(jié)果

評(píng)測(cè)結(jié)果顯示，階躍Step-Video-T2V 的模型性能在指令遵循、運(yùn)動(dòng)平滑性、物理合理性、美感度等方面的表現(xiàn)，均顯著超過(guò)市面上既有的效果最佳的開(kāi)源視頻模型。

據(jù)了解，目前在躍問(wèn)網(wǎng)頁(yè)端（https://yuewen.cn/videos）和躍問(wèn) App 上，都可以體驗(yàn) 階躍Step-Video-T2V 的視頻生成能力。

階躍Step-Audio：業(yè)內(nèi)首款產(chǎn)品級(jí)開(kāi)源語(yǔ)音交互模型

階躍Step-Audio 是行業(yè)內(nèi)首個(gè)產(chǎn)品級(jí)的開(kāi)源語(yǔ)音交互模型，能夠根據(jù)不同的場(chǎng)景需求生成情緒、方言、語(yǔ)種、歌聲和個(gè)性化風(fēng)格的表達(dá)，能和用戶自然地高質(zhì)量對(duì)話。模型生成的語(yǔ)音具有超自然、高情商等特征，同時(shí)也能實(shí)現(xiàn)高質(zhì)量的音色復(fù)刻并進(jìn)行角色扮演，滿足影視娛樂(lè)、社交、游戲等行業(yè)場(chǎng)景下應(yīng)用需求。

在 LlaMA Question、Web Questions 等 5 大主流公開(kāi)測(cè)試集中，階躍Step-Audio 模型性能均超過(guò)了行業(yè)內(nèi)同類型開(kāi)源模型，位列第一。階躍Step-Audio 在 HSK-6（漢語(yǔ)水平考試六級(jí)）評(píng)測(cè)中的表現(xiàn)尤為突出，是最懂中國(guó)話的開(kāi)源語(yǔ)音交互大模型。

StepEval-Audio-360基準(zhǔn)測(cè)試

此外，由于目前行業(yè)內(nèi)語(yǔ)音對(duì)話測(cè)試集相對(duì)缺失，階躍星辰自建并開(kāi)源了多維度評(píng)估體系 StepEval-Audio-360 基準(zhǔn)測(cè)試，從角色扮演、邏輯推理、生成控制、文字游戲、創(chuàng)作能力、指令控制等 9 項(xiàng)基礎(chǔ)能力的維度對(duì)開(kāi)源語(yǔ)音模型進(jìn)行全面測(cè)評(píng)。通過(guò)人工橫評(píng)后的結(jié)果顯示，階躍Step-Audio的模型能力十分均衡，且在各個(gè)維度上均超過(guò)了此前市面上效果最佳的開(kāi)源語(yǔ)音模型。

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【階躍星辰】所有。本App為發(fā)布者提供信息發(fā)布平臺(tái)服務(wù)，不代表經(jīng)觀的觀點(diǎn)和構(gòu)成投資等建議