中國城市網(wǎng)上海2月19日電(記者王迪)2月18日,上海階躍星辰智能科技有限公司(以下簡稱“階躍星辰”)開源了兩款階躍Step系列多模態(tài)大模型——Step-Video-T2V 視頻生成模型和Step-Audio語音模型。
根據(jù)企業(yè)官方技術(shù)報告中的評測結(jié)果,階躍Step-Video-T2V的參數(shù)量和模型性能目前在全球開源視頻生成領(lǐng)域都處于領(lǐng)先水平;而階躍Step-Audio則是業(yè)內(nèi)首款產(chǎn)品級的開源語音交互模型。目前已可以在躍問App內(nèi)體驗。
據(jù)介紹,階躍Step-Video-T2V模型的參數(shù)量達(dá)到300億,可以直接生成 204 幀、540P 分辨率的高質(zhì)量視頻,這意味著能確保生成的視頻內(nèi)容具有極高的信息密度和強(qiáng)大的一致性。
另一款大模型——階躍Step-Audio是行業(yè)內(nèi)首個產(chǎn)品級的開源語音交互模型,能夠根據(jù)不同的場景需求生成情緒、方言、語種、歌聲和個性化風(fēng)格的表達(dá),能和用戶自然地進(jìn)行高質(zhì)量對話。模型生成的語音具有自然流暢、情商高等特征,同時也能支持不同角色的音色克隆,滿足影視娛樂、社交、游戲等行業(yè)場景下的應(yīng)用需求。
此外,由于目前行業(yè)內(nèi)語音對話測試集相對缺失,階躍星辰自建并開源了多維度評估體系 StepEval-Audio-360 基準(zhǔn)測試,從角色扮演、邏輯推理、生成控制、文字游戲、創(chuàng)作能力、指令控制等9項基礎(chǔ)能力的維度對開源語音模型進(jìn)行全面測評。通過人工橫評后的結(jié)果顯示,Step-Audio的模型能力十分均衡,且在各個維度上均超過了此前市面上效果最佳的開源語音模型。