亚洲性爱在线影院_国产又爽又色又刺激视频_欧美日韩一区日本道_一本大道香蕉视频在线观看_中文字幕无码人妻系列按摩_亚洲中文精品免费看_国产成人亚洲欧综合_伦理大片在线观看_91香蕉黄色视频_国产精品一区二区不卡中文

?
當(dāng)前位置:首頁(yè) / 新聞資訊 / 行業(yè)資訊

字節(jié)豆包推出全新稀疏模型架構(gòu),推理成本最高可降83%

發(fā)布日期:2025-02-14     112 次

2月12日消息,字節(jié)跳動(dòng)豆包大模型團(tuán)隊(duì)近日宣布推出全新稀疏模型架構(gòu) UltraMem,解決了 MoE 推理的高額訪存問(wèn)題,推理速度較 MoE 架構(gòu)提升 2-6 倍,推理成本最高可降低 83%。

該研究揭示新架構(gòu)的 Scaling Law,表明其不僅有出色的 Scaling 特性,性能還超越 MoE。實(shí)驗(yàn)顯示,訓(xùn)練規(guī)模達(dá) 2000 萬(wàn) value 的 UltraMem 模型,在同等計(jì)算資源下,能同時(shí)實(shí)現(xiàn)領(lǐng)先的推理速度和模型性能,為構(gòu)建數(shù)十億規(guī)模 value 或 expert 開(kāi)辟新途徑。

據(jù)悉,豆包大模型團(tuán)隊(duì)的這項(xiàng)創(chuàng)新成果已被機(jī)器學(xué)習(xí)和AI領(lǐng)域的頂級(jí)會(huì)議ICLR 2025接收,為解決大模型推理效率和擴(kuò)展能力問(wèn)題提供了全新思路。

1.jpg

大模型的推理能力對(duì)應(yīng)的是端側(cè)AI應(yīng)用/工具的響應(yīng)能力和速度。隨著模型規(guī)模的擴(kuò)大,推理成本和訪存效率已成為限制大模型規(guī)模應(yīng)用的關(guān)鍵瓶頸。

在Transformer架構(gòu)下,模型的性能與其參數(shù)數(shù)量和計(jì)算復(fù)雜度呈對(duì)數(shù)關(guān)系。隨著LLM規(guī)模不斷增大,推理成本會(huì)急劇增加,速度變慢。

為了解決計(jì)算問(wèn)題,先前的研究者提出了MoE和PKM(Product Key Memory)方案,但它們都有各自的局限性:

MoE架構(gòu)犧牲了效率:MoE架構(gòu)成功將計(jì)算和參數(shù)解耦,通過(guò)稀疏激活專(zhuān)家的方式,在訓(xùn)練階段有效減少了計(jì)算量,但在推理時(shí),由于模型在推理時(shí)只能一個(gè)字一個(gè)字的生成,batch size(批量大?。┖蛃equence length(序列長(zhǎng)度)通常較小,少量的token即可激活幾乎所有的專(zhuān)家,進(jìn)而導(dǎo)致訪存急劇上升,進(jìn)而使推理延遲大幅增加。

PKM架構(gòu)犧牲了效果:PKM架構(gòu)通過(guò)引入“行路由”和“列路由”機(jī)制,這種方法讓每個(gè)token在推理時(shí)僅僅只激活極少數(shù)的value(與提示模板中的內(nèi)容相關(guān)聯(lián)的數(shù)據(jù)或信息),所以推理時(shí)不會(huì)遇到訪存瓶頸,但其效果很差,且擴(kuò)展能力有限,難以應(yīng)對(duì)更大規(guī)模的模型需求。

這些局限性使得MoE和PKM在推理效率、模型效果和擴(kuò)展能力等方面的優(yōu)化空間仍需進(jìn)一步探索。UltraMem正是為了解決上述痛點(diǎn)。

據(jù)介紹,UltraMem參考了PKM的設(shè)計(jì),但針對(duì)PKM的缺陷予以補(bǔ)充,以實(shí)現(xiàn)更高效的訪存、更優(yōu)質(zhì)的檢索,同時(shí),降低了顯存和部署成本,其優(yōu)勢(shì)主要在于:

降低推理成本:與傳統(tǒng)的MoE架構(gòu)相比,UltraMem在推理成本上實(shí)現(xiàn)了最高83%的降低,這對(duì)于大規(guī)模模型的部署和運(yùn)行具有重要意義。

提升推理速度:UltraMem的推理速度相比MoE架構(gòu)提升了2-6倍,這使得模型在處理大規(guī)模數(shù)據(jù)時(shí)更加高效。

保持模型效果:在降低推理成本和提升推理速度的同時(shí),UltraMem還保持了模型的效果,確保了模型的準(zhǔn)確性和可靠性。

豆包研究團(tuán)隊(duì)在151M、680M、1.6B三個(gè)不同規(guī)模的模型上進(jìn)行了廣泛的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,UltraMem在模型效果和推理速度方面均優(yōu)于MoE和PKM架構(gòu),且在680M、1.6B上具有顯著的效果優(yōu)勢(shì)。

2.jpg

無(wú)論是訓(xùn)練端還是推理端,當(dāng)大模型廠商卷起成本,意味著AI應(yīng)用將在未來(lái)更加高效、易用。

推理成本大幅降低,將助推AI技術(shù)在更多領(lǐng)域的應(yīng)用成為可能,尤其是對(duì)于資源受限的場(chǎng)景,如邊緣計(jì)算和移動(dòng)設(shè)備等,能讓更多企業(yè)和開(kāi)發(fā)者有能力使用和部署AI模型。

對(duì)于用戶而言,UltraMem架構(gòu)的突破、推理速度的提升可使AI應(yīng)用如智能助手、自然語(yǔ)言處理等在實(shí)時(shí)應(yīng)用中響應(yīng)更迅速,交互更流暢,優(yōu)化用戶的使用體驗(yàn),提高內(nèi)容創(chuàng)作、日常辦公等場(chǎng)景下的效率。


為您精選

尋找更多銷(xiāo)售、技術(shù)和解決方案的信息?

關(guān)于綠測(cè)

廣州綠測(cè)電子科技有限公司(簡(jiǎn)稱(chēng):綠測(cè)科技)成立于2015年11月,是一家專(zhuān)注于耕耘測(cè)試與測(cè)量行業(yè)的技術(shù)開(kāi)發(fā)公司。綠測(cè)科技以“工程師的測(cè)試管家”的理念向廣大客戶提供專(zhuān)業(yè)的管家服務(wù)。綠測(cè)科技的研發(fā)部及工廠設(shè)立于廣州番禺區(qū),隨著公司業(yè)務(wù)的發(fā)展,先后在廣西南寧、深圳、廣州南沙、香港等地設(shè)立了機(jī)構(gòu)。綠測(cè)科技經(jīng)過(guò)深耕測(cè)試與測(cè)量領(lǐng)域多年,組建了一支經(jīng)驗(yàn)豐富的團(tuán)隊(duì),可為廣大客戶提供品質(zhì)過(guò)硬的產(chǎn)品及測(cè)試技術(shù)服務(wù)等支持。

綠測(cè)工場(chǎng)服務(wù)號(hào)
綠測(cè)工場(chǎng)服務(wù)號(hào)
綠測(cè)科技訂閱號(hào)
綠測(cè)科技訂閱號(hào)
020-2204 2442
Copyright @ 2015-2024 廣州綠測(cè)電子科技有限公司 版權(quán)所有 E-mail:[email protected] 粵ICP備18033302號(hào)