5 月 26 日消息,微軟近日公布了旗下小語言 AI 模型家族(SLM)最新成員 "Phi-3-vision",這款模型主打 " 視覺能力 ",能夠理解圖文內(nèi)容,同時(shí)據(jù)稱可以在移動(dòng)平臺(tái)上流暢高效運(yùn)行。
據(jù)介紹,Phi-3-vision 是微軟 Phi-3 家族首款多模態(tài)模型,該模型的文字理解能力基于 Phi-3-mini,同時(shí)也具備 Phi-3-mini 的輕量特點(diǎn),能夠在移動(dòng)平臺(tái) / 嵌入終端中運(yùn)行;該模型參數(shù)量為 42 億,大于 Phi-3-mini(3.8B),但小于 Phi-3-small(7B),上下文長度為 128k token,訓(xùn)練期間為 2024 年 2 月至 4 月。
Phi-3-vision 模型的最大特色正如其名,主要支持 " 圖文識(shí)別能力 ",號(hào)稱能夠理解現(xiàn)實(shí)世界的圖片含義,還能快速識(shí)別提取圖片中的文字。
微軟表示,Phi-3-vision 特別適合辦公場(chǎng)合,開發(fā)人員特別優(yōu)化了該模型在識(shí)別圖表和方塊圖 ( Block diagram ) 方面的理解能力,據(jù)稱可以利用用戶輸入的信息進(jìn)行推論,同時(shí)還能做出一系列結(jié)論,為企業(yè)提供戰(zhàn)略建議,號(hào)稱 " 效果比肩大模型 "。
在模型訓(xùn)練方面,微軟聲稱 Phi-3-vision 是由 " 多種類型圖片及文字?jǐn)?shù)據(jù)訓(xùn)練而成 ",包括一系列 " 經(jīng)過嚴(yán)選的公開內(nèi)容 ",例如 " 教科書等級(jí) " 教育材料、代碼、圖文標(biāo)注數(shù)據(jù)、現(xiàn)實(shí)世界知識(shí)、圖表圖片、聊天格式等內(nèi)容,從而確保模型輸入內(nèi)容的多樣性。為了確保隱私,微軟聲稱他們所使用的訓(xùn)練數(shù)據(jù) " 可追溯 " 不包含任何個(gè)人信息。
性能方面,微軟提供了 Phi-3-vision 相較于字節(jié)跳動(dòng) Llama3-Llava-Next(8B)、微軟研究院和威斯康星大學(xué)、哥倫比亞大學(xué)合作的 LlaVA-1.6(7B)、阿里巴巴通義千問 QWEN-VL-Chat 模型等競(jìng)品模型的比較圖表,其中顯示 Phi-3-vision 模型在多個(gè)項(xiàng)目上表現(xiàn)優(yōu)異。
發(fā)布日期: 2024-12-20
發(fā)布日期: 2024-04-07
發(fā)布日期: 2024-09-10
發(fā)布日期: 2024-11-11
發(fā)布日期: 2024-05-13
發(fā)布日期: 2024-04-15
發(fā)布日期: 2024-01-16
發(fā)布日期: 2024-02-26
發(fā)布日期: 2025-01-14
發(fā)布日期: 2025-01-14
發(fā)布日期: 2025-01-14
發(fā)布日期: 2025-01-14
發(fā)布日期: 2025-01-14
尋找更多銷售、技術(shù)和解決方案的信息?
廣州綠測(cè)電子科技有限公司(簡稱:綠測(cè)科技)成立于2015年11月,是一家專注于耕耘測(cè)試與測(cè)量行業(yè)的技術(shù)開發(fā)公司。綠測(cè)科技以“工程師的測(cè)試管家”的理念向廣大客戶提供專業(yè)的管家服務(wù)。綠測(cè)科技的研發(fā)部及工廠設(shè)立于廣州番禺區(qū),隨著公司業(yè)務(wù)的發(fā)展,先后在廣西南寧、深圳、廣州南沙、香港等地設(shè)立了機(jī)構(gòu)。綠測(cè)科技經(jīng)過深耕測(cè)試與測(cè)量領(lǐng)域多年,組建了一支經(jīng)驗(yàn)豐富的團(tuán)隊(duì),可為廣大客戶提供品質(zhì)過硬的產(chǎn)品及測(cè)試技術(shù)服務(wù)等支持。
技術(shù)工程師
銷售經(jīng)理
020-22042442
廣東公司:馮經(jīng)理
020-2204 2442-9-822
廣西公司:何經(jīng)理
020-2204 2442-9-880