多模態(tài)能力來了!DeepSeek正式上線“識(shí)圖模式”
2026-04-29 17:54 DeepSeek

多模態(tài)能力來了!DeepSeek正式上線“識(shí)圖模式”23

灰度測(cè)試的頁(yè)面截圖在用戶群里傳開后,4月29日DeepSeek網(wǎng)頁(yè)版正式上線了“識(shí)圖模式”。試用反饋顯示,該模式支持圖片上傳與內(nèi)容理解分析,目前尚未全量推送。

同一天,DeepSeek負(fù)責(zé)多模態(tài)開發(fā)的研究員陳小康在X平臺(tái)發(fā)文配圖,標(biāo)志性的鯨魚“摘下”了眼罩,引發(fā)行業(yè)揣測(cè)。

幾乎就在測(cè)試入口放出的同時(shí),DeepSeek V4多模態(tài)滿血版也被陳小康正式預(yù)告,距離V4系列純文本版本的發(fā)布僅過去五天。

這位一向以純文本能力著稱的玩家,終于要補(bǔ)齊“視覺”這塊缺失已久的拼圖了。

V4剛發(fā)布不到五天,官方已經(jīng)連續(xù)三輪降價(jià),幅度和頻次在業(yè)內(nèi)罕見。但降價(jià)只是吸引注意力的前菜,前后腳流出的“視覺”模式選項(xiàng),才是外界真正等待的那只靴子。

在最新客戶端的模型選單里,“快速”“專家”“視覺”三個(gè)獨(dú)立的選項(xiàng)并列而立,前兩者分別對(duì)應(yīng)V4的Flash和Pro版本,而“視覺”這個(gè)留了很久的坑位,不出意外正是為多模態(tài)預(yù)留的接口。

關(guān)于新版DeepSeek V4多模態(tài)的具體參數(shù)和性能邊界,DeepSeek官方目前基本上三緘其口。

但參照V4 Pro在純文本領(lǐng)域的水準(zhǔn),市場(chǎng)普遍預(yù)測(cè)它的視覺理解能力至少會(huì)沖進(jìn)第一梯隊(duì)。

DeepSeek歷來不把沖評(píng)測(cè)榜排名當(dāng)作最高優(yōu)先級(jí),外界更關(guān)注的是它能否延續(xù)一貫的性價(jià)比路線,把多模態(tài)API的調(diào)用成本打下來。如果這個(gè)預(yù)期成立,它對(duì)行業(yè)的影響可能比前幾輪降價(jià)來得更猛烈。

就在DeepSeek緊鑼密鼓推進(jìn)多模態(tài)落地的同時(shí),半個(gè)多月前發(fā)布的SuperCLUE-VLM 4月最新評(píng)測(cè)報(bào)告揭曉了一個(gè)相當(dāng)有意思的結(jié)果,字節(jié)跳動(dòng)旗下的Doubao-Seed-2.0-Pro-260215以90.66分拿下總榜冠軍,一舉超越了此前備受關(guān)注的谷歌Gemini-3.1-Pro-Preview〔89.35分〕。

這項(xiàng)評(píng)測(cè)涵蓋全球17款主流大模型,阿里Qwen3.5系列、商湯SenseNova、智譜GLM等國(guó)產(chǎn)模型均躋身前列,而OpenAI的GPT-5.4和X.AI的Grok位列中游。

在基礎(chǔ)認(rèn)知和數(shù)據(jù)分析兩個(gè)細(xì)分維度上,國(guó)產(chǎn)模型得分普遍超過90分,中文場(chǎng)景適配上的優(yōu)勢(shì)相當(dāng)明顯。不過在工業(yè)檢測(cè)、高精度醫(yī)療影像等專業(yè)性較強(qiáng)的視覺推理任務(wù)上,國(guó)產(chǎn)模型與全球頂尖水平仍有差距。

如果把目光放回到整個(gè)行業(yè),2026年開年以來圍繞多模態(tài)的競(jìng)爭(zhēng)已經(jīng)進(jìn)入了一個(gè)相當(dāng)激烈的階段。

阿里通義千問在3月下旬發(fā)布了旗艦級(jí)原生全模態(tài)大模型Qwen3.5-Omni,與常見的“視覺模型加語言模型加語音模型”拼接式方案不同,它采用原生端到端架構(gòu),基于超一億小時(shí)的音視頻數(shù)據(jù)完成預(yù)訓(xùn)練。

官方數(shù)據(jù)顯示它拿下了215項(xiàng)SOTA成績(jī),通用音頻理解全面超越Gemini-3.1 Pro,同時(shí)保持了文本與視覺能力不降智的水準(zhǔn)。

Kimi在1月份拿出了K2.5,接著4月下旬又發(fā)布了K2.6。Kimi路線和DeepSeek差異不小,K2.5不止做多模態(tài),更是直接往“能干活”的助理方向推進(jìn),百人規(guī)模的Agent集群并行執(zhí)行任務(wù),背后是月之暗面對(duì)系統(tǒng)智能和落地場(chǎng)景的押注。

商湯也在同一周發(fā)布并開源了SenseNova U1模型,基于單一框架整合多模態(tài)理解、推理和生成。

三年前困擾從業(yè)者的“輪到我了嗎”式觀望情緒,如今已經(jīng)徹底讓給了“來晚了嗎”式的緊迫感,一位研究者的感慨點(diǎn)破了行業(yè)心態(tài)的微妙變化。

國(guó)產(chǎn)視覺模型在中文場(chǎng)景建立了實(shí)打?qū)嵉谋趬荆@張牌桌遠(yuǎn)沒有定型。DeepSeek在純文本調(diào)用價(jià)格上已經(jīng)殺到了行業(yè)地板價(jià),多模態(tài)版能否復(fù)制同樣的性價(jià)比優(yōu)勢(shì),考驗(yàn)的不僅是技術(shù)能力,更是工程化能否延續(xù)V4 Pro的優(yōu)異表現(xiàn)。

多模態(tài)能力遲早會(huì)像今天的文本對(duì)話一樣成為基礎(chǔ)設(shè)施,到那個(gè)時(shí)間點(diǎn)再看,到底是哪幾家玩家把餅攤得最大。

88.jpg