姚順雨交出的首份研究成果,或成為騰訊AI決戰(zhàn)獲勝關(guān)鍵
2026-02-07 18:34 姚順雨

姚順雨交出的首份研究成果,或成為騰訊AI決戰(zhàn)獲勝關(guān)鍵23

2026年春節(jié)未至,國內(nèi)AI大廠的用戶爭奪戰(zhàn)已率先打響,騰訊元寶大手筆發(fā)紅包,阿里千問推出30億免單活動,字節(jié)豆包依托春晚流量做內(nèi)容生成,各大廠商紛紛燒錢搶占市場。

但相較于短期的營銷動作,騰訊此前挖來前OpenAI研究員、清華姚班的姚順雨,或許才是其布局AI賽道的長遠之計。

近日,姚順雨執(zhí)掌騰訊AI后交出首個署名研究成果,由騰訊混元團隊聯(lián)合復旦大學完成,這份聚焦大模型上下文學習能力的研究,直指AI“聽不懂人話”的核心痛點,也讓騰訊在與國內(nèi)外廠商的AI競爭中,走出了一條差異化的技術(shù)攻堅路線。

這份研究將目光對準了大模型上下文處理技術(shù),得出的結(jié)論令人意外:當把大模型從記背知識的“背書模式”,切換到根據(jù)新信息實時推理的“現(xiàn)學現(xiàn)賣模式”時,即便是目前全球最先進的AI模型,正確率也僅有23.7%。

這一發(fā)現(xiàn)直接解釋了普通用戶使用AI時遇到的“死腦筋”“胡說八道”等問題,而上下文處理能力,也成為當下全球大模型的共同難題。

要理解這一研究的價值,需先看清大模型的兩大運作階段。

第一階段是預訓練,模型通過學習互聯(lián)網(wǎng)海量靜態(tài)數(shù)據(jù)積累通用知識,這是其回答常規(guī)問題的基礎,但這些知識僅截止到訓練完成前,無法適配動態(tài)的真實世界。

第二階段是情境學習,也就是上下文處理,要求AI跳出預訓練的知識儲備,根據(jù)用戶給出的全新、專屬信息實時推理判斷,比如依據(jù)公司內(nèi)部會議紀要、游戲新活動規(guī)則作答。

可以說,上下文處理能力是AI的靈魂,一旦處理不好,AI就會脫離具體規(guī)則編造答案,出現(xiàn)常見的“幻覺”問題。

33.png

為測試大模型的上下文學習能力,混元團隊打造了CL-bench評測體系,構(gòu)建了近2000個從未在互聯(lián)網(wǎng)公開的全新情境,讓模型在無通用知識可參考的情況下作答。測試結(jié)果顯示,表現(xiàn)最好的GPT-5.1(High)正確率僅23.7%,Claude Opus 4.5約21.1%,國內(nèi)的千問、豆包等模型正確率也在10%-14%之間,所有測試模型的平均正確率僅17.2%。?

這意味著,當要求AI只根據(jù)給出的新信息作答時,絕大多數(shù)情況下都會出錯,如同固執(zhí)的學生無視黑板上的新規(guī)則,仍按舊知識答題。

研究還揭示了大模型上下文學習能力薄弱的兩大原因:一是預訓練知識過于根深蒂固,面對新信息時無法有效抑制舊認知;二是復雜邏輯推演能力不足,即便能處理超長文本,也難以從海量信息中精準提取關(guān)鍵,簡單的知識檢索尚能應對,一旦涉及復雜推理,正確率便會暴跌。

而這一痛點,也成為國內(nèi)外AI廠商的競爭分水嶺,各家的攻堅方向因自身生態(tài)截然不同。

國內(nèi)來看,阿里千問依托電商、本地生活的完整履約體系,核心攻堅大模型與B端商業(yè)體系的整合能力,其30億免單活動就是考驗模型在實體消費場景的落地執(zhí)行,而非底層的上下文處理;

字節(jié)豆包背靠短視頻生態(tài),側(cè)重AI生成內(nèi)容的能力,爭奪用戶注意力時長,技術(shù)發(fā)力點更多在多模態(tài)內(nèi)容創(chuàng)作、實時交互體驗上;

百度文心一言則堅守搜索核心,重點提升大模型的知識檢索和通用問答效率,圍繞搜索場景做技術(shù)優(yōu)化。

這幾家大廠的技術(shù)布局均圍繞自身核心生態(tài),在大模型上下文處理這一底層痛點上,尚未有深度的專項研究和攻堅。

海外廠商則走上了另一條路,OpenAI、Google雖在模型參數(shù)、長上下文窗口上持續(xù)發(fā)力,比如Google Gemini支持200萬tokens的超長文本、GPT-4-turbo有128k tokens處理能力,但此次測試顯示,Gemini 3 Pro正確率僅15.8%。

可見其雖提升了上下文窗口的長度,卻忽視了模型對新信息的實時推理能力,陷入“能裝下更多信息,卻讀不懂信息”的困境。

而騰訊之所以聚焦這一技術(shù)痛點,與其自身的業(yè)務布局密不可分。和其他廠商不同,騰訊的核心業(yè)務扎根于社交、內(nèi)容領域,同時布局游戲與企業(yè)服務,這些場景對AI的上下文處理能力要求極為苛刻。

微信、QQ的碎片化對話流,需要AI精準理解封閉語境中的人際關(guān)系和隱含邏輯;游戲場景要求AI根據(jù)實時局勢做出反應,而非機械背誦預訓練內(nèi)容;企業(yè)微信、騰訊會議則需要AI基于私有文檔做精準分析,通用知識在此不僅無用,還可能因“幻覺”造成誤導。

各大廠的AI營銷戰(zhàn)只是短期的用戶爭奪,而姚順雨的這份研究,讓騰訊跳出了“生態(tài)適配”的固有競爭思路,直擊全球大模型的核心技術(shù)痛點。

對坐擁海量應用場景的騰訊而言,一個能在復雜上下文中保持邏輯嚴密的AI模型,遠比只會死記硬背知識的模型更具商業(yè)價值,而這一差異化的技術(shù)布局,也成為騰訊決戰(zhàn)AI賽道的關(guān)鍵一步。

88.jpg