世界杯成AI公開考場,中國移動(dòng)九天亮相人機(jī)大戰(zhàn)躋身領(lǐng)先梯隊(duì)
15場小組賽后,世界杯成了中國AI最誠實(shí)的考場
一張世界杯預(yù)測排行榜,正在變得比很多大模型評測基準(zhǔn)更容易被公眾理解。
咪咕視頻與聯(lián)想集團(tuán)聯(lián)合發(fā)起的“世界杯預(yù)測人機(jī)大戰(zhàn)”進(jìn)行到第15場,12大AI模型的階段成績已經(jīng)浮出水面:百度文心7場命中,勝率46.7%,暫列第一;聯(lián)想天禧AI、中移九天、騰訊混元、MiniMax均為6場命中,勝率40.0%,處于領(lǐng)先梯隊(duì);
DeepSeek、通義千問、智譜、階躍星辰、商湯小浣熊均為5場命中,勝率33.3%;Kimi和訊飛星火均為4場命中,勝率26.7%。

這組數(shù)據(jù)本身并不復(fù)雜。真正值得關(guān)注的是,它把一個(gè)更大的問題推到了臺前:當(dāng)大模型走出實(shí)驗(yàn)室評測,進(jìn)入一個(gè)有真實(shí)結(jié)果、有公開對照、有持續(xù)驗(yàn)證的公共場景時(shí),各家模型的表現(xiàn)會呈現(xiàn)出怎樣的差異?
世界杯正在給出一個(gè)足夠誠實(shí)的答案。
各家都在預(yù)測,但只有同一張答卷才能比較
世界杯開賽前一周,中國AI行業(yè)圍繞世界杯的營銷戰(zhàn)已經(jīng)打響。
Kimi在世界杯前下場。6月8日,月之暗面宣布調(diào)度300個(gè)子Agent組成“Agent集群”,從戰(zhàn)術(shù)、球員、傷病、賽程、輿情、天氣、心理、賠率等多個(gè)維度,對104場比賽逐場做賽前預(yù)測和賽后復(fù)盤,并發(fā)布了系統(tǒng)性的預(yù)測報(bào)告。配合“萬億Token”瓜分活動(dòng),Kimi也給出了一個(gè)有強(qiáng)傳播力的自我提示:“我們的預(yù)測很可能是錯(cuò)的。”

千問緊隨其后。阿里在6月11日上線“足球預(yù)測AI助手”,面向用戶開放,強(qiáng)調(diào)引入球隊(duì)、球員之外的環(huán)境變量,包括美加墨三國的地貌、海拔、濕度和比賽日天氣數(shù)據(jù)。同時(shí),“千問球場計(jì)劃”把競猜積分與鄉(xiāng)村學(xué)校足球場捐建掛鉤,把世界杯預(yù)測與公益?zhèn)鞑ソY(jié)合起來。
DeepSeek、智譜、百度文心、訊飛星火、商湯等模型,也都以不同方式進(jìn)入世界杯預(yù)測場景。整個(gè)行業(yè)都意識到了同一件事:48支球隊(duì)、104場比賽、39天賽程、全球關(guān)注,這幾乎是2026年最天然的AI公共展示舞臺。
但問題也隨之出現(xiàn):各家各做各的,外界很難比較。
一個(gè)用戶想知道DeepSeek和Kimi誰猜得更準(zhǔn),需要分別去不同平臺查預(yù)測,再手動(dòng)對照賽果。放到104場比賽的體量里,這件事幾乎不現(xiàn)實(shí)。更重要的是,各家預(yù)測的發(fā)布時(shí)間、呈現(xiàn)格式、分析維度和復(fù)盤口徑并不統(tǒng)一,缺少同一張答卷,也就很難形成真正的橫向比較。

事實(shí)上,早在Kimi、千問單個(gè)模型下場之前,聯(lián)想集團(tuán)與咪咕已經(jīng)攢起了全球首個(gè)多AI同臺進(jìn)行世界杯預(yù)測的局。
這場由咪咕與聯(lián)想天禧AI聯(lián)合發(fā)起的世界杯預(yù)測人機(jī)大戰(zhàn)”中,DeepSeek、Kimi、千問、百度文心、騰訊混元、智譜、MiniMax、階躍星辰、訊飛星火、商湯小浣熊、中移九天等國內(nèi)主流大模型,與天禧AI自身放在同一張頁面上,對每場比賽給出統(tǒng)一格式的勝平負(fù)和比分預(yù)測。所有預(yù)測賽前同步展示,賽后即時(shí)驗(yàn)證,全程公開記錄。
這不是技術(shù)上最復(fù)雜的方案,卻可能是傳播上最有效的方案:它讓“AI誰更懂球”這件事,從各說各話,變成了同場考試。
技術(shù)方案越復(fù)雜,就一定越準(zhǔn)嗎?
15場數(shù)據(jù)已經(jīng)足夠讓人看到一些反直覺的結(jié)果。
Kimi拿出了行業(yè)里最重的世界杯預(yù)測方案之一:300個(gè)Agent集群并行推演,覆蓋戰(zhàn)術(shù)、賠率、心理、天氣等多個(gè)分析維度。從技術(shù)復(fù)雜度和資源投入看,這幾乎是本屆世界杯AI預(yù)測賽道中最“豪華”的配置之一。

但15場過后,Kimi階段成績?yōu)?場命中,勝率26.7%。
通義千問引入了地貌、天氣等環(huán)境數(shù)據(jù)。這些維度理論上能補(bǔ)足傳統(tǒng)足球分析中容易被忽略的變量。但15場過后,通義千問5場命中,勝率33.3%。
反觀聯(lián)想天禧AI,它沒有把傳播重點(diǎn)放在“調(diào)用了多少Agent”或“納入多少維度”上,而是以超級智能體的方式給出自己的判斷,同時(shí)把其他11家模型的判斷一起放進(jìn)同一個(gè)可驗(yàn)證場景。15場過后,聯(lián)想天禧AI6場命中,勝率40.0%,位于領(lǐng)先梯隊(duì),與榜首只差一場。
這組對比并不能簡單推出“復(fù)雜架構(gòu)無效”的結(jié)論。15場樣本仍然有限,足球預(yù)測本身也高度依賴偶然性。但它至少提出了一個(gè)值得討論的問題:在足球預(yù)測這樣強(qiáng)不確定性的場景里,更多Agent、更復(fù)雜維度,是否一定能轉(zhuǎn)化為更高命中率?
至少從階段結(jié)果看,答案并不確定。
這也是世界杯作為AI驗(yàn)證場景的獨(dú)特之處。它不關(guān)心模型講了多少推理鏈條,也不關(guān)心預(yù)測報(bào)告寫了多少頁。最終,只有一個(gè)問題:終場比分是否站在你這一邊。

平局盲區(qū):12個(gè)模型共同遇到的難題
15場比賽,已經(jīng)出現(xiàn)6場平局,平局率達(dá)到40%。
這一比例顯著高于世界杯小組賽常見的平局水平,也對AI陣營形成了系統(tǒng)性考驗(yàn)。在6場平局中,12大AI合計(jì)只有4次命中賽果:騰訊混元、Kimi、訊飛星火命中加拿大1-1波黑,階躍星辰命中比利時(shí)1-1埃及。
換句話說,AI在平局場景中的命中率,明顯低于它們在非平局比賽中的表現(xiàn)。

強(qiáng)弱分明的比賽里,AI表現(xiàn)并不差。例如德國7-1庫拉索、瑞典5-1突尼斯等比賽,多數(shù)模型甚至能夠全部命中勝負(fù)方向。但一旦比賽進(jìn)入平局、低比分、門將發(fā)揮、臨場失誤和節(jié)奏拉扯共同作用的場景,模型就很容易失準(zhǔn)。
這并非某一家模型的個(gè)體問題,而是多個(gè)模型共同暴露出的難題。
為什么大模型不擅長預(yù)測平局?一個(gè)可能的解釋是,足球語料天然偏向“勝負(fù)敘事”。賽前分析、賽后報(bào)道、球迷討論、歷史戰(zhàn)績數(shù)據(jù)庫,往往圍繞“誰贏了”“誰更強(qiáng)”“誰爆冷”展開。平局在真實(shí)比賽中并不罕見,卻很少成為敘事中心。
另一個(gè)可能的解釋,是推理框架的慣性。當(dāng)模型被要求預(yù)測一場比賽時(shí),它往往會從排名、身價(jià)、陣容、歷史交鋒等維度出發(fā),最終回答“哪一方更有優(yōu)勢”。這更接近一個(gè)排序問題。
但平局不是簡單的排序結(jié)果。它意味著兩支球隊(duì)在90分鐘里的機(jī)會、失誤、節(jié)奏、心理和偶然性,最終抵消了紙面差距。這要求模型不僅判斷誰更強(qiáng),還要判斷優(yōu)勢能否轉(zhuǎn)化為勝利。后者是更復(fù)雜的概率校準(zhǔn)問題。
這正是“世界杯預(yù)測人機(jī)大戰(zhàn)”作為公開實(shí)驗(yàn)的價(jià)值所在:它不只展示AI何時(shí)正確,也暴露AI在哪些場景下最容易失準(zhǔn),而且這種暴露是持續(xù)的、可追蹤的、不可回避的。
AI需要一個(gè)世界杯
過去幾年,中國AI行業(yè)的能力驗(yàn)證主要依賴三類方式:基準(zhǔn)測試、產(chǎn)品數(shù)據(jù)和事件營銷。
基準(zhǔn)測試可以給出標(biāo)準(zhǔn)化分?jǐn)?shù),但離真實(shí)使用場景較遠(yuǎn);產(chǎn)品數(shù)據(jù)能體現(xiàn)用戶規(guī)模和調(diào)用量,卻難以橫向比較;事件營銷容易形成傳播爆點(diǎn),但往往只有一次性結(jié)論。
世界杯提供了一種完全不同的驗(yàn)證框架:真實(shí)場景、統(tǒng)一題面、持續(xù)驗(yàn)證、公開結(jié)果、全民參與。
104場比賽,每一場都是一道新題;每一道題都有確定答案;所有參與者面對同一張?jiān)嚲?;每一次判斷都會在終場哨響后被檢驗(yàn)。這種場景對AI行業(yè)來說極其稀缺。
這也是聯(lián)想集團(tuán)選擇在世界杯上發(fā)起“人機(jī)大戰(zhàn)”的深層邏輯。
“世界杯預(yù)測人機(jī)大戰(zhàn)”面向消費(fèi)者、球迷和普通公眾。很多人可能并不關(guān)心模型參數(shù)、推理成本和評測分?jǐn)?shù),但他們一定能理解“這場球誰會贏”“AI猜得準(zhǔn)不準(zhǔn)”。
讓12大AI在世界杯賽場上接受公開驗(yàn)證,讓AI的能力和局限被更廣泛的人看到、討論、參與,這件事的價(jià)值正在隨著賽事推進(jìn)不斷放大。
Kimi的預(yù)測報(bào)告很專業(yè),通義千問的環(huán)境數(shù)據(jù)很新穎,百度文心暫時(shí)領(lǐng)跑,聯(lián)想天禧AI處于領(lǐng)先梯隊(duì)。它們各有特點(diǎn)。但這些差異,只有在同一張答卷上,才真正能被看見。
當(dāng)很多AI公司都在各自舞臺上展示能力時(shí),聯(lián)想做了一件更接近“基礎(chǔ)設(shè)施”的事:搭建一個(gè)共同舞臺,讓賽果來當(dāng)裁判。
89場比賽還在后面
15場,只完成了全部賽程的一小部分。小組賽還有大量比賽,淘汰賽也將在后續(xù)展開。比賽形態(tài)會從“強(qiáng)弱對話”,逐漸轉(zhuǎn)向“強(qiáng)強(qiáng)對決”和“生死戰(zhàn)”。這些新場景中,AI的表現(xiàn)是否會發(fā)生變化?平局率是否會回歸常見水平?當(dāng)前排名是否會被改寫?
現(xiàn)在下最終結(jié)論還為時(shí)過早。
但15場數(shù)據(jù)已經(jīng)足夠說明一件事:AI行業(yè)需要的不只是更大的參數(shù)、更多的Agent和更復(fù)雜的數(shù)據(jù)維度,也需要一個(gè)真實(shí)、持續(xù)、公開的驗(yàn)證場景,讓能力被看見,也讓局限被看見。
世界杯恰好是這樣一個(gè)場景。
而聯(lián)想集團(tuán)聯(lián)合咪咕,搭建了這個(gè)讓12大AI同場接受檢驗(yàn)的平臺。
這可能是“世界杯預(yù)測人機(jī)大戰(zhàn)”進(jìn)行到15場后,給中國AI行業(yè)留下的最重要啟示。
打開咪咕視頻APP搜索人機(jī)大戰(zhàn),登錄聯(lián)想天禧AI相關(guān)入口,即可參與世界杯預(yù)測人機(jī)大戰(zhàn)。6月24日起,咪咕視頻與聯(lián)想集團(tuán)聯(lián)合出品的《人機(jī)大戰(zhàn):誰是世界杯預(yù)言家》將在咪咕視頻正式開播,敬請期待。