世界杯成AI公開考場，中國移動(dòng)九天亮相人機(jī)大戰(zhàn)躋身領(lǐng)先梯隊(duì)

直播吧 2026-06-17 16:15:01

15場小組賽后，世界杯成了中國AI最誠實(shí)的考場

一張世界杯預(yù)測排行榜，正在變得比很多大模型評測基準(zhǔn)更容易被公眾理解。

咪咕視頻與聯(lián)想集團(tuán)聯(lián)合發(fā)起的“世界杯預(yù)測人機(jī)大戰(zhàn)”進(jìn)行到第15場，12大AI模型的階段成績已經(jīng)浮出水面：百度文心7場命中，勝率46.7%，暫列第一；聯(lián)想天禧AI、中移九天、騰訊混元、MiniMax均為6場命中，勝率40.0%，處于領(lǐng)先梯隊(duì)；

DeepSeek、通義千問、智譜、階躍星辰、商湯小浣熊均為5場命中，勝率33.3%；Kimi和訊飛星火均為4場命中，勝率26.7%。

這組數(shù)據(jù)本身并不復(fù)雜。真正值得關(guān)注的是，它把一個(gè)更大的問題推到了臺前：當(dāng)大模型走出實(shí)驗(yàn)室評測，進(jìn)入一個(gè)有真實(shí)結(jié)果、有公開對照、有持續(xù)驗(yàn)證的公共場景時(shí)，各家模型的表現(xiàn)會呈現(xiàn)出怎樣的差異？

世界杯正在給出一個(gè)足夠誠實(shí)的答案。

各家都在預(yù)測，但只有同一張答卷才能比較

世界杯開賽前一周，中國AI行業(yè)圍繞世界杯的營銷戰(zhàn)已經(jīng)打響。

Kimi在世界杯前下場。6月8日，月之暗面宣布調(diào)度300個(gè)子Agent組成“Agent集群”，從戰(zhàn)術(shù)、球員、傷病、賽程、輿情、天氣、心理、賠率等多個(gè)維度，對104場比賽逐場做賽前預(yù)測和賽后復(fù)盤，并發(fā)布了系統(tǒng)性的預(yù)測報(bào)告。配合“萬億Token”瓜分活動(dòng)，Kimi也給出了一個(gè)有強(qiáng)傳播力的自我提示：“我們的預(yù)測很可能是錯(cuò)的。”

千問緊隨其后。阿里在6月11日上線“足球預(yù)測AI助手”，面向用戶開放，強(qiáng)調(diào)引入球隊(duì)、球員之外的環(huán)境變量，包括美加墨三國的地貌、海拔、濕度和比賽日天氣數(shù)據(jù)。同時(shí)，“千問球場計(jì)劃”把競猜積分與鄉(xiāng)村學(xué)校足球場捐建掛鉤，把世界杯預(yù)測與公益?zhèn)鞑ソY(jié)合起來。

DeepSeek、智譜、百度文心、訊飛星火、商湯等模型，也都以不同方式進(jìn)入世界杯預(yù)測場景。整個(gè)行業(yè)都意識到了同一件事：48支球隊(duì)、104場比賽、39天賽程、全球關(guān)注，這幾乎是2026年最天然的AI公共展示舞臺。

但問題也隨之出現(xiàn)：各家各做各的，外界很難比較。

一個(gè)用戶想知道DeepSeek和Kimi誰猜得更準(zhǔn)，需要分別去不同平臺查預(yù)測，再手動(dòng)對照賽果。放到104場比賽的體量里，這件事幾乎不現(xiàn)實(shí)。更重要的是，各家預(yù)測的發(fā)布時(shí)間、呈現(xiàn)格式、分析維度和復(fù)盤口徑并不統(tǒng)一，缺少同一張答卷，也就很難形成真正的橫向比較。

事實(shí)上，早在Kimi、千問單個(gè)模型下場之前，聯(lián)想集團(tuán)與咪咕已經(jīng)攢起了全球首個(gè)多AI同臺進(jìn)行世界杯預(yù)測的局。

這場由咪咕與聯(lián)想天禧AI聯(lián)合發(fā)起的世界杯預(yù)測人機(jī)大戰(zhàn)”中，DeepSeek、Kimi、千問、百度文心、騰訊混元、智譜、MiniMax、階躍星辰、訊飛星火、商湯小浣熊、中移九天等國內(nèi)主流大模型，與天禧AI自身放在同一張頁面上，對每場比賽給出統(tǒng)一格式的勝平負(fù)和比分預(yù)測。所有預(yù)測賽前同步展示，賽后即時(shí)驗(yàn)證，全程公開記錄。

這不是技術(shù)上最復(fù)雜的方案，卻可能是傳播上最有效的方案：它讓“AI誰更懂球”這件事，從各說各話，變成了同場考試。

技術(shù)方案越復(fù)雜，就一定越準(zhǔn)嗎？

15場數(shù)據(jù)已經(jīng)足夠讓人看到一些反直覺的結(jié)果。

Kimi拿出了行業(yè)里最重的世界杯預(yù)測方案之一：300個(gè)Agent集群并行推演，覆蓋戰(zhàn)術(shù)、賠率、心理、天氣等多個(gè)分析維度。從技術(shù)復(fù)雜度和資源投入看，這幾乎是本屆世界杯AI預(yù)測賽道中最“豪華”的配置之一。

但15場過后，Kimi階段成績?yōu)?場命中，勝率26.7%。

通義千問引入了地貌、天氣等環(huán)境數(shù)據(jù)。這些維度理論上能補(bǔ)足傳統(tǒng)足球分析中容易被忽略的變量。但15場過后，通義千問5場命中，勝率33.3%。

反觀聯(lián)想天禧AI，它沒有把傳播重點(diǎn)放在“調(diào)用了多少Agent”或“納入多少維度”上，而是以超級智能體的方式給出自己的判斷，同時(shí)把其他11家模型的判斷一起放進(jìn)同一個(gè)可驗(yàn)證場景。15場過后，聯(lián)想天禧AI6場命中，勝率40.0%，位于領(lǐng)先梯隊(duì)，與榜首只差一場。

這組對比并不能簡單推出“復(fù)雜架構(gòu)無效”的結(jié)論。15場樣本仍然有限，足球預(yù)測本身也高度依賴偶然性。但它至少提出了一個(gè)值得討論的問題：在足球預(yù)測這樣強(qiáng)不確定性的場景里，更多Agent、更復(fù)雜維度，是否一定能轉(zhuǎn)化為更高命中率？

至少從階段結(jié)果看，答案并不確定。

這也是世界杯作為AI驗(yàn)證場景的獨(dú)特之處。它不關(guān)心模型講了多少推理鏈條，也不關(guān)心預(yù)測報(bào)告寫了多少頁。最終，只有一個(gè)問題：終場比分是否站在你這一邊。

平局盲區(qū)：12個(gè)模型共同遇到的難題

15場比賽，已經(jīng)出現(xiàn)6場平局，平局率達(dá)到40%。

這一比例顯著高于世界杯小組賽常見的平局水平，也對AI陣營形成了系統(tǒng)性考驗(yàn)。在6場平局中，12大AI合計(jì)只有4次命中賽果：騰訊混元、Kimi、訊飛星火命中加拿大1-1波黑，階躍星辰命中比利時(shí)1-1埃及。

換句話說，AI在平局場景中的命中率，明顯低于它們在非平局比賽中的表現(xiàn)。

強(qiáng)弱分明的比賽里，AI表現(xiàn)并不差。例如德國7-1庫拉索、瑞典5-1突尼斯等比賽，多數(shù)模型甚至能夠全部命中勝負(fù)方向。但一旦比賽進(jìn)入平局、低比分、門將發(fā)揮、臨場失誤和節(jié)奏拉扯共同作用的場景，模型就很容易失準(zhǔn)。

這并非某一家模型的個(gè)體問題，而是多個(gè)模型共同暴露出的難題。

為什么大模型不擅長預(yù)測平局？一個(gè)可能的解釋是，足球語料天然偏向“勝負(fù)敘事”。賽前分析、賽后報(bào)道、球迷討論、歷史戰(zhàn)績數(shù)據(jù)庫，往往圍繞“誰贏了”“誰更強(qiáng)”“誰爆冷”展開。平局在真實(shí)比賽中并不罕見，卻很少成為敘事中心。

另一個(gè)可能的解釋，是推理框架的慣性。當(dāng)模型被要求預(yù)測一場比賽時(shí)，它往往會從排名、身價(jià)、陣容、歷史交鋒等維度出發(fā)，最終回答“哪一方更有優(yōu)勢”。這更接近一個(gè)排序問題。

但平局不是簡單的排序結(jié)果。它意味著兩支球隊(duì)在90分鐘里的機(jī)會、失誤、節(jié)奏、心理和偶然性，最終抵消了紙面差距。這要求模型不僅判斷誰更強(qiáng)，還要判斷優(yōu)勢能否轉(zhuǎn)化為勝利。后者是更復(fù)雜的概率校準(zhǔn)問題。

這正是“世界杯預(yù)測人機(jī)大戰(zhàn)”作為公開實(shí)驗(yàn)的價(jià)值所在：它不只展示AI何時(shí)正確，也暴露AI在哪些場景下最容易失準(zhǔn)，而且這種暴露是持續(xù)的、可追蹤的、不可回避的。

AI需要一個(gè)世界杯

過去幾年，中國AI行業(yè)的能力驗(yàn)證主要依賴三類方式：基準(zhǔn)測試、產(chǎn)品數(shù)據(jù)和事件營銷。

基準(zhǔn)測試可以給出標(biāo)準(zhǔn)化分?jǐn)?shù)，但離真實(shí)使用場景較遠(yuǎn)；產(chǎn)品數(shù)據(jù)能體現(xiàn)用戶規(guī)模和調(diào)用量，卻難以橫向比較；事件營銷容易形成傳播爆點(diǎn)，但往往只有一次性結(jié)論。

世界杯提供了一種完全不同的驗(yàn)證框架：真實(shí)場景、統(tǒng)一題面、持續(xù)驗(yàn)證、公開結(jié)果、全民參與。

104場比賽，每一場都是一道新題；每一道題都有確定答案；所有參與者面對同一張?jiān)嚲?；每一次判斷都會在終場哨響后被檢驗(yàn)。這種場景對AI行業(yè)來說極其稀缺。

這也是聯(lián)想集團(tuán)選擇在世界杯上發(fā)起“人機(jī)大戰(zhàn)”的深層邏輯。

“世界杯預(yù)測人機(jī)大戰(zhàn)”面向消費(fèi)者、球迷和普通公眾。很多人可能并不關(guān)心模型參數(shù)、推理成本和評測分?jǐn)?shù)，但他們一定能理解“這場球誰會贏”“AI猜得準(zhǔn)不準(zhǔn)”。

讓12大AI在世界杯賽場上接受公開驗(yàn)證，讓AI的能力和局限被更廣泛的人看到、討論、參與，這件事的價(jià)值正在隨著賽事推進(jìn)不斷放大。

Kimi的預(yù)測報(bào)告很專業(yè)，通義千問的環(huán)境數(shù)據(jù)很新穎，百度文心暫時(shí)領(lǐng)跑，聯(lián)想天禧AI處于領(lǐng)先梯隊(duì)。它們各有特點(diǎn)。但這些差異，只有在同一張答卷上，才真正能被看見。

當(dāng)很多AI公司都在各自舞臺上展示能力時(shí)，聯(lián)想做了一件更接近“基礎(chǔ)設(shè)施”的事：搭建一個(gè)共同舞臺，讓賽果來當(dāng)裁判。

89場比賽還在后面

15場，只完成了全部賽程的一小部分。小組賽還有大量比賽，淘汰賽也將在后續(xù)展開。比賽形態(tài)會從“強(qiáng)弱對話”，逐漸轉(zhuǎn)向“強(qiáng)強(qiáng)對決”和“生死戰(zhàn)”。這些新場景中，AI的表現(xiàn)是否會發(fā)生變化？平局率是否會回歸常見水平？當(dāng)前排名是否會被改寫？

現(xiàn)在下最終結(jié)論還為時(shí)過早。

但15場數(shù)據(jù)已經(jīng)足夠說明一件事：AI行業(yè)需要的不只是更大的參數(shù)、更多的Agent和更復(fù)雜的數(shù)據(jù)維度，也需要一個(gè)真實(shí)、持續(xù)、公開的驗(yàn)證場景，讓能力被看見，也讓局限被看見。

世界杯恰好是這樣一個(gè)場景。

而聯(lián)想集團(tuán)聯(lián)合咪咕，搭建了這個(gè)讓12大AI同場接受檢驗(yàn)的平臺。

這可能是“世界杯預(yù)測人機(jī)大戰(zhàn)”進(jìn)行到15場后，給中國AI行業(yè)留下的最重要啟示。

打開咪咕視頻APP搜索人機(jī)大戰(zhàn)，登錄聯(lián)想天禧AI相關(guān)入口，即可參與世界杯預(yù)測人機(jī)大戰(zhàn)。6月24日起，咪咕視頻與聯(lián)想集團(tuán)聯(lián)合出品的《人機(jī)大戰(zhàn)：誰是世界杯預(yù)言家》將在咪咕視頻正式開播，敬請期待。

足球

上一篇：當(dāng)村超遇上世界杯，咪咕“世界杯奇趣AI嘉年華”燃動(dòng)貴州榕江

下一篇：首個(gè)跨年賽季！J1聯(lián)賽2627賽季賽程：揭幕戰(zhàn)橫濱水手vs鹿島鹿角