🪞 Our AI is 4-for-16 — The Honest Why
We promised to grade every forecast in public, win or lose. So here's the uncomfortable part: through 16 graded matches, our AI has called the right result just 4 times. That's 25%. We're not going to bury it — we're going to explain it, because the reason is genuinely interesting, and it's exactly what we've been building to fix.
1. The scoreboard, by confidence tier
| Tier | Right | Read |
|---|---|---|
| 🔒 LOCK | 1 / 1 | the one near-certainty held |
| 🎯 HIGH | 3 / 11 | hammered by draws |
| MED | 0 / 2 | coin-flips, both missed |
| LOW | 0 / 2 | genuinely unclear, as labelled |
Exact scorelines: 0 for 16. Predicting the precise score is brutally hard, and we're not pretending otherwise.
2. Why: a historic draw-fest
Here's the single biggest reason, and it's a real outlier: 8 of the 16 matches ended in draws. That's a 50% draw rate, against a long-run historical norm of roughly 23%. Brazil, Canada, the Netherlands, Qatar, Belgium, Saudi Arabia, Spain (0-0!) and Iran all drew games our model expected a favourite to win.
Our model, like most football models, leans toward backing the stronger side to win — so a tournament where half the games are stalemates is close to a worst-case environment for it. When the draws come this thick, a "favourite wins" engine gets punished on call after call, even when its read of who's stronger is correct.
The honest summary: we were often right about who was better and wrong about the result — because an unusual wave of draws turned "should win" into "didn't win" again and again.
3. The one we nailed
The bright spot is the tier that's supposed to be bright: our single LOCK — Germany, at 97% — landed (Germany won big). That's the whole point of tiering: the calls we're nearly certain about should hold, and the one we made did. We'd rather have one honest LOCK that hits than ten flattering "HIGH" calls that don't.
4. What we're fixing — and it's the right fix
The remarkable thing is that this run validates the exact work we've been doing under the hood. Our own research flagged draws as the model's weak spot, and we've been building the cure:
- Honest, unified confidence tiers — already shipped, so a 55% "lean" never masquerades as high confidence again.
- Probability calibration — our analysis shows the model is over-confident on favourites; calibrating it directly attacks the draw blind spot.
- A 3-AI committee — three independent models now vote on every match, so when they disagree we lean toward the draw instead of blindly backing the favourite.
None of that un-does this record. But it's why we expect the next 16 to read better than the last 16.
5. Why we publish this
Because a prediction you can't check is worth nothing. Anyone can crow about their hits and quietly delete their misses; our whole reason to exist is that we don't. The scoreboard is the product. Today it says 4-for-16 — and you can hold us to making it better.
🧸 Explain like I'm 3
Our robot guessed who'd win 16 football games and only got 4 right. That's not great! But here's why: lots and lots of games ended in a tie this time — way more ties than normal — and our robot mostly guessed someone would win.
The one game the robot was SUPER sure about (Germany), it got right. And we're teaching the robot to expect more ties. We're telling you the bad score because that's the honest thing to do.
🪞 我们的 AI 16 场猜对 4 场 —— 诚实的原因
我们承诺过,无论输赢,都会公开为每一次预测打分。所以这是难堪的部分:在已评定的 16 场比赛中,我们的 AI 只猜对了 4 次结果。也就是 25%。我们不会把它藏起来 —— 我们要解释它,因为原因确实有意思,而且这恰恰是我们一直在打造、想要修复的东西。
1. 按信心档位的成绩单
| 档位 | 猜对 | 解读 |
|---|---|---|
| 🔒 LOCK | 1 / 1 | 唯一的近乎确定,守住了 |
| 🎯 HIGH | 3 / 11 | 被平局重创 |
| MED | 0 / 2 | 五五开,都没中 |
| LOW | 0 / 2 | 本就不明朗,如标注 |
准确比分:16 场 0 中。预测确切比分极其困难,我们不会假装不是。
2. 为什么:一场历史级的平局潮
这是最大的单一原因,而且是个真正的异常值:16 场里有 8 场以平局收场。这是 50% 的平局率,而长期历史常态约为 23%。巴西、加拿大、荷兰、卡塔尔、比利时、沙特、西班牙(0-0!)和伊朗,都把我们模型预期热门取胜的比赛踢成了平局。
我们的模型,和大多数足球模型一样,倾向于看好更强的一方取胜 —— 所以一个一半比赛都是僵局的赛事,对它而言近乎最糟糕的环境。当平局来得这么密集,一个"热门取胜"的引擎会一次又一次地被惩罚,即便它对谁更强的判断是对的。
诚实的总结:我们常常说对了谁更强,却说错了结果 —— 因为一波反常的平局,把"理应取胜"一次次变成了"没有取胜"。
3. 我们猜中的那一场
亮点恰好出现在本应发亮的档位:我们唯一的 LOCK —— 德国,97% —— 命中了(德国大胜)。这正是分档的全部意义:我们近乎笃定的判断应当守住,而我们做的那个守住了。比起十个好看却落空的"HIGH",我们宁愿要一个诚实命中的 LOCK。
4. 我们在修什么 —— 而且修对了方向
了不起的是,这一轮恰好印证了我们在引擎盖下一直做的工作。我们自己的研究早就标出平局是模型的软肋,而我们一直在打造解药:
- 诚实、统一的信心档位 —— 已上线,让 55% 的"倾向"再也不会冒充高信心。
- 概率校准 —— 我们的分析显示模型对热门过度自信;校准它,正面攻击平局盲区。
- 三 AI 委员会 —— 现在三个独立模型为每场比赛投票,当它们分歧时,我们倾向平局,而非盲目押热门。
这些都无法抹去这份战绩。但这就是为什么我们预期接下来的 16 场,会比过去的 16 场读起来更好。
5. 我们为什么公开这个
因为一个你无法核对的预测,一文不值。谁都能炫耀命中、悄悄删掉失手;而我们存在的全部理由,就是我们不这么做。记分牌本身就是产品。今天它写着 16 中 4 —— 而你可以拿它来要求我们做得更好。
🧸 像跟3岁小孩解释
我们的机器人猜了 16 场球谁会赢,只猜对了 4 场。不太行!但原因是:这次特别特别多比赛打成了平局 —— 比平常多得多 —— 而我们的机器人大多猜会有一方赢。
机器人最有把握的那一场(德国),它猜对了。我们正在教机器人多预期一些平局。我们把这个不好的成绩告诉你,因为这才是诚实的做法。
🪞 AI Kami 4-daripada-16 — Sebab Jujurnya
Kami berjanji menggred setiap ramalan secara terbuka, menang atau kalah. Jadi inilah bahagian yang janggal: menerusi 16 perlawanan yang digred, AI kami betul hanya 4 kali. Itu 25%. Kami takkan menyembunyikannya — kami akan menerangkannya, kerana sebabnya benar-benar menarik, dan ia tepat-tepat perkara yang kami bina untuk dibetulkan.
1. Papan markah, ikut tahap keyakinan
| Tahap | Betul | Bacaan |
|---|---|---|
| 🔒 LOCK | 1 / 1 | satu-satunya kepastian, bertahan |
| 🎯 HIGH | 3 / 11 | dihentam seri |
| MED | 0 / 2 | lambungan syiling, dua-dua tersasar |
| LOW | 0 / 2 | memang tak jelas, seperti dilabel |
Skor tepat: 0 daripada 16. Meramal skor tepat amat sukar, dan kami tak berpura-pura sebaliknya.
2. Kenapa: kebanjiran seri bersejarah
Inilah sebab tunggal terbesar, dan ia outlier sebenar: 8 daripada 16 perlawanan berakhir seri. Itu kadar seri 50%, berbanding norma sejarah jangka panjang kira-kira 23%. Brazil, Canada, Belanda, Qatar, Belgium, Arab Saudi, Sepanyol (0-0!) dan Iran semuanya seri dalam perlawanan yang model kami jangka pilihan akan menang.
Model kami, seperti kebanyakan model bola sepak, condong menyokong pihak lebih kuat untuk menang — jadi kejohanan di mana separuh perlawanan ialah kebuntuan hampir persekitaran terburuk untuknya. Apabila seri datang sepadat ini, enjin "pilihan menang" dihukum panggilan demi panggilan, walaupun bacaannya tentang siapa lebih kuat itu betul.
Ringkasan jujur: kami sering betul tentang siapa lebih baik dan salah tentang keputusan — kerana gelombang seri luar biasa menukar "patut menang" kepada "tidak menang" berulang kali.
3. Yang kami tepat
Titik cerah muncul di tahap yang sepatutnya cerah: satu-satunya LOCK kami — Germany, pada 97% — mendarat (Germany menang besar). Itulah seluruh maksud penahapan: panggilan yang kami hampir pasti sepatutnya bertahan, dan yang kami buat itu bertahan. Kami lebih rela satu LOCK jujur yang kena daripada sepuluh "HIGH" menarik yang tak kena.
4. Apa yang kami betulkan — dan ia pembetulan yang tepat
Yang luar biasa, larian ini mengesahkan kerja yang kami buat di sebalik tudung. Penyelidikan kami sendiri menanda seri sebagai kelemahan model, dan kami sedang membina penawarnya:
- Tahap keyakinan jujur dan bersatu — sudah dilancarkan, supaya "condongan" 55% takkan menyamar sebagai keyakinan tinggi lagi.
- Penentukuran kebarangkalian — analisis kami tunjuk model terlalu yakin pada pilihan; menentukurnya menyerang terus titik buta seri.
- Jawatankuasa 3-AI — kini tiga model bebas mengundi setiap perlawanan, jadi apabila mereka berpecah, kami condong ke seri dan bukan membuta menyokong pilihan.
Tiada satu pun membatalkan rekod ini. Tetapi itulah sebabnya kami jangka 16 seterusnya berbunyi lebih baik daripada 16 lepas.
5. Kenapa kami terbitkan ini
Kerana ramalan yang anda tak boleh semak tidak bernilai. Sesiapa boleh megah tentang kena dan diam-diam padam tersasar; seluruh sebab kewujudan kami ialah kami tidak. Papan markah itulah produknya. Hari ini ia kata 4-daripada-16 — dan anda boleh pertanggungjawabkan kami untuk membaikinya.
🧸 Terangkan macam saya umur 3 tahun
Robot kami teka siapa menang 16 perlawanan dan betul cuma 4. Tak hebat! Tapi sebabnya: banyak sangat perlawanan berakhir seri kali ini — jauh lebih banyak daripada biasa — dan robot kami kebanyakannya teka seseorang akan menang.
Satu perlawanan yang robot SANGAT pasti (Germany), ia betul. Dan kami mengajar robot menjangka lebih banyak seri. Kami beritahu anda skor buruk ini sebab itu perkara jujur untuk dibuat.
🪞 எங்கள் AI 16-இல் 4 — நேர்மையான காரணம்
வெற்றியோ தோல்வியோ, ஒவ்வொரு கணிப்பையும் பகிரங்கமாக மதிப்பிடுவோம் என உறுதியளித்தோம். எனவே இதோ சங்கடமான பகுதி: மதிப்பிடப்பட்ட 16 போட்டிகளில், எங்கள் AI சரியான முடிவை வெறும் 4 முறை மட்டுமே சொன்னது. அதாவது 25%. அதை மறைக்க மாட்டோம் — விளக்குவோம், ஏனெனில் காரணம் உண்மையிலேயே சுவாரஸ்யமானது, மற்றும் அதைச் சரிசெய்யவே நாங்கள் கட்டமைத்து வந்தோம்.
1. நம்பிக்கை நிலை வாரியான மதிப்பெண்
| நிலை | சரி | வாசிப்பு |
|---|---|---|
| 🔒 LOCK | 1 / 1 | ஒரே நிச்சயம், பிடித்தது |
| 🎯 HIGH | 3 / 11 | சமநிலையால் நொறுங்கியது |
| MED | 0 / 2 | நாணயச் சுண்டல், இரண்டும் தவறு |
| LOW | 0 / 2 | உண்மையிலேயே தெளிவற்றது, லேபிளிட்டபடி |
சரியான மதிப்பெண்கள்: 16-இல் 0. சரியான மதிப்பெண்ணைக் கணிப்பது மிகக் கடினம், அதை மறைக்கவில்லை.
2. ஏன்: ஒரு வரலாற்று சமநிலை-வெள்ளம்
இதோ மிகப்பெரிய ஒற்றைக் காரணம், ஒரு உண்மையான outlier: 16 போட்டிகளில் 8 சமநிலையில் முடிந்தன. அது 50% சமநிலை விகிதம், நீண்டகால வரலாற்று இயல்பு சுமார் 23%-க்கு எதிராக. பிரேசில், கனடா, நெதர்லாந்து, கத்தார், பெல்ஜியம், சவுதி, ஸ்பெயின் (0-0!) மற்றும் ஈரான் அனைத்தும் எங்கள் மாதிரி விருப்ப அணி வெல்லும் என எதிர்பார்த்த போட்டிகளை சமநிலையாக்கின.
எங்கள் மாதிரி, பெரும்பாலான கால்பந்து மாதிரிகளைப் போல, வலிமையான அணி வெல்லும் என சாய்கிறது — எனவே பாதி போட்டிகள் முட்டுக்கட்டையாகும் ஒரு தொடர் அதற்கு கிட்டத்தட்ட மோசமான சூழல். சமநிலைகள் இவ்வளவு அடர்த்தியாக வரும்போது, "விருப்ப அணி வெல்லும்" என்ஜின் முடிவுக்கு முடிவு தண்டிக்கப்படுகிறது, யார் வலிமையானவர் என்ற அதன் வாசிப்பு சரியாக இருந்தாலும்.
நேர்மையான சுருக்கம்: யார் சிறந்தவர் என்பதில் நாங்கள் அடிக்கடி சரியாகவும், முடிவில் தவறாகவும் இருந்தோம் — ஏனெனில் ஒரு அசாதாரண சமநிலை அலை "வெல்ல வேண்டியதை" மீண்டும் மீண்டும் "வெல்லவில்லை" ஆக்கியது.
3. நாங்கள் சரியாகச் சொன்னது
பிரகாசிக்க வேண்டிய நிலையிலேயே ஒளிப்புள்ளி: எங்கள் ஒரே LOCK — ஜெர்மனி, 97%-இல் — கிடைத்தது (ஜெர்மனி பெருவெற்றி). அதுவே தரப்படுத்தலின் முழு நோக்கம்: நாங்கள் கிட்டத்தட்ட உறுதியான முடிவுகள் பிடிக்க வேண்டும், நாங்கள் செய்தது பிடித்தது. தவறும் பத்து கவர்ச்சிகரமான "HIGH"-ஐ விட, கிடைக்கும் ஒரு நேர்மையான LOCK-ஐ விரும்புகிறோம்.
4. நாங்கள் என்ன சரிசெய்கிறோம் — மற்றும் அது சரியான திருத்தம்
குறிப்பிடத்தக்கது, இந்த ஓட்டம் மூடிக்குக் கீழே நாங்கள் செய்து வந்த வேலையை சரியாக சரிபார்க்கிறது. எங்கள் சொந்த ஆராய்ச்சி சமநிலையை மாதிரியின் பலவீனம் எனக் குறித்தது, மருந்தைக் கட்டமைத்து வருகிறோம்:
- நேர்மையான, ஒருங்கிணைந்த நம்பிக்கை நிலைகள் — ஏற்கனவே வெளியிடப்பட்டது, 55% "சாய்வு" உயர் நம்பிக்கையாக மாறுவேடமிடாது.
- நிகழ்தகவு அளவீடு — மாதிரி விருப்ப அணிகளில் அதிக நம்பிக்கை கொண்டுள்ளது என்று எங்கள் பகுப்பாய்வு காட்டுகிறது; அதை அளவீடு செய்தல் சமநிலை குருட்டுப்புள்ளியை நேரடியாகத் தாக்குகிறது.
- 3-AI குழு — இப்போது மூன்று சுயாதீன மாதிரிகள் ஒவ்வொரு போட்டிக்கும் வாக்களிக்கின்றன, அவை வேறுபடும்போது விருப்ப அணியை குருட்டுத்தனமாக ஆதரிப்பதற்குப் பதிலாக சமநிலையை நோக்கி சாய்கிறோம்.
இவை எதுவும் இந்த சாதனையை மாற்றாது. ஆனால் அடுத்த 16, கடந்த 16-ஐ விட சிறப்பாக இருக்கும் என நாங்கள் எதிர்பார்ப்பதற்கு இதுவே காரணம்.
5. நாங்கள் ஏன் இதை வெளியிடுகிறோம்
ஏனெனில் நீங்கள் சரிபார்க்க முடியாத ஒரு கணிப்பு மதிப்பற்றது. யார் வேண்டுமானாலும் தங்கள் வெற்றிகளைப் பற்றி பெருமை பேசி, தோல்விகளை அமைதியாக நீக்கலாம்; நாங்கள் இருப்பதன் முழு காரணமே நாங்கள் அப்படிச் செய்வதில்லை என்பதுதான். மதிப்பெண் பலகையே தயாரிப்பு. இன்று அது 16-இல் 4 என்கிறது — அதை மேம்படுத்த எங்களைப் பொறுப்பாக்கலாம்.
🧸 3 வயது குழந்தைக்கு விளக்குவது போல
எங்கள் ரோபோ 16 கால்பந்து போட்டிகளில் யார் வெல்வார்கள் என யூகித்து 4 மட்டுமே சரியாகச் சொன்னது. அவ்வளவு நன்றாக இல்லை! ஆனால் காரணம்: இந்த முறை நிறைய நிறைய போட்டிகள் சமநிலையில் முடிந்தன — வழக்கத்தை விட மிக அதிகம் — மற்றும் எங்கள் ரோபோ பெரும்பாலும் யாரோ வெல்வார்கள் என யூகித்தது.
ரோபோ மிகவும் உறுதியாக இருந்த ஒரு போட்டி (ஜெர்மனி), அதை சரியாகச் சொன்னது. மேலும் அதிக சமநிலைகளை எதிர்பார்க்க ரோபோவுக்குக் கற்பிக்கிறோம். மோசமான மதிப்பெண்ணை உங்களுக்குச் சொல்கிறோம், ஏனெனில் அதுவே நேர்மையான செயல்.