Fußballmeisterschaft der Künstlichen Intelligenzen

12. Juni 2026

Forschende haben ein Vergleichstool entwickelt, das die Ergebnisse der Fußballspiele der Weltmeisterschaft voraussagt. Dabei werden die Leistungen von verschiedenen Künstlichen Intelligenzen, der Large Language Modells (ChatGPT, Claude etc.), auf den Prüfstand gestellt.

LLM SoccerArena (http://llm-soccerarena.com/) ist eine Live-Rangliste für künstliche Intelligenz. Während der Fußball-WM 2026 sagen mehrere der führenden KI-Sprachmodelle jedes Spiel voraus. Die Forschenden verfolgen dabei, wie gut jedes Modell gegen die echten Ergebnisse abschneidet. Man kann es sich wie ein Tippspiel vorstellen, bei dem statt Menschen GPT-5.5, Claude, Gemini, Grok und andere Spitzenmodelle gegeneinander antreten. Entworfen wurde der Test der LLMs von Markus Weinmann, Professor für Business Analytics an der Universität zu Köln und am Institute for Business AI, zusammen mit seinen Kollegen Oliver Müller, Professor für Data Analytics an der Universität Paderborn, und Stefan Feuerriegel, Professor für AI for Management an der LMU München School of Management und am Munich Center for Machine Learning (MCML).

KI-Chatbots klingen bei fast allem selbstsicher. Fußball ist ein harter, öffentlicher Test. Die Spiele stehen fest, die Ergebnisse sind unstrittig, und niemand kennt den Ausgang vorher. Die Forschenden stellen also eine einfache Frage: Können diese Modelle die Ergebnisse von Fußballpartien vorhersagen? Und werden sie besser, wenn sie im Vorfeld der Spiele live nach Informationen im Internet suchen dürfen?

Um diese Fragen zu beantworten, bitten die Forschenden jedes Modell vor jedem Spiel um eine Vorhersage: das wahrscheinlichste Ergebnis und wie wahrscheinlich Heimsieg, Unentschieden oder Auswärtssieg sind. Jede Vorhersage wird mit einem Zeitstempel vor dem Anpfiff gespeichert, sodass nach dem Ergebnis nichts mehr geändert werden kann. Nach dem Spiel vergleichen die Wissenschaftler*innen jede Vorhersage mit dem offiziellen Ergebnis. Das Dashboard macht daraus eine Live-Rangliste, die sich durchsuchen und filtern lässt.

Wenn ein Sprachmodell vorhersagt, welche Mannschaft die Fußball-WM gewinnt, muss es Informationen zur aktuellen Form, zu Verletzungen, Trainerentscheidungen, vergangenen Begegnungen, Kaderqualität oder Wettquoten einordnen – und daraus eine belastbare Prognose unter Unsicherheit ableiten. Viele etablierte Benchmarks für große Sprachmodelle testen abstrakte Aufgaben in stark vereinfachten oder statischen Umgebungen. Fußball dagegen ist Realität.

Auch in der Weltmeisterschaft der Künstlichen Intelligenzen gibt es Punkte für den Erfolg: Pro Spiel bekommt ein Modell 5 Punkte für das exakte Ergebnis, 2 für die richtige Tordifferenz, 1 für die richtige Tendenz (Heimsieg, Unentschieden oder Auswärtssieg) und 0 für einen Fehltipp. Die turnierweiten Fragen werden separat gewertet, mit 5 Punkten für jeden richtigen Tipp.

Zusätzlich bewerten die Mitglieder der Forschungsgruppe die Vorhersagen so, wie es professionelle Prognostiker tun, indem sie prüfen, wie gut die angegebenen Wahrscheinlichkeiten zum tatsächlichen Geschehen passten. Näheres dazu erklären die Wissenschaftler*innen auf der Methodik-Seite der Webpräsenz.

„Wir bearbeiten keine Vorhersage, nachdem das Ergebnis bekannt ist”, erklärt Markus Weinmann. „Außerdem halten wir fest, wann ein Modell die Websuche genutzt hat und wann nicht, damit ein Open-Book-Tipp nie mit einem Closed-Book-Tipp verwechselt wird.”

Eine hohe Platzierung heißt, dass ein Modell bei den bisher gespielten Partien gut lag. Sie beweist nicht, dass das Modell Fußball versteht, und sie sagt nicht, wer das nächste Spiel gewinnt. „Früh im Turnier sind erst wenige Spiele gewertet, deshalb wird sich die Tabelle stark bewegen”, so der Kölner Professor für Business Analytics.

Die Erkenntnisse sind auch für die Management-Forschung relevant. Führungskräfte nutzen große Sprachmodelle zunehmend, um Marktinformationen zu strukturieren, Szenarien zu bewerten oder Prognosen vorzubereiten – etwa zu Nachfrageentwicklungen, Wettbewerbern, Produkteinführungen oder Risiken. Dabei reicht abstraktes Schlussfolgern allein nicht aus: Modelle müssen relevante Informationen erkennen, Unsicherheiten einordnen und daraus belastbare Einschätzungen ableiten.

Die Vorhersagen, die die Systeme treffen, sind ein Forschungsprojekt. Sie sind keine Wettempfehlung.

Quelle: Universität zu Köln

Vorheriger Artikel

Musik entdecken und Instrumente ausprobieren – BON lädt zum Schnuppernachmittag ein

Nächster Artikel

Wertstoffhof in Heldenbergen offiziell eröffnet

Fußballmeisterschaft der Künstlichen Intelligenzen

Vollsperrung im Kinzdorf

Mehr als 76.000 geschützte Tiere in Südhessen registriert

Modernisierungsschub für Hessens Rathäuser

Am beliebtesten

Sicherheitsdienst in den Hanauer Parkhäusern und Tiefgaragen erweitert

Neue Mitarbeiter für die Kindertagesstäten der Gemeinde Hasselroth

Falscher Ableser forderte EC-Karte und Ausweis – Bad Orb

Bus-Umleitung der Linie 12

Von heute

Hanau zieht alle Feier-Register

Neue Mitarbeiter für die Kindertagesstäten der Gemeinde Hasselroth

Fußgänger bei Zusammenstoß mit Auto lebensgefährlich verletzt

Beliebteste Kategorien

Folge uns auf SocialMedia