cat artículos/ai-predictions-graded-matchday-2.mdx

Comunio World Cup 2026 · Parte 3

Segunda ronda del boletín público: las predicciones se afinaron — y se quedaron calladas sobre cuándo se equivocan

Segunda ronda de calificar en público mi IA de fútbol fantasy del Mundial: las predicciones del resultado de los partidos saltaron del 46% al 75% — y los mismos datos muestran que no mejoró nada en saber cuándo se equivoca.

25 jun 2026 · por Daniel Deusing · ~20 min de lectura #ai #agents #football

En el artículo anterior dije que volvería a hacer esto después de la segunda ronda de partidos — poner las predicciones frente a lo que de verdad ocurrió, en voz alta, fallos incluidos. Así que aquí va la segunda ronda. Aterrizó en un lugar más extraño que una victoria limpia o una derrota limpia.

Una cosa que conviene dejar clara de entrada, porque es fácil malinterpretarla: no estoy entrenando una IA para predecir fútbol, y aquí no se está construyendo ningún modelo a medida. Tomo modelos existentes — los mismos que cualquier empresa puede coger de la estantería — y les doy las herramientas, el contexto y las instrucciones para hacer un trabajo concreto, y luego afino cómo lo hacen. Así es como se ve la IA aplicada en la práctica: no construyes el cerebro, pones uno bueno a trabajar en tu problema.

Había cambiado un montón de cosas después de la primera ronda, y la única manera de saber si de verdad funcionaban o solo quedaban bien sobre el papel era jugar otra ronda y mirar. Así que esto es lo que dicen los números — las dos mitades.

La buena noticia: acertar el ganador de un partido pasó del 46% al 75% de aciertos. Ese es el número que más quería mover, y se movió más de lo que esperaba.

La trampa: el sistema mejoró mucho en acertar sin mejorar nada en saber cuándo se equivoca. Esa brecha — no el fútbol — es lo más útil de toda esta pieza.

Déjame guiarte por las dos, con los fallos sobre la mesa.

Las predicciones de la segunda ronda, puntuadas de cuatro maneras — Segunda ronda (“Bewertete Prognosen GS2” = predicciones evaluadas, fase de grupos 2): mi pronóstico (“Tipp”) frente al resultado real (“Endergebnis”), con código de colores — verde = marcador exacto, naranja = ganador y diferencia correctos, azul = solo el ganador correcto, rojo = fallo. Compáralo con la primera ronda, donde el tablero estaba casi todo en rojo.

Qué mejoró de verdad, y en cuánto

Primero, el resumen, por si no leíste el artículo anterior — porque la gracia es justamente que puedas comprobarme.

Estoy en un juego de fantasy en el que un equipo de agentes de IA hace los deberes diarios: cada jornada predicen quién será titular en cada partido y cómo terminará cada partido, y luego la realidad los califica. En la primera ronda el veredicto fue una división limpia. El sistema ya era bueno acertando quién estaría en el once inicial (la parte conocible), y claramente malo acertando el marcador (la parte caótica). Acertó el ganador solo el 46% de las veces — apenas mejor que lanzar una moneda de tres caras entre ganar, empatar y perder.

Segunda ronda, mismo sistema de puntuación, sin excusas:

Ganador correcto: 11 de 24 partidos en la primera ronda (46%) → 18 de 24 en la segunda ronda (75%).
Diferencia de goles correcta: 2 de 24 → 5 de 24 — la diferencia correcta incluso cuando el marcador exacto no lo era (pronosticado 2–0, terminó 3–1).
Marcador exacto correcto: 2 de 24 (8%) → 3 de 24 (13%).
Cuánto se desviaron los goles, de media: básicamente igual (alrededor de un gol por lado, en ambas rondas).

Así que el sistema mejoró mucho eligiendo quién gana, mejor en el margen, un poco mejor en el marcador exacto, y nada mejor en el número de goles en bruto que esperaba — que es justo lo que cabría esperar si aprendió algo real sobre fútbol en vez de tener suerte. Elegir al ganador es una pregunta que tiene señal dentro. Clavar el número preciso de goles en un único partido de pocos goles es sobre todo suerte, y la suerte no aprende.

Por qué mejoró — la parte que deja de ser sobre fútbol

Aquí está el mecanismo, porque es donde deja de ser una historia de deporte y empieza a ser una historia sobre cualquier sistema que se supone que debe volverse más inteligente con el tiempo.

Después de la primera ronda, un agente evaluador repasó cada fallo y anotó en qué se había equivocado — no como un vertedero de datos, sino como una breve lista de lecciones en lenguaje llano, cada una con su evidencia. Antes de la segunda ronda, el agente que hace las predicciones leyó esa lista y se ajustó. Ese es todo el bucle.

Agente, y el bucle de aprendizaje: un “agente” aquí no es más que un pequeño trabajador de IA con un solo cometido — uno investiga cada equipo, uno predice, uno evalúa los fallos. El bucle: el sistema no recablea de la noche a la mañana un cerebro gigantesco, lleva un cuaderno. Después de cada ronda el agente evaluador anota “este es el patrón que fallé y la regla que voy a cambiar”, y antes de la siguiente ronda el predictor lee el cuaderno y lo sigue. Es la diferencia entre una caja negra que misteriosamente “mejora” y un fichaje nuevo que lleva una lista de errores y la repasa antes de cada turno — barato, instantáneo y, la parte que importa en una empresa, algo que un humano puede leer y rebatir.

Dos de las lecciones que escribió después de la primera ronda — y la división honesta de lo que hizo cada una:

“En un torneo en campo neutral no hay ventaja de local.” Una suposición tonta arrastrada del fútbol de liga normal venía regalando en silencio una ventaja al equipo listado primero. Borrada. Arreglo pequeño, efecto real.
“No confundas baja confianza con pocos goles — deja de cubrirte en las goleadas.” Esta la anotó y luego no la siguió. En la primera ronda pronosticaba educados 2–0 en partidos que se convertían en goleadas (Alemania ganó 7–1 tras un pronóstico de 3–0). En la segunda ronda hizo lo mismo — España, Portugal y los Países Bajos pronosticados con un cauteloso 2–0 o 2–1, y luego ganando 4–0, 5–0 y 5–1. Acertó los ganadores; sigue infravalorando gravemente la magnitud. Una lección apuntada todavía no es una lección en los huesos — y los márgenes son donde este sistema sigue más flojo.

Puedes leer cada una de estas lecciones en lenguaje llano. Eso es la característica, no un adorno. Un sistema cuyo aprendizaje puedes inspeccionar y anular es uno que puedes hacer funcionar dentro de una empresa; una caja negra que “simplemente mejora” es una que nunca le colarás a tu auditor. Y funciona en ambos sentidos — un evaluador puede escribir una lección que suena sabia y que en realidad está mal, que es exactamente por lo que un humano lee el cuaderno antes de que alimente la siguiente ronda.

El boletín por jornada y las lecciones que el sistema se escribió — El boletín por jornada (“Pro Spieltag”): los ganadores correctos saltan de 11 de 24 en la primera ronda a 18 de 24 en la segunda, y la columna “Falsch” (incorrecto) baja de 13 a 6. Debajo de la tabla están las lecciones en lenguaje llano que el sistema se escribió a sí mismo — el cuaderno legible, con sus propias palabras.

La trampa: acertar no es lo mismo que conocer tus probabilidades

Ahora la parte que no esperaba, y la razón por la que no estoy descorchando ningún champán.

Una predicción viene con un número de confianza — “estoy un 70% seguro de esto”. La prueba honesta de ese número no es si el pronóstico fue correcto. Es si la confianza sigue la pista a la realidad.

Calibración vs. discriminación: dos virtudes distintas. La calibración pregunta: cuando dices 70%, ¿ocurre unas siete veces de cada diez? La discriminación pregunta: ¿es tu confianza más alta en los pronósticos que aciertas que en los que fallas? Un buen pronosticador necesita ambas — ser ruidoso donde hay señal y callado donde es cara o cruz. Una app del tiempo que dice “70% de lluvia” todos y cada uno de los días, llueva o haga sol, es inútil aunque técnicamente esté calibrada, porque nunca te dice qué días coger el paraguas.

Esto es lo que le pasó a esa segunda virtud entre las dos rondas:

Primera ronda: el sistema tenía, de media, alrededor de un 65% de confianza en los partidos que acertó y un 57% en los que falló. Una brecha de ocho puntos — modesta, pero su confianza sí se inclinaba en la dirección correcta.
Segunda ronda: alrededor de un 64% de confianza cuando acertaba y un 64% cuando fallaba. La brecha se desplomó a aproximadamente cero.

Saqué yo mismo esas divisiones por ronda de los registros en bruto de predicciones y resultados — la página resumen de precisión mezcla ambas rondas en una sola cifra, así que esto es enseñarte el trabajo, no pedirte que lo aceptes a ciegas.

Léelo otra vez. El sistema casi duplicó su tasa de aciertos — y su confianza dejó de distinguir por completo sus aciertos de sus fallos. Mejoró en la respuesta y empeoró en saber qué tan seguro estar.

¿Cómo pueden ser ciertas ambas cosas? Por qué partidos siguió fallando. La mayoría de los fallos de la segunda ronda rimaban: un favorito claro, un equipo modesto encerrándose delante de un portero inspirado, y un marcador que no se rompía. Tres terminaron 0–0 — Ecuador, pronosticado para ganar a Curaçao 3–0; Inglaterra, pronosticada para ganar a Ghana 2–0; Bélgica sobre Irán — y un cuarto, los checos, fueron frenados a un 1–1. (Los otros dos se rompieron de otra forma: a Uruguay le igualaron para un 2–2, y Turquía perdió directamente con Paraguay.) El sistema estaba confiado en esos partidos de favorito frenado — razonablemente, sobre el papel — y se equivocó cada vez. Confiado-y-equivocado en un patrón que se repite es el peor modo de fallo que tiene un pronosticador, porque no se siente como una conjetura. Se siente como conocimiento.

Así que ese patrón es ahora una regla dura para la tercera ronda, no un empujoncito suave: contra un equipo modesto que defiende muy atrás con un buen portero, limita el margen y mete en precio una posibilidad real de empate — sobre todo si ese equipo modesto ya le arañó un punto a alguien más fuerte. Si la regla funciona es, de nuevo, algo que podrás comprobar la próxima ronda en vez de creer en mi palabra.

El lado de las alineaciones: ya era bueno, y siguió siéndolo

La otra mitad del sistema — predecir quién sale de verdad de inicio — era la mitad fuerte en el artículo anterior, y la actualización honesta no tiene drama: siguió fuerte. A lo largo de 357 pronósticos de once inicial en ambas rondas (descartados los obsoletos), acertó alrededor del 83% de las veces, esencialmente plano de una ronda a otra.

p_start / p_play: para cada jugador, cada día, el sistema produce p_start — una puntuación de 0 a 100 sobre la probabilidad de que esté en el once que salta al campo en el pitido inicial, el tipo de probabilidad que un médico da antes de una operación. Su número hermano, p_play, es la probabilidad de que pise el césped siquiera — titular o suplente.

Lo que sí mejoró es la forma de su confianza. En el artículo anterior señalé que cuando el sistema decía “bastante probable” (la banda del 60–80%) iba unos ocho puntos demasiado caliente. Esa banda está ahora casi perfectamente calibrada — los jugadores que mete en ese rango salen de inicio casi exactamente tan a menudo como dice. El punto débil tozudo sigue siendo el barro del medio, la banda del 20–40%: todavía con exceso de confianza — unos once puntos caliente, bajando de aproximadamente dieciocho en la primera ronda. Progreso real, todavía no un arreglo.

Pero la segunda ronda también sacó a la luz dos lecciones de alineación que vale la pena nombrar, porque cada una es una trampa que no tiene nada que ver con el fútbol:

El sistema se fio de un nombre famoso por encima de la hoja de alineación actual — y luego se escribió exactamente la lección equivocada al respecto. El portero es la posición más estable del campo, y sin embargo los pronósticos confiados de portero estuvieron entre los peores fallos: Australia jugó con Beach, un portero al que habíamos descartado al 2%, durante los 180 minutos, mientras que el nombre con experiencia que habíamos apuntado al 90% no entró nunca. El propio evaluador del sistema archivó eso bajo una regla pulcra — “la rotación de porteros es la norma en un torneo” — que sobreinterpreta un puñado de fallos hasta convertirlo en un falso patrón; los porteros apenas rotan. El fallo real fue un nombre más conocido sustituyendo al titular actual, y el arreglo real es aburrido: confirma quién está de verdad en el once, no te fíes de la camiseta. Borré la lección mala antes de que alimentara la siguiente ronda — que es la razón entera por la que un humano sigue leyendo el cuaderno.
El más vergonzoso: un fallo de proceso, repetido. Tres titulares habituales que habíamos infravalorado en la primera ronda siguieron infravalorados en la segunda porque sus predicciones nunca se refrescaron — el exacto error que describí arreglando en el artículo anterior, aplicado a los jugadores equivocados. La lección era correcta; la disciplina para aplicarla a cada nombre afectado aún no estaba. Así que el arreglo de esta ronda es mecánico, no ingenioso: antes de cada jornada, fuerza un refresco en cualquier titular habitual que siga con un número bajo obsoleto. La mitad sin glamur del trabajo es, una vez más, donde se esconden los errores de verdad.

La calibración de las alineaciones tras ambas rondas — La calibración de las alineaciones (“Aufstellungs-Kalibrierung”). La banda confiada del 60–80%, que iba caliente después de la primera ronda, está ahora casi exactamente bien; el barro del medio del 20–40% sigue con un punto de exceso de confianza. La tabla de debajo lista los mayores fallos de alineación — incluido un titular valorado al 93% dejado fuera por precaución (Tchouaméni) y dos porteros en el banquillo.

La clasificación, honestamente

Querrás saber si algo de esto está ganando. Lo está — voy primero, con 145 puntos, nueve por delante del segundo, y soy el equipo más valioso de la liga en general, plantilla más caja, por unos cinco millones.

La tabla de la liga tras la segunda ronda — La tabla tras la jornada dos (“Tabelle”). Primero en puntos (“Punkte”) y en valor total (“Gesamtwert” = valor del equipo más caja) — pero lee el siguiente párrafo antes de darle el mérito a las predicciones.

Esta es la parte honesta: la ventaja no viene de los pronósticos de marcador. Los vistosos pronósticos de quién-gana-y-por-cuánto son una herramienta útil que se va afinando, pero no son lo que está ganando la liga. La ventaja es la mitad más callada del mismo sistema. La IA investiga a cada jugador y predice quién va a salir de verdad de inicio — los números de p_start y p_play de antes — y ese conocimiento se convierte en dinero en el mercado de fichajes: compro jugadores baratos que son titulares fijos sin que se note antes de que su precio lo alcance, juzgo si un nombre dudoso vale la apuesta, y pujo con precisión en vez de pagar de más. Añade un bonus por punto que se acumula — más puntos, más caja, mejores jugadores, más puntos — y ese es el motor de verdad. Así que la IA sí es una gran razón por la que voy primero; solo que es la investigación de quién-juega, no las predicciones de quién-gana. Los pronósticos de marcador son el boletín público; los pronósticos de alineación son la ventaja.

Qué están haciendo los humanos — y qué te dice sobre cualquier subasta

Hay un segundo conjunto de datos escondido en esta liga que no tiene nada que ver con las predicciones y todo que ver con cómo se comporta la gente cuando puja a oscuras contra los demás. Los jugadores cambian de manos en una subasta a ciegas — ofertas selladas, nadie ve la del otro, gana el número más alto — y el registro ya guarda 639 de esas transacciones. Los patrones que hay dentro son lo más relevante para los negocios que tengo.

La gente paga de más, casi siempre. De las compras con una referencia de valor de mercado, el 85% fue por encima del valor listado — la oferta mediana aterrizó alrededor de un 21% por encima del precio de mercado del jugador, la media en torno a un 39% por encima, y una oferta desesperada llegó a casi cinco veces el valor listado. Pagar de más no es la excepción aquí; es la regla. La razón es estructural y vale la pena entenderla: en una subasta a sobre cerrado no pagas lo que vale la cosa, pagas lo que temes que pujará la siguiente persona — y el dueño no va a vender por el valor nominal de todos modos. El “valor de mercado” es una referencia, no un precio.

El registro de fichajes, con la columna de sobrepago — El registro de fichajes (“Transfers”): cada fila muestra lo que se pagó (“Preis”), el valor de mercado listado (“Wert”) y la prima sobre él (“Überzahlung” = sobrepago). La columna de sobrepago va en verde — por encima del valor de mercado — mucho más a menudo que en rojo. Los nombres son alias de la liga; las identidades reales quedan ocultas.

El frenesí se concentra al principio. La actividad fue más intensa antes de que arrancara el torneo — temporada de construir plantilla, unos diecinueve movimientos al día — y luego se enfrió a unos catorce al día una vez que empezaron los partidos de verdad y la mayoría de las plantillas ya estaban hechas. El sobrepujar también se enfrió: la prima típica encogió una vez que los partidos estaban en marcha y los managers tenían menos razones para perseguir. La gente es más atrevida cuando el campo está abierto de par en par y lo que está en juego todavía es abstracto, y más disciplinada una vez que los partidos — y las consecuencias — son reales.

Por qué esto es un patrón de negocio, no de fútbol: una subasta a sobre cerrado con presión de plazo es exactamente como funcionan los concursos de compras, las compras de espacios publicitarios, las ofertas de talento y las pujas de adquisición. Las mismas dos fuerzas aparecen cada vez — pujas contra tu miedo al otro postor, no contra el valor del activo, y pujas con más agresividad al principio, cuando el premio todavía es imaginario. Si tu empresa compra algo de forma competitiva, el 85%-de-sobrepago y el frenesí-concentrado-al-principio también son tus patrones.

Con las eliminatorias asomando, ya hay siete ofertas abiertas por mis jugadores esperando en la bandeja de entrada — el mercado despertando otra vez.

Dos pronósticos para lo que viene — dichos en voz alta ahora, calificados después

Un pronóstico que haces después del hecho no vale nada. Así que aquí van dos que estoy lanzando ahora, antes de la tercera ronda y las eliminatorias — para ser puntuados en público exactamente igual que todo lo demás.

Pronóstico uno — la tercera ronda castigará a quien se fíe del nombre de una estrella. Siete equipos ya han ganado sus dos partidos — Alemania, Francia, Argentina, México, Estados Unidos, Colombia y Noruega — así que entran en el último partido de grupo con un pie en la siguiente ronda y poco que perseguir. Un entrenador en esa situación tiene todas las razones para descansar piernas clave de cara a las rondas que importan. Mi predicción para la tercera ronda: una ola de rotaciones sorpresa de los líderes, y el trabajo del modelo de alineaciones es cazarlas pronto — la p_start de una estrella debería caer no porque esté lesionado sino porque su entrenador lo está protegiendo. El sistema ahora trata a un equipo con poco que jugarse como una bandera explícita de rotación. Veremos la próxima ronda si eso basta.

Mi plantilla de cara a la jornada tres — ”Mein Kader” (mi plantilla) de cara a la jornada tres: una probabilidad de titularidad (“p_start”), una probabilidad de jugar (“p_play”), un pronóstico de mantener/vender/apostar (“Halten” / “Verkaufen” / “Zocken”) y una nota con fuente por jugador. De Paul, de Argentina, normalmente un fijo, está en un arriesgado 30% (“Zocken”) — el modelo no esconde que no está seguro de que vaya a ser titular.

Pronóstico dos — las eliminatorias revalorizarán toda la lista de fichajes. Después de la tercera ronda el formato se vuelve brutal y simple: el campo se reduce a la mitad cada ronda — 32 equipos, luego 16, luego 8, luego 4, luego 2 — y desde los octavos de final en adelante, cada punto que anota un jugador cuenta el doble.

Por qué los puntos dobles lo cambian todo: un titular fijo en un equipo que se espera que llegue lejos vale de repente aproximadamente el doble por partido que el mismo jugador en un equipo a punto de ser eliminado — porque sus puntos se duplican y él sigue teniendo más partidos. El valor deja de ser sobre talento y empieza a ser sobre supervivencia.

Así que esta es la predicción: a medida que la fase de grupos termina y un tercio de los equipos se va a casa, espera una avalancha de doble cara en la lista de fichajes. Una liquidación de jugadores de naciones eliminadas o que se desinflan — activos muertos que nadie quiere tener — y, al mismo tiempo, guerras de pujas por los titulares fijos de los aspirantes de verdad, con el sobrepujar que describí arriba poniéndose peor en la cima, porque un titular de eliminatoria que puntúa doble vale la pena perseguirlo más allá de cualquier precio sensato. Los managers que se mueven pronto — antes de que el cuadro sea obvio — pagarán menos que los que esperan a la certeza. Informaré de vuelta sobre si así fue como acabó pasando.

Quita el fútbol

Lee toda esta pieza otra vez y borra la palabra “fútbol”.

Un sistema de pronósticos se reconstruyó y se volvió medibles más preciso — y esos mismísimos datos mostraron que había dejado de poder decirte en cuáles de sus pronósticos confiar. Ese segundo hecho es el que debería preocuparte, porque un modelo que se equivoca con confianza en un patrón que se repite es más peligroso que uno que está honestamente inseguro. Si alguien te vende un modelo que “mejoró su precisión hasta el 75%”, la siguiente pregunta no es “¿hasta dónde puede llegar?” — es “¿y sabe cuándo está a punto de equivocarse?”. Sigue ambos números, o estarás confiado y equivocado a la vez.

El resto se traslada igual de limpio. El aprendizaje que importaba no fue un modelo más grande; fue un cuaderno legible de errores que un humano puede auditar y anular — así es como una mejora de IA sobrevive al contacto con una empresa. Los errores que mordieron más fuerte no fueron la IA siendo ingeniosa o tonta; fueron aburridos fallos de proceso, como un número obsoleto que nunca se refrescó. Y los datos de comportamiento humano — pagar de más por defecto, más atrevidos cuando el premio todavía es abstracto — son la forma de cada puja competitiva que tu negocio ha hecho jamás.

Previsión de demanda, detección de abandono, monitorización de riesgo de proveedores, fijación de precios bajo presión de plazo — la misma maquinaria, las mismas trampas, las mismas dos preguntas que valen más que cualquier mejora de modelo: ¿puedo fiarme de mi propio marcador, y mis pronósticos confiados se merecen de verdad esa confianza? Los futbolistas solo hacen el marcador público y lo que está en juego lo bastante bajo como para enseñarte la cosa entera, fallos incluidos.

Un último pensamiento antes de soltarte. El número más útil de esta ronda no fue el 75%. Fue la brecha de confianza cerrándose a cero — el sistema diciéndome en voz baja que había aprendido a ganar sin aprender a dudar. Prefiero saberlo a no saberlo. Si tu trabajo funciona con pronósticos y nunca has separado “cuántas veces acierta” de “sabe cuándo no”, ese es el problema más interesante de tu escritorio — y puedes ver la tercera ronda aterrizar en la página pública antes de creer una sola palabra de esto. Si en algún punto de aquí viste tu propio mundo en vez de un campo de fútbol, sabes dónde encontrarme.