Tenis in Data

Este blog nació de una idea simple: el tenis genera una cantidad enorme de datos y la mayoría de los análisis que circulan son superficiales. Victorias, derrotas, rankings. Pero hay preguntas mucho más interesantes que se pueden responder si uno se sienta con los datos reales.

¿Quién es el jugador más ilógico del circuito? ¿Qué tan difícil es realmente llegar al Top 100? ¿Cómo se comparan dos generaciones de jugadores en sus inicios? Esas son las preguntas que nos interesan.

Los datos

Todos los análisis se construyen sobre datasets públicos del circuito ATP y Challenger, que cubren partidos desde el año 2000 hasta la actualidad.

Dataset ATP

~67.000

partidos ATP (2000–2026)

Dataset combinado

~108.000

partidos ATP + Challenger

Cada análisis incluye la metodología utilizada — qué decisiones se tomaron, por qué, y qué limitaciones tienen los datos. El objetivo no es solo mostrar un resultado sino explicar cómo se llegó a él.

Herramientas

Los análisis se realizan en Python con pandas y matplotlib. Los gráficos se generan con scripts propios sobre los datasets originales, sin herramientas de visualización externas.

Fuente de datos

Los datos provienen del repositorio público de Jeff Sackmann (tennis_atp), una de las fuentes más completas y mantenidas de datos históricos de tenis masculino.