Traducido por Marco Gámez
Cada avance en la maquinaria de medición estadística del béisbol tiende a definir una nueva era en la sabermetría. Ahora la gente se refiere habitualmente a la “era Statcast”, es decir, 2015 y años posteriores, y antes de eso, la “era PitchF/X” (2008-), porque son puntos de referencia convenientes para la disponibilidad de datos nuevos y valiosos que enriquecen nuestra capacidad para escribir y pensar sobre el béisbol.
Una víctima de estas eras que avanzan es que las temporadas anteriores a que los datos estuvieran disponibles se pierden. Nunca sabremos con certeza cuáles eran las velocidades de salida antes de la era Statcast, lo que significa que los más de cien años de béisbol, exceptuando este breve lapso son inaccesibles para el análisis, los datos curiosos y las tablas de clasificación de líderes. Pero hay una manera, aunque con algunas limitaciones, de extender los datos de la era Statcast otros 15 años atrás, hasta los últimos días de la Era de los Esteroides. Con estas velocidades de salida imputadas, es posible medir algunos de los valores atípicos más importantes de ese período, incluyendo a Barry Bonds en algunas de las temporadas ofensivas más productivas de la historia.
Cuando faltan datos, los profesionales de las estadísticas suelen utilizar una técnica llamada “imputación” para recuperarlos. Lo que eso realmente significa es una conjetura basada en estadísticas: al observar las características de otros puntos de datos similares, los algoritmos pueden estimar cuáles podrían haber sido los datos faltantes. Pero para que la imputación funcione, necesita información que pueda ayudar a estimar los valores faltantes con cierta precisión.
Hay todo tipo de indicadores de la fuerza con la que se bateó una pelota, desde si fue capturada limpiamente (las pelotas bateadas con más fuerza se convierten en hits con más frecuencia) hasta si fue un jonrón. Pero el indicador más valioso para calcular la velocidad de salida es simplemente dónde aterrizó la pelota. Estas coordenadas, que los corresponsales de MLB registraron durante los últimos 20 años, brindan mucha información sobre la velocidad de cada bola una vez que sale del bate: los batazos que viajaron más lejos fueron conectados con más fuerza.
También hay un conjunto conocido de datos, en los cientos de miles de bolas bateadas que tenemos en la era Statcast, que vincula la velocidad de salida y el ángulo de despegue con la distancia recorrida. Primero trabajé con un modelo con la mitad de los datos de 2015 en adelante, usando un modelo de Random Forest para calcular la velocidad de salida en función de las coordenadas de aterrizaje y el tipo de bola que era bateada: línea, roletazo, etc. (que sirve como aproximación para el ángulo de despegue).
Este modelo produjo resultados sorprendentemente precisos. Para una determinada bola bateada, calculó la velocidad de salida con una desviación de aproximadamente 2.5 mph (4 kph). Para los promedios de todas las bolas bateadas que un jugador tuvo, fue aún mejor.
La correlación aquí es de aproximadamente r=0.7, y la mayoría de los bateadores se encuentran a un par de millas por hora (3.2 kph) de su verdadera velocidad de salida típica. Pero es notable que el rango de predicciones del modelo se reduzca en relación con los datos reales. Esto se debe a que, para maximizar la precisión, el modelo rara vez predice que la velocidad de salida (EV, por sus siglas en Inglés) de un bateador supere las 95 mph (153 kph). Entonces, aunque estas estimaciones son precisas en promedio, tienden a hacer retroceder un poco a la mayoría de los bateadores hacia el valor promedio.
Esto no es hechicería estadística, aunque puede parecerlo (especialmente, considerando que el término Random Forest suena sacado directamente de una novela de fantasía). Realmente es solo examinar la distancia que han recorrido las bolas bateadas en diferentes trayectorias, y alimentar con eso ecuaciones que arrojan un número que todos (a estas alturas) conocemos y entendemos, como velocidad de salida. Aunque las distancias no son datos nuevos, no teníamos la capacidad de medir rigurosamente lo que significan hasta que obtuvimos los números de Statcast para la velocidad desde que sale del bate.
Con un modelo en la mano que podía imputar la velocidad de salida con precisión, traté de aplicarlo a los datos de las bolas bateadas de 2000 a 2008, un buen período de años antes de que Statcast estuviera activo. Sin embargo, hay una cobertura de datos limitada en esta era, y las coordenadas de aterrizaje de las bolas bateadas parecen faltar por completo en 2002 y 2004, por razones desconocidas.
Antes de continuar, hay una larga lista de limitaciones que se aplican aquí, entre ellas, problemas de cobertura de datos. Un problema importante es que las características aerodinámicas de la pelota afectan la distancia que recorre en una trayectoria determinada, a veces de manera significativa. Si la pelota era menos resistente al aire en el pasado, parecería que los bateadores tuvieran una mayor velocidad de salida que la real. Otra limitación importante es la fuente de estos datos: Cuando son los empleados de MLB quienes ingresan coordenadas manualmente es un proceso mucho menos científico (y probablemente menos preciso) que los nuevos sistemas de cámaras o radares que se usan ahora. Ambos son problemas reales y además hay otros, por lo que es apropiado tratar estas estimaciones como si tuvieran mucha contaminación y sesgos potencialmente sistemáticos. Se trata de herramientas para divertirse y aún no para una investigación científica rigurosa.
Dicho esto, una de las medianas de velocidades de salida más altas pertenece, por supuesto, a Barry Bonds, en una de las mejores temporadas ofensivas en la historia del béisbol. (Estoy usando la mediana aquí para minimizar la influencia de los valores atípicos).
Nombre | Temporada | Mediana de la Velocidad de Salida |
Russell Branyan | 2005 | 92.5 |
Barry Bonds | 2003 | 92.4 |
Jason Giambi | 2003 | 91.7 |
Todd Helton | 2003 | 91.6 |
Trot Nixon | 2003 | 91.6 |
Adam Dunn | 2003 | 91.6 |
Carlos Delgado | 2003 | 91.2 |
Jim Thome | 2003 | 91.1 |
Manny Ramirez | 2003 | 91.0 |
Frank Thomas | 2003 | 90.9 |
Pero lo que puede ser sorprendente es que no se lleva la palma en la mediana general de velocidad de salida, ni siquiera tiene la corona por la mediana más alta de la velocidad de salida en una sola temporada.
¿La razón? Batazos elevados al cuadro interior. Barry Bonds conectó un número sorprendente de ellos durante sus años tope (con una tasa superior al 10%), y son la muerte en la velocidad de salida promedio, ya que se ubican en alrededor de 77 mph (124 kph). Esta es también un área donde la deficiencia del modelo en términos de uso de la distancia promedio recorrida es más problemática; no hay forma de que sepa si un batazo elevado al cuadro que viajó a 20 pies (6 m) de distancia estuvo en el aire durante 10 segundos o 5, por lo que el modelo tiende a asignarles a ambos alrededor de esa velocidad de 77 mph (124 kph) desde que salen del bate. Es totalmente concebible que los batazos elevados al cuadro conectados por Bonds se elevaron tan altos que también tenían velocidades de salida de 100 mph (161 kph), pero desafortunadamente no podemos saberlo sin una investigación en profundidad de cada bola bateada.
Si estudias únicamente los batazos que no fueron mansos elevados, naturalmente, Bonds pasa a primer plano, empatado en este lapso con Ryan Howard para la mediana más alta en cuanto a velocidad de salida se refiere, con 90.2 (145 kph) (mínimo 1000 bolas bateadas). El resto de los 10 Mejores lo conforman quienes se esperaba lo hicieran: Manny Ramirez, Frank Thomas, Todd Helton, Albert Pujols, y Miguel Cabrera hacen sus apariciones, mientras que Bill Hall y Troy Glaus acompañan de manera inesperada.
Nombre | Mediana de la Velocidad de Salida |
Ryan Howard | 90.2 |
Barry Bonds | 90.2 |
Bill Hall | 90.1 |
Frank Thomas | 89.9 |
Manny Ramirez | 89.8 |
Jason Bay | 89.7 |
Todd Helton | 89.7 |
Albert Pujols | 89.7 |
Troy Glaus | 89.6 |
Miguel Cabrera | 89.5 |
Las cifras de los últimos años también se comparan, sorprendentemente, de manera favorable con esta lista. (Para hacer la comparación de manzanas a manzanas, utilicé el modelo para imputar también las velocidades de salida de los bateadores recientes, de modo que se redujeran tanto como las de los bateadores de antaño). Seis bateadores de las últimas cinco temporadas tienen sus proyectadas medianas de velocidades de salida iguales o superiores a Bonds y Howard: Nolan Arenado, Justin Turner, J.D. Martinez, Mookie Betts, Freddie Freeman, y Anthony Rendon. (Muchos otros, como Aaron Judge, simplemente no acumularon suficientes bolas bateadas).
Hay muchas más preguntas para responder con estos datos y tablas de clasificación para examinar, lo que haré en las próximas semanas. ¿Cómo fue el espectro de contacto en años anteriores? ¿Cómo han cambiado las velocidades de salida promedio de la liga? Estas consultas y otras se pueden abordar con este enfoque siempre que los corresponsales hayan proporcionado datos.
Nunca obtendremos una forma perfectamente precisa de analizar el pasado con las herramientas de medición que tenemos ahora. Pero vale la pena pensar en cómo podemos con algunas de nuestras elegantes métricas impulsadas por la tecnología del presente extrapolar hacia el pasado en la historia del béisbol. Y aunque es posible que nunca sepamos con certeza las velocidades de salida de Bonds, no es sorprendente que termine en la cima de su era.
Thank you for reading
This is a free article. If you enjoyed it, consider subscribing to Baseball Prospectus. Subscriptions support ongoing public baseball research and analysis in an increasingly proprietary environment.
Subscribe now