Archivo por meses: noviembre 2013

Analizando los datos FIDE: hombres, mujeres y abandonos

ChessBase está publicando una serie de artículos dedicados al análisis de los datos de la FIDEno, no es una colaboración con el programa SETI@Home. Resulta cuando menos curioso porque no hace mucho cacharreando en el manejo de un software estadístico yo me dediqué a hacer lo mismo con los contenidos de la lista Elo FIDE de junio de 2013. La pereza bloguera hizo que la entrada prevista se quedara en eterno borrador, pero aprovechando la coyuntura es un buen momento para publicarla aunque sea semiterminada. Lo que viene a continuación es la entrada tal cual quedó en borrador con unas pequeñas modificaciones, concretamente se ha eliminado lo más básico (y que se corresponde con lo publicado por ChessBase ;-)) y me he centrado en tres gráficos que nos muestran la actividad por edad y sexo. Creo que pueden resultar interesantes. — ¿Cuántos hombres y mujeres juegan al ajedrez? ¿Cuál es su distribución por edades? ¿Sabemos algo sobre cuando empiezan a jugar, permanencia, abandono, etc? ¡Deberíamos! Y seguro que todos somos capaces de dar una respuesta sobre ello observando nuestro entorno. Pero tampoco viene mal, de vez en cuando, consultar los datos oficiales, aquellos que obran en poder de la FIDE. Esa misma FIDE cuyo presidente quiere lograr mil millones de jugadores para que el ajedrez sea una actividad económicamente rentable. ¿Pero sabemos lo que tenemos entre manos hasta ahora? Ahora que se ha puesto tan de moda algo que siempre se debió hacer, contrastar los datos antes de hablar, es un buen momento para empezar. Así que vamos a la web de la FIDE donde los únicos datos detallados que podemos encontrar sobre el número de jugadores activos están en la lista de elo FIDE. Como todos sabemos, la lista de elo FIDE no se compone sólo de jugadores federados, ni todos los jugadores federados están en ella, pero dado que el nivel para disponer de elo FIDE es cada vez menor, que se computan los jugadores sin elo FIDE pero cuyas federaciones aportan datos a fin de que puedan obtenerlo, y de que en la lista figura el parámetro «activo/inactivo», creo que nos puede servir. La lista, para su análisis estadístico, está disponible en formato texto tabulado y XML. En mi caso he trabajado con los datos de Junio de 2013 disponibles el día 13 de dicho mes. Sin querer quitarle el mérito al responsable de facilitarla en esos formatos, supongo que por su utilidad para integrar en diverso software de gestión de torneos y bases de datos, tengo que hacer dos comentarios iniciales:

  • Los datos están un poco «sucios», nada que un poco de trabajo con Open Refine no pueda resolver. Encontrarse con que el campo de Federación con tres simples caracteres se encuentra precedido de 34 espacios en blanco y otros 3 posteriormente, o que alguna de las iniciales del nombre del jugador se cuela en este campo por problemas en la tabulación del fichero, no ayuda.
  • Más del 10% de los jugadores listados figuran sin fecha de nacimiento. A ver Kirsan, cuando tus amigos alienígenas lleguen ¿cómo van a diferenciar a los tiernos lechoncillos de los correosos maduritos? ¿De verdad en la FIDE no conocéis cual es la fecha de nacimiento de más del 10% de los jugadores registrados?

Más allá de las nacionalidades, títulos y número de fichas (NOTA: como he dicho, eso está muy bien analizado en ChessBase) lo más interesante es examinar la actividad de hombres y mujeres por edades. Para ello tenemos tres gráficos a continuación: hombres y mujeres activos e inactivos totales, en todos los casos por edades. BdayH BdayM BdayIPrimer hecho significativo. Observemos la curva de hombres y mujeres. Tienen distinta forma. Ambas parten de un nivel que asciende rápidamente hasta su máximo (se corresponde más o menos con la gente que actualmente tiene 15 años) y luego empieza a decaer. En el caso femenino el decaimiento es muy rápido y parece mostrarnos que las mujeres que cuando llegamos a los 23-25 años de edad el nivel de abandono ha llegado al máximo y a partir de ahí se mantiene la presencia femenina en niveles casi constantes. Por el contrario, en hombres tenemos una caída algo más lenta, pero tenemos una forma de la curva distinta: sobre los 25-30 años de edad se produce un repunte y la curva vuelve a ascender, parece que sobre ese nivel de edd se recuperara gente para el ajedrez activo, y a partir de ahí, tras alcanzar un nuevo máximo, volvemos a encontrarnos con un decaímiento prácticamente constante (casi casi «vegetativo»). El gráfico de jugadores inactivos muestra una doble curva muy similar a la masculina, nada raro porque la inmensa mayoría de fichas FIDE son masculinar, pero que creo que nos indica que ese repunte se debe no a que entran nuevos jugadores sino simplemente a que vuelven parte de los que lo dejaron en edades más tempranas. Evidentemente, el análisis es muy muy básico y el rigor estadístico está cogido con pinzas, a mí ya se me ocurren una serie de reservas que se podrían plantear empezando por la idoneidad de realizar un análisis dinámico en base a datos únicamente estáticos (una sóla lista FIDE). A pesar de estas limitaciones y de lo rudimentario del análisis, creo que el dedo está señalando a un aspecto de la actividad del ajedrez en el que hay mucho por hacer: entradas de nuevos jugadores, abandonos, factores de edad y sexo y recuperación de jugadores. Hecho de menos este tipo de prácticas analíticas en los entes federativos que en muchas ocasiones se limitan a repetir memes y clichés por todos conocidos (cantera, tramos, internet, etc) sin contrastar datos. Sin duda hay muchas más preguntas que podrían tratar de responderse con los datos disponibles. Para aventureros que no quieran pegarse de nuevo con el pulido de la lista, dejo para su descarga los ficheros, en texto (separación de columnas «;»)  para ser importados con cualquier programa, y directamente en fichero de datos para el programa R. No dejéis de contar en los comentarios vuestras impresiones, tanto sbre lo que acabáis de leer como sobre lo que podáis deducir de los datos si os aventuráis. Los tuiteros podríais emplear el hashtag #FIDEdata para localizar mejor vuestros comentarios.