Escribo análisis de datos pero en realidad no sé hacerlo… Esta entrada es mas bien una petición de ayuda o una sugerencia para quien sepa hacerlo. Mi estadística no da para tanto.
Como ya sabrán, la Universidad de Sevilla publicó los datos registrados por la DGT de siniestralidad ciclista y heridas en la cabeza de 1993 a 2010, algo por lo que nunca les estaremos suficientemente agradecidos. Los entregan en tabla HTML y en Excel. Por su parte, la DGT entrega los datos de siniestralidad general en PDFs algo complicados de tratar, en sus anuarios estadísticos de accidentes.
Hemos decidido dar un pasito más y picar los datos al formato de serie temporal de R, un programa gratuito de estadística que es bastante popular entre matemáticos, estadísticos e investigadores. El contenido se puede copiar y pegar directamente en R, lo que escupirá una gráfica exploratoria como la que pueden ver abajo. Si saben ustedes usar R, no necesitan que les expliquemos nada…
Este es el pastebin de los datos (y su análisis provisional):
http://pastebin.com/FUyWde1a
Como hechos relevantes en cuanto al análisis de estos datos, y a falta de mediciones de uso de la bicicleta (que no tenemos porque no existen a nivel nacional), cabe destacar:
- El 1 de julio de 2006 entró en vigor el carné por puntos y se advirtió una caída general de la siniestralidad (cfr. cifras generales DGT, quizá las relativas a peatones por ser las más semejantes en condiciones)
- El 23 de enero de 2004 entró en vigor la obligatoriedad del casco ciclista en vías interurbanas.
- A partir de 2008 comienza a caer el consumo de combustibles de automoción, proxy del uso de vehículos a motor.
- Para dar contexto a estos datos, se puede consultar la accidentalidad general del tráfico en España en los anuarios estadísticos de la DGT (disponibles hasta 2012).
Las hipótesis que me gustaría contrastar son:
- Que el hecho de llevar casco tiene un efecto protector estadísticamente significativo en cuanto a las lesiones en la cabeza, en los ciclistas accidentados. Esto habría que verificarlo para los datos en vías urbanas e interurbanas de manera separada. Espero, obviamente, que la respuesta sea sí…
- Pero ya que nos ponemos, me gustaría poder evaluar mediante algún indicador numérico en qué medida se ejerce este efecto protector, con los intervalos de confianza que nos permitan estos datos. Esto será más difícil, pero también más interesante.
- Si la obligatoriedad del casco en vías interurbanas a partir de 2004 ha significado que más gente ha decidido usarlo. Para poder probar esta hipótesis con estos datos, habremos de asumir que los accidentados en vía interurbana constituyen muestra válida de la población general de ciclistas (accidentados o no) que circulan por carretera. Si tuviéramos datos de culpabilidad en el accidente, seguramente podríamos acometer un análisis de cuasiexposición, tomando los ciclistas accidentados no culpables, pero de momento no es el caso.
¿Se anima alguien a echarle un vistazo a estos datos y sacar alguna conclusión? 🙂