viernes, 28 de junio de 2013

Estadísticas anuales

Como cada año por estas fechas, el Instituto Nacional de Estadística publica un informe con los datos categorizados por diferentes grupos de los emolumentos de los españolitos de a pie y a cuatro patas.

Esto, que al final tiene su uso para determinar estadísticamente tendencias, concentraciones y movimientos al respecto de las actividades económicas, tiene su parte amarillenta en cuanto hablamos del salario típico, que en este caso es de 15.500€ brutos anuales en 2011, entendiendo el típico por el más frecuente, no la media.

El observador experto se habrá percatado ya que 2011 acabó hace año y medio este próximo domingo.
Como experto en el tratamiento de datos me pregunto qué extraño procedimiento ETL tarda 18 meses en procesarse.

-Bueno, es que nos esperamos a la declaración de la renta para asegurar...

Claro, porque la seguridad social no tiene ni idea de los contratos que se dan de alta o de las bases de cotización... Y Hacienda tampoco sabe nada... Bueno, en el último caso y si eres de la realeza igual sí.

El caso... De qué volumen de datos hablamos? Pongamos 1000 millones de registros para un año? Creo que es bastante más de lo razonable, asumiendo 13 millones de trabajadores y 12 meses serían 156 millones de registros.

Un proyecto en el que participé en 2011 precisamente procesaba 70 millones de registros en algo menos de 4 horas. Esto, creo, es bastante menos de 18 meses.
Cualquier empresa de retail tiene brontocientos millones de tickets de caja que procesan cada día... Y hacen cierres mensuales!... A mí me miran mal si hablo de ventanas de carga de más de 8 horas.

-Es que el dato tiene que ser exacto...

Cuando hablamos de estadísticas sabemos que si la muestra tiende a infinito se genera una campana de Gauss perfecta, por lo que creo que trabajar con 10 millones de registros menos que no hayan podido recogerse a principios de 2012 no debería cambiar sustancialmente ni la media ni la moda, especialmente en un entorno de crisis donde la información temprana es primordial.

Seguro que no existen indicadores adelantados que pudiesen tenerse antes de 18 meses? Toma el Gobierno decisiones con los datos de hace dos años? Nos dirán en 2016 que en 2014 salimos de la crisis pero no teníamos el dato exacto... Ni el aproximado y no nos dimos cuenta? O es que las diferentes administraciones centrales no comparten los datos eficientemente?

Desde aquí me ofrezco a hacer de hombre de negro (sin neuralizador) con las administraciones públicas y analizar esos interfases entre sistemas y analíticas avanzadas que parecen tardar más de la cuenta... Qué? Que si voy a tardar menos de 18 meses? La estadistica dice que sí...

No hay comentarios:

Publicar un comentario