S. Barragán Andrés, D. Salgado Fernández
La depuración es una parte fundamental del proceso de producción en la estadística oficial para poder garantizar la calidad y precisión de los datos pero tradicionalmente consume mucho tiempo y recursos. La presente contribución se enmarca en la depuración selectiva, claramente orientada hacia la eficiencia de recursos, que además permite la automatización del proceso de depuración, en este caso, usando técnicas de Machine Learning con una implementación modular y estandarizada.
Se han llevado a cabo varios casos prácticos de aplicación de estas técnicas incluyendo variables categóricas, continuas y semicontinuas; haciendo uso de modelos tanto de clasificación como de regresión (con random forests y boosting). En concreto, esta contribución se centra en la aplicación en producción de la depuración de la variable categórica Ocupación en la Encuesta Europea de Salud donde se obtuvieron muy buenos resultados en términos de optimización de recursos y calidad.
Palabras clave: Producción estadística oficial, depuración selectiva, Machine Learning
Programado
XIII Jornadas Estadística Pública. Aplicaciones de nuevos métodos estadísticos y nuevas fuentes para la producción estadística oficial (II)
10 de junio de 2022 10:10
Sala de Claustros