S. Barragán Andrés, D. Salgado Fernández
La depuración es una parte fundamental del proceso de producción en la estadística oficial para poder garantizar la calidad y precisión de los datos pero tradicionalmente consume mucho tiempo y recursos. La presente contribución se enmarca en la depuración selectiva, claramente orientada hacia la eficiencia de recursos, que además permite la automatización del proceso de depuración, en este caso, usando técnicas de Machine Learning con una implementación modular y estandarizada.
Se han llevado a cabo varios casos prácticos de aplicación de estas técnicas incluyendo variables categóricas, continuas y semicontinuas; haciendo uso de modelos tanto de clasificación como de regresión (con random forests y boosting). En concreto, esta contribución se centra en la aplicación en producción de la depuración de la variable categórica Ocupación en la Encuesta Europea de Salud donde se obtuvieron muy buenos resultados en términos de optimización de recursos y calidad.
Keywords: Producción estadística oficial, depuración selectiva, Machine Learning
Scheduled
XIII Public Statistics Conference. Applications of new statistical methods and new sources for official statistical production (II)
June 10, 2022 10:10 AM
Cloister room