S. Tarazona Campos, M. C. Nieto Romero
La microbiota está constituida por el conjunto de microorganismos presentes en nuestro organismo y tiene un papel fundamental en el desarrollo y tratamiento de enfermedades. Los datos de microbioma medidos mediante técnicas de secuenciación masiva son datos discretos, con gran número de ceros, alto nivel de ruido y cientos de variables, por lo que son determinantes en su análisis la elección del pre-procesado y del modelo predictivo, siendo muy populares las técnicas de aprendizaje automático. Un método poco utilizado, pero con numerosas ventajas de interpretabilidad, es la regresión en mínimos cuadrados parciales discriminante (PLS-DA). En este trabajo, analizamos 6 bases de datos de microbioma públicas y pre-procesadas con 4 estrategias distintas, y comparamos PLS-DA con Random Forest y Support Vector Machines para predecir enfermedad, identificando la mejor estrategia de pre-procesado, así como qué características de los datos influyen en el desempeño de los modelos.
Palabras clave: microbioma, aprendizaje automático, PLS discriminante
Programado
GT04 Análisis Multivariante y Clasificación II
7 de junio de 2022 15:30
Sala de Claustros