Intensivo en R: Microbiomas y Machine Learning
Descripción
El microbioma es una comunidad altamente compleja que evoluciona y se adapta a su huésped durante toda la vida. Se ha descrito como un órgano virtual debido a la gran cantidad de funciones que realiza, incluida la producción de metabolitos bioactivos, la regulación de la inmunidad, la homeostasis energética y la protección contra los patógenos. Estas actividades dependen de la cantidad y calidad de las especies que lo componen junto con su potencial metabólico, que están determinados por una serie de factores, como la dieta y la genética del huésped [1].
Utilizando secuenciación masiva se pueden perfilar comunidades microbianas enteras, revelando una amplia diversidad de genes y organismos. La disminución de los costos de estas tecnologías ha permitido el uso de un número elevado de muestras siendo con ello factible utilizar métodos sofisticados de Machine Learning (ML) [2]. Mediante el uso de estos algoritmos es posible mejorar la estratificación y/o clasificación de grupos de interés además de predecir fenotipos (variable de interés) en función del resto de las variables (las diferentes abundancias bacterianas junto a metavariables, ya sean clínicas, psicológicas o bioquímicas, etc). Entre los métodos de ML utilizados en la práctica, “Gradient Boosting Tree” es una técnica que destaca en muchas aplicaciones [3]. XGBoost (eXtreme Gradient Boosting) es un sistema de aprendizaje automático que ha sido utilizado por equipos ganadores de hackathones de Kaggle, KDDCup y en los estudios de Microbiomas estos modelos han sido usados para aumentar nuestro entendimiento de la variación de la estructura de los datos, para diagnosticar y entender las bases ecológicas de algunas enfermedades [4].
Objetivo General
El objetivo general de este intensivo es capacitar a sus asistentes en la comprensión teórica y práctica de análisis estadístico y funcional de datos provenientes de estudios de microbiomas mediante secuenciación del ARN ribosomal 16S utilizando alternativas de softwares libres como “R/Bioconductor”.
Horario
Lunes 19:00 hasta las 22:00 horas.
Público objetivo
Este curso intensivo está especialmente dirigido a personas trabajando en áreas relacionadas a la Biología, Bioquímica, Biotecnología, Bioinformática, Ecología, Microbiología, Inmunología y Tecnología Médica, entre otras áreas afines.
Programa
Sesión 1: lunes 4 agosto. Programación en R para Bioinformática 1.
- Introducción a la programación en R y uso de RStudio.
- Tipos de variables y estructuras de datos: vectores, listas matrices, data.frame.
- Flujos de control y condicionales: for y familia apply.
- Importación de archivos txt, csv.
- Práctico en R/Bioconductor: Intro a R/Rstudio.
Sesión 2: martes 11 agosto. Programación en R para Bioinformática 2.
- Procesamiento de data frames.
- Filtrado de tablas.
- Paquete dplyr.
- Práctico en R/Bioconductor: Manipulación de tablas.
Sesión 3: martes 18 agosto. Microbiomas y Tecnologías de Secuenciación Masiva.
- Estudios de Microbiomas: importancia del diseño experimental.
- Tecnologías de secuenciación masiva y de molécula única.
- Importación, procesamiento y exportación de archivos de secuenciación masiva: FASTA, FASTQ, BAM, BED.
- Práctico en R/Bioconductor: Preprocesamiento archivos fastq.
Sesión 4: martes 25 agosto. Análisis de Microbiota mediante amplificación de 16/18S.
- Usos de marcadores moleculares: 16/18S usando Illumina.
- Desde archivos FASTQ a especies y abundancias. DADA2 y base de datos Silva.
- Operational Taxonomic Unit (OTU) versus Amplicon Sequence Variant (ASV).
- Flujo de trabajo: desde archivos fastq brutos hasta la asignación de la taxonomía y cuantificación de abundancias.
- Análisis estadístico de diversidades alfa, beta, gama y composición de comunidades.
- Práctico en R/Bioconductor: Reconstrucción de comunidad microbiana a partir de archivos fastq.
Sesión 5: martes 1 septiembre. Preprocesamiento de objetos Phyloseq.
- Manipulación de objetos phyloseq.
- Operaciones sobre muestras, taxonomías y abundancias.
- Rarefacción.
- Práctico en R/Bioconductor: Preparación de objeto phyloseq para análisis estadístico.
Sesión 6: martes 8 septiembre. Aprendizaje Automático No Supervisado.
- Complejidad, sistemas y análisis multivariado.
- Clustering, PCA, PCoA, NMDS, MDS.
- Práctico en R/Bioconductor: Calculo de análisis multivariado y visualización en ggplot2.
Sesión 7: martes 15 septiembre. Análisis Estadísticos de comunidades microbianas.
- Estadística Paramétrica versus No Paramétrica.
- Descubrimiento de biomarcadores: LEfSe.
- Comparaciones de comunidades.
Sesión 8: martes 22 septiembre. Aprendizaje Automático Supervisado 1.
- Datos ómicos y Machine Learning.
- Supervised versus Unsupervised Machine Learning
- Sesgo y Varianza, Sensibilidad y Especificidad, Validación cruzada, ROC y AUC.
- Práctico en R/Bioconductor: Preparación de los datos.
Sesión 9: martes 29 septiembre. Aprendizaje Automático Supervisado 2.
- Regularización. Árboles de decisión.
- Random Forest, Gradient Boosting Trees y XGBoost.
- XGBoost: Extreme Gradient Boosting. Estructura algoritmo.
- Práctico en R/Bioconductor: Optimización de parámetros.
Sesión 10: martes 6 octubre. Aprendizaje Automático Supervisado 3.
- XGBoost: Extreme Gradient Boosting 3.
- Evaluación comparada de la precisión de los modelos.
- XGBoost: árboles para regresión y clasificación.
- Práctico en R/Bioconductor: Predicción.
Instructor:
Luis Valenzuela Villa, PhD en Biotecnología Molecular Universidad de Chile, CEO Omics Lab SpA.
Investigador Postdoctoral Centro de Gerociencias, Salud Mental y Metabolismo.
https://www.linkedin.com/in/luisvalenzuelavilla
Costo Curso: $50.000.
Inscripciones y más información: luis.valenz.v@gmail.com