Curso Bioinformática Agosto-Octubre 2020

Intensivo en R: Microbiomas y Machine Learning

Descripción

El microbioma es una comunidad altamente compleja que evoluciona y se adapta a su huésped durante toda la vida. Se ha descrito como un órgano virtual debido a la gran cantidad de funciones que realiza, incluida la producción de metabolitos bioactivos, la regulación de la inmunidad, la homeostasis energética y la protección contra los patógenos. Estas actividades dependen de la cantidad y calidad de las especies que lo componen junto con su potencial metabólico, que están determinados por una serie de factores, como la dieta y la genética del huésped [1].

Utilizando secuenciación masiva se pueden perfilar comunidades microbianas enteras, revelando una amplia diversidad de genes y organismos. La disminución de los costos de estas tecnologías ha permitido el uso de un número elevado de muestras siendo con ello factible utilizar métodos sofisticados de Machine Learning (ML) [2]. Mediante el uso de estos algoritmos es posible mejorar la estratificación y/o clasificación de grupos de interés además de predecir fenotipos (variable de interés) en función del resto de las variables (las diferentes abundancias bacterianas junto a metavariables, ya sean clínicas, psicológicas o bioquímicas, etc). Entre los métodos de ML utilizados en la práctica, “Gradient Boosting Tree” es una técnica que destaca en muchas aplicaciones [3]. XGBoost (eXtreme Gradient Boosting) es un sistema de aprendizaje automático que ha sido utilizado por equipos ganadores de hackathones de Kaggle, KDDCup y en los estudios de Microbiomas estos modelos han sido usados para aumentar nuestro entendimiento de la variación de la estructura de los datos, para diagnosticar y entender las bases ecológicas de algunas enfermedades [4].

Objetivo General

El objetivo general de este intensivo es capacitar a sus asistentes en la comprensión teórica y práctica de análisis estadístico y funcional de datos provenientes de estudios de microbiomas mediante secuenciación del ARN ribosomal 16S utilizando alternativas de softwares libres como “R/Bioconductor”.

Horario
Lunes 19:00 hasta las 22:00 horas.

Público objetivo
Este curso intensivo está especialmente dirigido a personas trabajando en áreas relacionadas a la Biología, Bioquímica, Biotecnología, Bioinformática, Ecología, Microbiología, Inmunología y Tecnología Médica, entre otras áreas afines.

Programa

Sesión 1: lunes 4 agosto. Programación en R para Bioinformática 1.

Introducción a la programación en R y uso de RStudio.
Tipos de variables y estructuras de datos: vectores, listas matrices, data.frame.
Flujos de control y condicionales: for y familia apply.
Importación de archivos txt, csv.
Práctico en R/Bioconductor: Intro a R/Rstudio.

Sesión 2: martes 11 agosto. Programación en R para Bioinformática 2.

Procesamiento de data frames.
Filtrado de tablas.
Paquete dplyr.
Práctico en R/Bioconductor: Manipulación de tablas.

Sesión 3: martes 18 agosto. Microbiomas y Tecnologías de Secuenciación Masiva.

Estudios de Microbiomas: importancia del diseño experimental.
Tecnologías de secuenciación masiva y de molécula única.
Importación, procesamiento y exportación de archivos de secuenciación masiva: FASTA, FASTQ, BAM, BED.
Práctico en R/Bioconductor: Preprocesamiento archivos fastq.

Sesión 4: martes 25 agosto. Análisis de Microbiota mediante amplificación de 16/18S.

Usos de marcadores moleculares: 16/18S usando Illumina.
Desde archivos FASTQ a especies y abundancias. DADA2 y base de datos Silva.
Operational Taxonomic Unit (OTU) versus Amplicon Sequence Variant (ASV).
Flujo de trabajo: desde archivos fastq brutos hasta la asignación de la taxonomía y cuantificación de abundancias.
Análisis estadístico de diversidades alfa, beta, gama y composición de comunidades.
Práctico en R/Bioconductor: Reconstrucción de comunidad microbiana a partir de archivos fastq.

Sesión 5: martes 1 septiembre. Preprocesamiento de objetos Phyloseq.

Manipulación de objetos phyloseq.
Operaciones sobre muestras, taxonomías y abundancias.
Rarefacción.
Práctico en R/Bioconductor: Preparación de objeto phyloseq para análisis estadístico.

Sesión 6: martes 8 septiembre. Aprendizaje Automático No Supervisado.

Complejidad, sistemas y análisis multivariado.
Clustering, PCA, PCoA, NMDS, MDS.
Práctico en R/Bioconductor: Calculo de análisis multivariado y visualización en ggplot2.

Sesión 7: martes 15 septiembre. Análisis Estadísticos de comunidades microbianas.

Estadística Paramétrica versus No Paramétrica.
Descubrimiento de biomarcadores: LEfSe.
Comparaciones de comunidades.

Sesión 8: martes 22 septiembre. Aprendizaje Automático Supervisado 1.

Datos ómicos y Machine Learning.
Supervised versus Unsupervised Machine Learning
Sesgo y Varianza, Sensibilidad y Especificidad, Validación cruzada, ROC y AUC.
Práctico en R/Bioconductor: Preparación de los datos.

Sesión 9: martes 29 septiembre. Aprendizaje Automático Supervisado 2.

Regularización. Árboles de decisión.
Random Forest, Gradient Boosting Trees y XGBoost.
XGBoost: Extreme Gradient Boosting. Estructura algoritmo.
Práctico en R/Bioconductor: Optimización de parámetros.

Sesión 10: martes 6 octubre. Aprendizaje Automático Supervisado 3.

XGBoost: Extreme Gradient Boosting 3.
Evaluación comparada de la precisión de los modelos.
XGBoost: árboles para regresión y clasificación.
Práctico en R/Bioconductor: Predicción.

Instructor:

Luis Valenzuela Villa, PhD en Biotecnología Molecular Universidad de Chile, CEO Omics Lab SpA.
Investigador Postdoctoral Centro de Gerociencias, Salud Mental y Metabolismo.
https://www.linkedin.com/in/luisvalenzuelavilla

Costo Curso: $50.000.

Inscripciones y más información: luis.valenz.v@gmail.com

Lo más leído

Aportes de la biología molecular

Yogurt de pajaritos puede ser una gran ayuda para personas con diabetes, según estudio

Influenza en Chile: lo que deberías saber

En el mundo de las bacterias no sobrevive el más fuerte, sino el más cooperativo

Epidemia de virus respiratorio Sincicial en Chile, 2019

Categorías

SOMICH

Facebook

Twitter