bachelor-thesis/Dissertation.org

101 lines
12 KiB
Org Mode
Raw Normal View History

2021-06-27 02:23:23 +02:00
#+TITLE: Machine Learning para corrección de errores en datos de secuenciación de ADN
2021-06-26 18:41:55 +02:00
#+AUTHOR: Amin Kasrou Aouam
2021-06-29 20:00:09 +02:00
#+DATE: Julio de 2021
2021-06-28 00:48:32 +02:00
#+PANDOC_OPTIONS: template:assets/babathesis.latex
2021-06-26 18:41:55 +02:00
#+PANDOC_OPTIONS: toc:t
2021-06-27 18:21:28 +02:00
#+PANDOC_OPTIONS: bibliography:assets/bibliography.bib
#+PANDOC_OPTIONS: citeproc:t
#+PANDOC_OPTIONS: csl:assets/ieee.csl
2021-06-28 00:48:32 +02:00
#+PANDOC_OPTIONS: pdf-engine:xelatex
#+PANDOC_OPTIONS: top-level-division:chapter
2021-06-27 18:57:15 +02:00
#+PANDOC_METADATA: link-citations:t
2021-06-27 02:23:23 +02:00
* Resumen
2021-06-27 02:55:31 +02:00
Las nuevas técnicas de secuenciación de ADN (NGS) han revolucionado la investigación en genómica. Estas tecnologías se basan en la secuenciación de millones de fragmentos de ADN en paralelo, cuya reconstrucción se basa en técnicas de bioinformática. Aunque estas técnicas se apliquen de forma habitual, presentan tasas de error significantes que son detrimentales para el análisis de regiones con alto grado de polimorfismo. En este estudio se implementa un nuevo método computacional, locimend, basado en /Deep Learning/ para la corrección de errores de secuenciación de ADN. Se aplica al análisis de la región determinante de complementariedad 3 (CDR3) del receptor de linfocitos T (TCR), generada /in silico/ y posteriorimente sometida a un simulador de secuenciación con el fin de producir errores de secuenciación. Empleando estos datos, entrenamos una red neuronal convolucional (CNN) con el objetivo de generar un modelo computacional que permita la detección y corrección de los errores de secuenciación.
2021-06-27 02:23:23 +02:00
# TODO Add results
\vspace{0.5cm}
2021-06-27 02:59:50 +02:00
*Palabras clave:* deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología
2021-06-26 18:41:55 +02:00
* Abstract
2021-06-27 02:55:31 +02:00
Next generation sequencing (NGS) have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a /Deep Learning/ algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR), generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a convolutional neural network (CNN) with the aim of generating a computational model that allows the detection and correction of sequencing errors.
# TODO Add results
\vspace{0.5cm}
2021-06-27 02:59:50 +02:00
*Keywords:* deep learning, error correction, DNA sequencing, T-cell receptor, immunology
2021-06-26 18:41:55 +02:00
* Introducción
2021-06-27 02:59:50 +02:00
2021-06-29 20:00:09 +02:00
El ácido desoxirribonucleico (ADN) y el ácido ribonucleico (ARN) son los repositorios moleculares de la información genética. La estructura de cada proteína, y en última instancia de cada biomolécula y componente celular, es producto de la información programada en la secuencia de nucleótidos de una célula. La capacidad de almacenar y transmitir la información genética de una generación a otra es una condición fundamental para la vida. Un segmento de una molécula de ADN que contiene la información necesaria para la síntesis de un producto biológico funcional, ya sea una proteína o un ARN, se denomina gen. El almacenamiento y la transmisión de información biológica son las únicas funciones conocidas del ADN. cite:book:lehninger
#+CAPTION: Dogma central de la biología molecular
#+ATTR_HTML: :height 25% :width 80%
#+NAME: fig:central-dogma
[[./assets/figures/central-dogma.png]]
Hay muy pocos principios firmes en biología. A menudo se dice, de una forma u otra, que la única regla real es que no hay reglas, es decir, que se pueden encontrar excepciones a cada principio fundamental si se busca lo suficiente. El principio conocido como el Dogma central de la biología molecular parece ser una excepción a esta regla de excepción ubicua. cite:CRICK1970 El dogma central de la biología molecular establece que una vez que la información ha pasado a proteína no puede volver a salir; \ie la transferencia de información de ácido nucleico a ácido nucleico, o de ácido nucleico a proteína puede ser posible, pero la transferencia de proteína a proteína, o de proteína a ácido nucleico es imposible. cite:crick1958protein
Por lo tanto, si elucidamos la información contenida en el ADN, obtenemos información sobre las biomoléculas que realizan las diferentes tareas fisiológicas y metabólica (e.g. ARN, proteínas).
2021-06-29 20:00:09 +02:00
2021-06-29 02:44:36 +02:00
** Secuenciación de ADN
2021-06-28 19:01:25 +02:00
La secuenciación de ADN es el proceso mediante el cual se determina el orden de los nucleótidos en una secuencia de ADN. En los años 70, Sanger \etal desarrollaron métodos para secuenciar el ADN mediante técnicas de terminación de cadena. cite:Sanger5463 Este avance revolucionó la biología, proporcionando las herramientas necesarias para descifrar genes, y posteriormente, genomas completos. La demanda creciente de un mayor rendimiento llevó a la automatización y paralelización de las tareas de secuenciación. Gracias a estos avances, la técnica de Sanger permitió determinar la primera secuencia del genoma humano en 2004 (Proyecto Genoma Humano). cite:InternationalHumanGenomeSequencingConsortium2004
Sin embargo, el Proyecto Genoma Gumano requerió una gran cantidad de tiempo y recursos, y era evidente que se necesitaban tecnologías más rápidas, de mayor rendimiento y más baratas. Por esta razón, en el mismo año (2004) el /National Human Genome Research Institute/ (NHGRI) puso en marcha un programa de financiación con el objetivo de reducir el coste de la secuenciación del genoma humano a 1000 dólares en diez años. cite:Schloss2008 Esto estimuló el desarrollo y la comercialización de las tecnologías de secuenciación de alto rendimiento o /Next-Generation Sequencing/ (NGS), en contraposición con el método automatizado de Sanger, que se considera una tecnología de primera generación.
2021-06-27 18:57:15 +02:00
2021-06-29 02:44:36 +02:00
** Técnicas de secuenciación de alto rendimiento
2021-06-28 19:01:25 +02:00
Estos nuevos métodos de secuenciación proporcionan tres mejoras importantes: en primer lugar, en lugar de requerir la clonación bacteriana de los fragmentos de ADN, se basan en la preparación de bibliotecas de moléculas en un sistema sin células. En segundo lugar, en lugar de cientos, se producen en paralelo de miles a muchos millones de reacciones de secuenciación. Finalmente, estos resultados de secuenciación se detectan directamente sin necesidad de electroforesis. cite:vanDijk2014
2021-06-29 02:44:36 +02:00
\clearpage
2021-06-28 19:01:25 +02:00
Actualmente, se encuentran en desarrollo las tecnologías de tercera generación de secuenciación (Third-Generation Sequencing). Existe un debate considerable sobre la diferencia entre la segunda y tercera generación de secuenciación, la secuenciación en tiempo real y la divergencia simple con respecto a las tecnologías anteriores deberían ser las características definitorias de la tercera generación. Aquí consideramos que las tecnologías de tercera generación son aquellas capaces de secuenciar moléculas individuales, negando el requisito de amplificación del ADN que comparten todas las tecnologías anteriores. cite:HEATHER20161
2021-06-29 02:44:36 +02:00
Estas nuevas técnicas han demostrado su valor, con avances que han permitido secuenciar el genoma humano completo, incluyendo las secuencias repetitivas (de telómero a telómero). Combinando los aspectos complementarios de las tecnologías Oxford Nanopore y PacBio HiFi, 2111 nuevos genes, de los cuales 140 son codificantes, fueron descubiertos en el genoma humano. cite:Nurk2021.05.26.445798
** Limitaciones de los métodos paralelos
Aunque las tecnologías de secuenciación paralelas (NGS) han revolucionado el estudio de la variedad genómica entre especies y organismos individuales, la mayoría tiene una capacidad limitada para detectar mutaciones con baja frecuencia. Este tipo de análisis es esencial para detectar mutaciones en oncogenes (genes responsables de la transformación de una célula normal a maligna), pero se ve restringido por una tasa de errores de secuenciación no despreciables. En 2011, la tasa de errores por substitución (intercambio de un nucleótido por otro) era > 0.1%, y era similar en estudios posteriores. cite:Ma2019
Para contrarrestar este obstáculo, varias técnicas mitigatorias se han puesto en marcha. Una de las más populares es el uso de una secuencia de consenso, que es un perfil estadístico a partir de un alineamiento múltiple de secuencias. Es una forma básica de descubrimiento de patrones, en la que un alineamiento múltiple de secuencias más amplio se resume en las características que se conservan. Este tipo de análisis permite determinar la probabilidad de cada base en cada posición de una secuencia. cite:10.1093/bioinformatics/btg109
2021-06-30 01:45:45 +02:00
#+CAPTION: Alineamiento múltiple de secuencias. La secuencia de consenso aparece en la parte inferior y está formada por los nucleótidos que más aparecen en cada posición. cite:Nagar2013
#+label: fig:consensus-sequence
[[./assets/figures/consensus-sequence.png]]
Todas las técnicas de consenso monocatenarias reducen los errores en dos o tres órdenes de magnitud, lo que es mucho mayor que cualquier enfoque computacional o bioquímico anterior, y permiten identificar con precisión variantes raras por debajo del 0.1% de abundancia. Sin embargo, persisten algunos errores. Los errores que se producen durante la primera ronda de amplificación pueden propagarse a todas las demás copias escapando la corrección. cite:Salk2018
2021-06-29 02:44:36 +02:00
Este problema se agrava en el análisis de repertorios inmunológicos, debido a nuestra limitada capacidad para distinguir entre la verdadera diversidad de los receptores de los linfocitos T (TCR) e inmunoglobulinas (IG) de los errores de PCR y secuenciación que son inherentes al análisis del repertorio. Los clonotipos resultantes pueden tener concentraciones drásticamente diferentes, lo que hace que los clonotipos menores sean indistinguibles de las variantes erróneas. cite:Shugay2014
** Variedad genética en el sistema inmunitario
2021-06-27 18:21:28 +02:00
La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3). cite:pmid19706884
2021-06-27 02:59:50 +02:00
2021-06-29 02:44:36 +02:00
En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un segmento de cada familia mediante un proceso conocido como recombinación somática o recombinación V(D)J, de modo que se eliminan del genoma del linfocito los no seleccionados y los segmentos V(D)J escogidos quedan contiguos, determinando la secuencia de las subunidades del TCR y, por tanto, la especificidad de antígeno de la célula T. La selección aleatoria de segmentos junto con la introducción o pérdida de nucleótidos en sus uniones son los responsables directos de la variabilidad de TCR, cuya estimación es del orden de $10^{15}$ posibles especies distintas o clonotipos. cite:BenítezCantos-Master
#+CAPTION: Generación de diversidad en el TCR \alpha \beta. Durante el desarrollo de los linfocitos T se reordenan los segmentos génicos V (rosa), D (naranja) y J (verde) a través del proceso de recombinación V(D)J. Durante este proceso se pueden añadir o eliminar nucleótidos en la unión de los segmentos (rojo), contribuyendo a la diversidad de la secuencia. Se señalan las 3 regiones CDR, estando CDR3 localizada en la unión V(D)J. cite:BenítezCantos-Master
#+ATTR_HTML: :height 30% :width 90%
#+NAME: fig:vdj-recombination
[[./assets/figures/VDJ.png]]
Debido a la diversidad de uniones, las moléculas de anticuerpos y TCR muestran la mayor variabilidad, que forman la región determinante de la complementariedad 3 (CDR3). De hecho, debido a la diversidad de uniones, el número de secuencias de aminoácidos que están presentes en las regiones CDR3 de las de las moléculas de Ig y TCR es mucho mayor que el número que pueden ser codificadas por segmentos de genes de la línea germinal. cite:abbas_lichtman_pillai_2017
Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se aplican para aliviar estos impedimentos.
2021-06-30 01:45:45 +02:00
** Inteligencia artificial
** Hacia el Deep Learning
2021-06-28 19:01:25 +02:00
* Estado del arte
** Bioinformática
** Deep Learning
* Objetivos
* Métodos
2021-06-26 18:41:55 +02:00
** Tecnologías
** Pipeline
** Reproducibilidad
* Resultados
* Conclusiones
* Futuras mejoras
2021-06-27 18:21:28 +02:00
* Bibliografía