bachelor-thesis/assets/abstract.yaml

6 lines
3.0 KiB
YAML
Raw Normal View History

2021-07-07 04:11:15 +02:00
spanish-abstract: "Las nuevas técnicas de secuenciación de ADN (NGS) han revolucionado la investigación en genómica. Estas tecnologías se basan en la secuenciación de millones de fragmentos de ADN en paralelo, cuya reconstrucción se basa en técnicas de bioinformática. Aunque estas técnicas se apliquen de forma habitual, presentan tasas de error significantes que son detrimentales para el análisis de regiones con alto grado de polimorfismo. En este estudio se implementa un nuevo método computacional, locimend, basado en Deep Learning para la corrección de errores de secuenciación de ADN. Se aplica al análisis de la región determinante de complementariedad 3 (CDR3) del receptor de linfocitos T (TCR), generada in silico y posteriorimente sometida a un simulador de secuenciación con el fin de producir errores de secuenciación. Empleando estos datos, entrenamos una red neuronal profunda (CNN) con el objetivo de generar un modelo computacional que permita la detección y corrección de los errores de secuenciación. Los resultados obtenidos demuestran que locimend es un modelo que identifica y corrige los patrones de errores de secuenciación de ADN, obteniendo una precisión de 0,89 y un área debajo de la curva (AUC) de 0,98. La implementación incluye una API REST que realiza la inferencia de la secuencia correcta de ADN, a partir de una secuencia de ADN con errores con el modelo pre-entrenado, con el objetivo de popularizar su uso en la comunidad científica."
spanish-keywords: "deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología"
2021-07-07 04:11:15 +02:00
english-abstract: "Next generation sequencing (NGS) techniques have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a Deep Learning algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR) found on the surface of lymphocytes, generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a depp neural network with the aim of generating a computational model that allows the detection and correction of sequencing errors. Our results show that locimend is a model that identifies and corrects DNA sequencing error patterns, obtaining an accuracy of 0,89 and an area under the curve (AUC) of 0,98. The implementation includes a REST API that performs the inference of the correct DNA sequence, from a DNA sequence with errors with the pre-trained model, in order to popularise its use in the scientific community."
english-keywords: "deep learning, error correction, DNA sequencing, T-cell receptor, immunology"
acknowdledgments: ""