diff --git a/Dissertation.org b/Dissertation.org index 6988b23..2ca1c66 100644 --- a/Dissertation.org +++ b/Dissertation.org @@ -318,9 +318,9 @@ Estas observaciones no son sorprendentes; en la práctica se ha comprobado que e * Diseño y descripción del sistema -La finalidad de este proyecto es el desarrollo de un /pipeline/, con el objetivo de crear un algoritmo de /Deep Learning/ capaz de corregir errores de secuenciación en secuencias de ADN, en particular, en la región CDR3 del TCR. +La finalidad de este proyecto es el desarrollo de un /pipeline/, con el objetivo de crear un algoritmo de /Deep Learning/ capaz de corregir errores de secuenciación en secuencias de ADN, en particular, en la región CDR3 del TCR. Por ende, el trabajo consiste en el desarrollo /end-to-end/ de un sistema de /machine learning/. -El sistema se compone de 2 partes, dado que el algoritmo de /Deep Learning/ no es dependiente del /dataset/ generado /in silico/, y se podría entrenar con cualquier otro conjunto de datos. +El sistema se compone de 2 partes, dado que el algoritmo de /Deep Learning/ es generalizable y se podría proceder al entrenamiento de éste con otro conjunto de datos. #+CAPTION: Descripción del proyecto #+NAME: tab:pipeline @@ -331,8 +331,8 @@ El sistema se compone de 2 partes, dado que el algoritmo de /Deep Learning/ no e El diseño del sistema queda plasmado a continuación: -#+CAPTION: Diseño del sistema. (*A*) Entrenamiento del algoritmo de /Deep Learning/. Como /input/ proporcionamos el número de secuencias, junto con el número de lecturas que deseamos que se simulen. Locigenesis generará 2 archivos en formato FASTQ, que contienen CDR3 con y sin errores de secuenciación, que son el /input/ de locimend para entrenar el modelo de /Deep Learning/, cuya salida es el conjunto de métricas del algoritmo. (*B*) Inferencia del modelo de /Deep Learning/ previamente entrenado y desplegado. Se provee como entrada una secuencia de ADN con errores de secuenciación, el algoritmo procesa ésta y devuelve una secuencia de ADN sin errores -#+ATTR_HTML: :height 50% :width 75% +#+CAPTION: Diseño del sistema. (*A*) Entrenamiento del algoritmo de /Deep Learning/. Como /input/ proporcionamos el número de secuencias, junto con el número de lecturas que deseamos que se simulen. Locigenesis generará 2 archivos en formato FASTQ, que contienen CDR3 con y sin errores de secuenciación, que son el /input/ de locimend, cuya salida es el conjunto de métricas del algoritmo. (*B*) Inferencia del modelo de /Deep Learning/ previamente entrenado y desplegado. Se provee como entrada una secuencia de ADN con errores de secuenciación, el algoritmo procesa ésta y devuelve una secuencia de ADN sin errores +#+ATTR_HTML: :height 80% :width 70% #+NAME: fig:pipeline [[./assets/figures/pipeline.png]] diff --git a/Dissertation.pdf b/Dissertation.pdf index 41a1959..80024f0 100644 Binary files a/Dissertation.pdf and b/Dissertation.pdf differ diff --git a/assets/abstract.yaml b/assets/abstract.yaml index ef24177..174edb4 100644 --- a/assets/abstract.yaml +++ b/assets/abstract.yaml @@ -2,4 +2,4 @@ spanish-abstract: "Las nuevas técnicas de secuenciación de ADN (NGS) han revol spanish-keywords: "deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología" english-abstract: "Next generation sequencing (NGS) techniques have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a Deep Learning algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR) found on the surface of lymphocytes, generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a depp neural network with the aim of generating a computational model that allows the detection and correction of sequencing errors. Our results show that locimend is a model that identifies and corrects DNA sequencing error patterns, obtaining an accuracy of 0,89 and an area under the curve (AUC) of 0,98. The implementation includes a REST API that performs the inference of the correct DNA sequence, from a DNA sequence with errors with the pre-trained model, in order to popularise its use in the scientific community." english-keywords: "deep learning, error correction, DNA sequencing, T-cell receptor, immunology" -acknowdledgments: "" +acknowledgments: "Este proyecto no podría haber sido posible sin el apoyo de numerosas personas. En particular, quiero agradecer especialmente a Carlos Cano Gutiérrez por depositar su voto de confianza al asignarme un proyecto de investigación, el cual no era una propuesta de Trabajo de Fin de Grado. Y a María Soledad Benítez Cantos por su mentorización invaluable a lo largo de este trabajo. Su afán por el conocimiento, sus revisiones y comentarios de retroalimentación, su habilidad para exponer un concepto complejo en una frase y su dedicación incondicional al proyecto han sido el pilar central que ha permitido un desenlace favorable de la investigación." diff --git a/assets/babathesis.latex b/assets/babathesis.latex index 2e40dee..9b4c96f 100644 --- a/assets/babathesis.latex +++ b/assets/babathesis.latex @@ -494,7 +494,7 @@ \textbf{Keywords:} $english-keywords$ \end{center} \chapter*{Agradecimientos} - $acknowledgements$ + $acknowledgments$ \tableofcontents \listoftables{} \listoffigures{}