Compare commits

..

4 Commits

Author SHA1 Message Date
coolneng 161ba118d1
Merge branch 'marisolbc/TFG-review' 2021-07-07 18:31:32 +02:00
Marisol Benítez-Cantos 32ea10f536 Review abstract.yaml 2021-07-07 16:27:45 +00:00
Marisol Benítez-Cantos 082773c08d Review Dissertation.org 2021-07-07 16:12:47 +00:00
Marisol Benítez-Cantos 6e62991442 Merge branch 'master' into 'review'
Master

See merge request marisolbc/TFG!1
2021-07-07 15:45:44 +00:00
2 changed files with 14 additions and 11 deletions

View File

@ -340,7 +340,7 @@ Procedemos a la exposición de cada parte del /pipeline/, por separado, resaltan
** locigenesis ** locigenesis
locigenesis es una herramienta que genera un receptor de células T (TCR) humano, lo pasa por una herramienta de simulación de lectura de secuencias y extrae las regiones CDR3. locigenesis es una herramienta que genera una secuencia de receptores de células T (TCR) humano para posteriormente aplicarle una herramienta de simulación de secuenciación y, finalmente, extraer las regiones CDR3 tras la introducción de errores.
El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin errores de secuenciación, con el fin de crear /datasets/ para entrenar un algoritmo de /Deep Learning/. El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin errores de secuenciación, con el fin de crear /datasets/ para entrenar un algoritmo de /Deep Learning/.
@ -354,12 +354,14 @@ El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin error
El programa realiza, parametrizado por 2 parámetros de entrada (número de secuencias diferentes y número de lecturas por el simulador de secuenciación), los siguientes pasos: El programa realiza, parametrizado por 2 parámetros de entrada (número de secuencias diferentes y número de lecturas por el simulador de secuenciación), los siguientes pasos:
1. Generación de diversas secuencias de la cadena \beta del TCR 1. Generación de diversas secuencias de la cadena \beta del TCR (con la estructura génica VDJ y estando CDR3 comprendido en las uniones de los 3 segmentos)
2. Exportación de las secuencias a un archivo en formato FASTQ (tanto CDR3 como la secuencia VDJ completa) 2. Exportación de las secuencias a un archivo en formato FASTQ (tanto CDR3 por separado como la secuencia VDJ completa)
3. Simulación de una secuenciación mediante CuReSim, y almacenamiento de las secuencias con errores 3. Simulación de una secuenciación de VDJ mediante CuReSim, y almacenamiento de las secuencias con errores
4. Alineamiento de las secuencias completas con errores, y extracción de CDR3 a partir de una heurística 4. Alineamiento de las secuencias completas con errores con las secuencias V y J de referencia, y extracción de CDR3 a partir de una heurística
5. Exportación de las secuencias de CDR3 con errores y sin errores en archivos con formato FASTQ 5. Exportación de las secuencias de CDR3 con errores y sin errores en archivos con formato FASTQ
Cabe mencionar que la simulación de secuenciación se realiza con la secuencia VDJ completa y no sólo con CDR3 (la región problemática cuya variabilidad dificulta la corrección de errores) debido a que en la mayoría de plataformas de secuenciación la tasa de error aumenta con la longitud de la secuencia. Por ello, en aras de emular las condiciones más cercanas a la realidad, es importante secuenciar la región CDR3 junto con las secuencias colindantes V y J y posteriormente extraer esta región de interés gracias a los alineamientos con los segmentos génicos de referencia.
** locimend ** locimend
locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciación de secuencias de ADN. locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciación de secuencias de ADN.
@ -370,7 +372,8 @@ La arquitectura del modelo es una /deep feedforward network/, formada por:
- Capa de entrada - Capa de entrada
- Capa de /masking/: ignora ciertos valores que se añaden a cada tensor para homogenizar el tamaño del /input/ - Capa de /masking/: ignora ciertos valores que se añaden a cada tensor para homogenizar el tamaño del /input/
- 3 capas densas, seguidas de una capa de /dropout/: el /dropout/ es un mecanismo que disminuye el /overfitting/ o sobreajuste - 3 capas densas, seguidas de una capa de /dropout/: el /dropout/ es un mecanismo que disminuye el /overfitting/
# [COMMENT: Quito lo de sobreajuste que más arriba ya tienes puesto "overfitting o sobreajuste"]
- Capa densa - Capa densa
#+CAPTION: Arquitectura de la red neuronal #+CAPTION: Arquitectura de la red neuronal
@ -410,7 +413,7 @@ La inferencia consiste en la predicción de nuevos resultados a partir de un mod
1. Carga del modelo pre-entrenado 1. Carga del modelo pre-entrenado
2. Lectura de la secuencia de ADN con errores 2. Lectura de la secuencia de ADN con errores
3. Codificación basada en el índice de la secuencia de ADN, para obtener une secuencia numérica 3. Codificación basada en el índice de la secuencia de ADN, para obtener une secuencia numérica
4. /One-hot encoding/ de las secuencia numérica, la cual representa la secuencia de ADN 4. /One-hot encoding/ de la secuencia numérica, la cual representa la secuencia de ADN
5. Predicción de la secuencia correcta de ADN 5. Predicción de la secuencia correcta de ADN
6. Descodificación de la secuencia numérica hasta obtener una secuencia de ADN 6. Descodificación de la secuencia numérica hasta obtener una secuencia de ADN
7. Presentación de la secuencia de ADN correcta inferida por el modelo 7. Presentación de la secuencia de ADN correcta inferida por el modelo
@ -450,12 +453,12 @@ El presente estudio plantea el desarrollo de un sistema bioinformático (denomin
Los resultados del algoritmo de /Deep Learning/ son satisfactorios aunque presenta ciertas limitaciones. Los resultados del algoritmo de /Deep Learning/ son satisfactorios aunque presenta ciertas limitaciones.
En primer lugar, el modelo dado que la red neuronal se entrenó exclusivamente con datos que emulan una secuenciación de Ion Torrent, es probable que las características que contribuyen a las posiciones erróneas sean específicas al proceso de secuenciación de Ion Torrent. Por lo tanto, la inferencia a partir de datos de secuenciación procedentes de otras tecnologías podría ser menos eficaz. Un entrenamiento con varios /dataset/ provenientes de diferentes tecnologías aumentaría la capacidad de generalización del modelo. En primer lugar, dado que la red neuronal se entrenó exclusivamente con datos que emulan una secuenciación de Ion Torrent, es probable que las características que contribuyen a las posiciones erróneas sean específicas del proceso de secuenciación de Ion Torrent. Por lo tanto, la inferencia a partir de datos de secuenciación procedentes de otras tecnologías podría ser menos eficaz. Un entrenamiento con varios /dataset/ provenientes de diferentes tecnologías (o simuladores de las mismas) aumentaría la capacidad de generalización del modelo.
Asimismo, el entrenamiento del modelo se realizó con un conjunto de datos de 20,000 secuencias, un tamaño bastante limitado para una tarea de aprendizaje automático. La generación de /datasets/ de mayor tamaño no era viable debido a limitaciones en las capacidades de cómputo de los recursos disponibles. Por ende, la elaboración de un /dataset/ de mayor envergadura es una tarea pendiente. Asimismo, el entrenamiento del modelo se realizó con un conjunto de datos de 20,000 secuencias, un tamaño bastante limitado para una tarea de aprendizaje automático. La generación de /datasets/ de mayor tamaño no era viable debido a limitaciones en las capacidades de cómputo de los recursos disponibles. Por ende, la elaboración de un /dataset/ de mayor envergadura es una tarea pendiente.
Uno de los factores que más afecta el rendimiento de una red neuronal es el valor de los hiperparámetros. Los hiperparámetros son variables inherentes al modelo, como el optimizador usado, la distribución de los valores iniciales en los pesos del modelo, la tasa de aprendizaje o el /batch size/. Todos estos parámetros son interdependientes cite:book:2164083, por lo que es importante optimizarlos de forma combinatoria. Una optimización más a fondo de los hiperparámetros podría incrementar la eficiencia del modelo. Uno de los factores que más afecta el rendimiento de una red neuronal es el valor de los hiperparámetros. Los hiperparámetros son variables inherentes al modelo, como el optimizador usado, la distribución de los valores iniciales en los pesos del modelo, la tasa de aprendizaje o el /batch size/. Todos estos parámetros son interdependientes cite:book:2164083, por lo que es importante optimizarlos de forma combinatoria. Una optimización más a fondo de los hiperparámetros podría incrementar la eficiencia del modelo.
Finalmente, el desarrollo y despliegue de un /frontend/ web para la API REST permitiría mejorar la accesibilidad del modelo para los investigadores que deseen usar este modelo. Finalmente, el desarrollo y despliegue de un /frontend/ web para la API REST permitiría mejorar la accesibilidad del modelo para los investigadores que deseen usarlo.
* Bibliografía * Bibliografía

View File

@ -1,5 +1,5 @@
spanish-abstract: "Las nuevas técnicas de secuenciación de ADN (NGS) han revolucionado la investigación en genómica. Estas tecnologías se basan en la secuenciación de millones de fragmentos de ADN en paralelo, cuya reconstrucción se basa en técnicas de bioinformática. Aunque estas técnicas se apliquen de forma habitual, presentan tasas de error significativas que son detrimentales para el análisis de regiones con alto grado de polimorfismo. En este estudio se implementa un nuevo método computacional, locimend, basado en Deep Learning para la corrección de errores de secuenciación de ADN. Se aplica al análisis de la región determinante de complementariedad 3 (CDR3) del receptor de linfocitos T (TCR), generada in silico y posteriorimente sometida a un simulador de secuenciación con el fin de producir errores de secuenciación. Empleando estos datos, entrenamos una red neuronal profunda con el objetivo de generar un modelo computacional que permita la detección y corrección de los errores de secuenciación. Los resultados obtenidos demuestran que locimend es un modelo que identifica y corrige los patrones de errores de secuenciación de ADN, obteniendo una precisión de 0,89 y un área debajo de la curva (AUC) de 0,98. La implementación incluye una API REST que realiza la inferencia de la secuencia correcta de ADN, a partir de una secuencia de ADN con errores con el modelo pre-entrenado, con el objetivo de popularizar su uso en la comunidad científica." spanish-abstract: "Las nuevas técnicas de secuenciación de ADN (NGS) han revolucionado la investigación en genómica. Estas tecnologías se basan en la secuenciación de millones de fragmentos de ADN en paralelo, cuya reconstrucción se basa en técnicas de bioinformática. Aunque estas técnicas se apliquen de forma habitual, presentan tasas de error significantes que son perjudiciales para el análisis de regiones con alto grado de polimorfismo. En este estudio se implementa un nuevo método computacional, locimend, basado en Deep Learning para la corrección de errores de secuenciación de ADN. Se aplica al análisis de la región determinante de complementariedad 3 (CDR3) del receptor de linfocitos T (TCR), generada in silico y posteriorimente sometida a un simulador de secuenciación con el fin de producir errores de secuenciación. Empleando estos datos, entrenamos una deep feedforward network con el objetivo de generar un modelo computacional que permita la detección y corrección de los errores de secuenciación. Los resultados obtenidos demuestran que locimend es un modelo que identifica y corrige los patrones de errores de secuenciación de ADN, obteniendo una precisión de 0,89 y un área debajo de la curva (AUC) de 0,98. La implementación incluye una API REST que realiza la inferencia de la secuencia correcta de ADN, a partir de una secuencia de ADN con errores con el modelo pre-entrenado, con el objetivo de popularizar su uso en la comunidad científica."
spanish-keywords: "deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología" spanish-keywords: "deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología"
english-abstract: "Next generation sequencing (NGS) techniques have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a Deep Learning algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR) found on the surface of lymphocytes, generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a depp neural network with the aim of generating a computational model that allows the detection and correction of sequencing errors. Our results show that locimend is a model that identifies and corrects DNA sequencing error patterns, obtaining an accuracy of 0,89 and an area under the curve (AUC) of 0,98. The implementation includes a REST API that performs the inference of the correct DNA sequence, from a DNA sequence with errors with the pre-trained model, in order to popularise its use in the scientific community." english-abstract: "Next generation sequencing (NGS) techniques have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a Deep Learning algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR) found on the surface of lymphocytes, generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a deep feedforward network with the aim of generating a computational model that allows the detection and correction of sequencing errors. Our results show that locimend is a model that identifies and corrects DNA sequencing error patterns, obtaining an accuracy of 0,89 and an area under the curve (AUC) of 0,98. The implementation includes a REST API that performs the inference of the correct DNA sequence, from a DNA sequence with errors with the pre-trained model, in order to popularise its use in the scientific community."
english-keywords: "deep learning, error correction, DNA sequencing, T-cell receptor, immunology" english-keywords: "deep learning, error correction, DNA sequencing, T-cell receptor, immunology"
acknowledgments: "Este proyecto no podría haber sido posible sin el apoyo de numerosas personas. En particular, quiero agradecer especialmente a Carlos Cano Gutiérrez por depositar su voto de confianza al asignarme un proyecto de investigación, el cual no era una propuesta de Trabajo de Fin de Grado. Y a María Soledad Benítez Cantos por su mentorización invaluable a lo largo de este trabajo. Su afán por el conocimiento, sus revisiones y comentarios de retroalimentación, su habilidad para exponer un concepto complejo en una frase y su dedicación incondicional al proyecto han sido el pilar central que ha permitido un desenlace favorable de la investigación." acknowledgments: "Este proyecto no podría haber sido posible sin el apoyo de numerosas personas. En particular, quiero agradecer especialmente a Carlos Cano Gutiérrez por depositar su voto de confianza al asignarme un proyecto de investigación, el cual no era una propuesta de Trabajo de Fin de Grado. Y a María Soledad Benítez Cantos por su mentorización invaluable a lo largo de este trabajo. Su afán por el conocimiento, sus revisiones y comentarios de retroalimentación, su habilidad para exponer un concepto complejo en una frase y su dedicación incondicional al proyecto han sido el pilar central que ha permitido un desenlace favorable de la investigación."