Review Dissertation.org

This commit is contained in:
Marisol Benítez-Cantos 2021-07-07 16:12:47 +00:00
parent 6e62991442
commit 082773c08d
1 changed files with 12 additions and 9 deletions

View File

@ -340,7 +340,7 @@ Procedemos a la exposición de cada parte del /pipeline/, por separado, resaltan
** locigenesis
locigenesis es una herramienta que genera un receptor de células T (TCR) humano, lo pasa por una herramienta de simulación de lectura de secuencias y extrae las regiones CDR3.
locigenesis es una herramienta que genera una secuencia de receptores de células T (TCR) humano para posteriormente aplicarle una herramienta de simulación de secuenciación y, finalmente, extraer las regiones CDR3 tras la introducción de errores.
El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin errores de secuenciación, con el fin de crear /datasets/ para entrenar un algoritmo de /Deep Learning/.
@ -354,12 +354,14 @@ El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin error
El programa realiza, parametrizado por 2 parámetros de entrada (número de secuencias diferentes y número de lecturas por el simulador de secuenciación), los siguientes pasos:
1. Generación de diversas secuencias de la cadena \beta del TCR
2. Exportación de las secuencias a un archivo en formato FASTQ (tanto CDR3 como la secuencia VDJ completa)
3. Simulación de una secuenciación mediante CuReSim, y almacenamiento de las secuencias con errores
4. Alineamiento de las secuencias completas con errores, y extracción de CDR3 a partir de una heurística
1. Generación de diversas secuencias de la cadena \beta del TCR (con la estructura génica VDJ y estando CDR3 comprendido en las uniones de los 3 segmentos)
2. Exportación de las secuencias a un archivo en formato FASTQ (tanto CDR3 por separado como la secuencia VDJ completa)
3. Simulación de una secuenciación de VDJ mediante CuReSim, y almacenamiento de las secuencias con errores
4. Alineamiento de las secuencias completas con errores con las secuencias V y J de referencia, y extracción de CDR3 a partir de una heurística
5. Exportación de las secuencias de CDR3 con errores y sin errores en archivos con formato FASTQ
Cabe mencionar que la simulación de secuenciación se realiza con la secuencia VDJ completa y no sólo con CDR3 (la región problemática cuya variabilidad dificulta la corrección de errores) debido a que en la mayoría de plataformas de secuenciación la tasa de error aumenta con la longitud de la secuencia. Por ello, en aras de emular las condiciones más cercanas a la realidad, es importante secuenciar la región CDR3 junto con las secuencias colindantes V y J y posteriormente extraer esta región de interés gracias a los alineamientos con los segmentos génicos de referencia.
** locimend
locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciación de secuencias de ADN.
@ -370,7 +372,8 @@ La arquitectura del modelo es una /deep feedforward network/, formada por:
- Capa de entrada
- Capa de /masking/: ignora ciertos valores que se añaden a cada tensor para homogenizar el tamaño del /input/
- 3 capas densas, seguidas de una capa de /dropout/: el /dropout/ es un mecanismo que disminuye el /overfitting/ o sobreajuste
- 3 capas densas, seguidas de una capa de /dropout/: el /dropout/ es un mecanismo que disminuye el /overfitting/
# [COMMENT: Quito lo de sobreajuste que más arriba ya tienes puesto "overfitting o sobreajuste"]
- Capa densa
#+CAPTION: Arquitectura de la red neuronal
@ -410,7 +413,7 @@ La inferencia consiste en la predicción de nuevos resultados a partir de un mod
1. Carga del modelo pre-entrenado
2. Lectura de la secuencia de ADN con errores
3. Codificación basada en el índice de la secuencia de ADN, para obtener une secuencia numérica
4. /One-hot encoding/ de las secuencia numérica, la cual representa la secuencia de ADN
4. /One-hot encoding/ de la secuencia numérica, la cual representa la secuencia de ADN
5. Predicción de la secuencia correcta de ADN
6. Descodificación de la secuencia numérica hasta obtener una secuencia de ADN
7. Presentación de la secuencia de ADN correcta inferida por el modelo
@ -447,12 +450,12 @@ En definitiva, locimend adquirió una gran capacidad para discernir entre nucle
Los resultados del algoritmo de /Deep Learning/ son satisfactorios aunque presenta ciertas limitaciones.
En primer lugar, el modelo dado que la red neuronal se entrenó exclusivamente con datos que emulan una secuenciación de Ion Torrent, es probable que las características que contribuyen a las posiciones erróneas sean específicas al proceso de secuenciación de Ion Torrent. Por lo tanto, la inferencia a partir de datos de secuenciación procedentes de otras tecnologías podría ser menos eficaz. Un entrenamiento con varios /dataset/ provenientes de diferentes tecnologías aumentaría la capacidad de generalización del modelo.
En primer lugar, dado que la red neuronal se entrenó exclusivamente con datos que emulan una secuenciación de Ion Torrent, es probable que las características que contribuyen a las posiciones erróneas sean específicas del proceso de secuenciación de Ion Torrent. Por lo tanto, la inferencia a partir de datos de secuenciación procedentes de otras tecnologías podría ser menos eficaz. Un entrenamiento con varios /dataset/ provenientes de diferentes tecnologías (o simuladores de las mismas) aumentaría la capacidad de generalización del modelo.
Asimismo, el entrenamiento del modelo se realizó con un conjunto de datos de 20,000 secuencias, un tamaño bastante limitado para una tarea de aprendizaje automático. La generación de /datasets/ de mayor tamaño no era viable debido a limitaciones en las capacidades de cómputo de los recursos disponibles. Por ende, la elaboración de un /dataset/ de mayor envergadura es una tarea pendiente.
Uno de los factores que más afecta el rendimiento de una red neuronal es el valor de los hiperparámetros. Los hiperparámetros son variables inherentes al modelo, como el optimizador usado, la distribución de los valores iniciales en los pesos del modelo, la tasa de aprendizaje o el /batch size/. Todos estos parámetros son interdependientes cite:book:2164083, por lo que es importante optimizarlos de forma combinatoria. Una optimización más a fondo de los hiperparámetros podría incrementar la eficiencia del modelo.
Finalmente, el desarrollo y despliegue de un /frontend/ web para la API REST permitiría mejorar la accesibilidad del modelo para los investigadores que deseen usar este modelo.
Finalmente, el desarrollo y despliegue de un /frontend/ web para la API REST permitiría mejorar la accesibilidad del modelo para los investigadores que deseen usarlo.
* Bibliografía