Add locimend training description

2021-07-05 02:38:37 +02:00 · 2021-07-05 02:38:37 +02:00 · 08b74bb370
parent f9703a884e
commit 08b74bb370
2 changed files with 13 additions and 0 deletions
--- a/Dissertation.org
+++ b/Dissertation.org
@ -338,6 +338,19 @@ El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia c
 - Biopython: manipulación de secuencias ómicas cite:Cock_2009
 *** Funcionalidades
 El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos:
 1. Lectura de ambos archivos FASTQ, secuencia de CDR3 correcta y secuencia de CDR3 con errores, a la vez para obtener las /features/ y el /label/ a la vez
 2. Alineamiento de la secuencia correcta y de la secuencia con errores, para obtener entradas de la misma longitud
 3. Codificación basada en el índice de las secuencias de ADN, para obtener secuencias numéricas
 4. Conversión de las secuencias numéricas al formato binario TFRecord (basado en /Protocol Buffers/)
 5. Separación y almacenamiento del /dataset/ en conjunto de entrenamiento, validación y test
 6. Lectura paralela de los conjuntos del /dataset/
 7. /One-hot encoding/ de las secuencias numéricas, las cuales representan las secuencias de ADN
 8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados
 9. Obtención de las métricas que miden el rendimiento del modelo
 ** Reproducibilidad
 * Resultados
 * Conclusiones
--- a/Dissertation.pdf
+++ b/Dissertation.pdf