diff --git a/Dissertation.org b/Dissertation.org index 2cd9bea..3415da4 100644 --- a/Dissertation.org +++ b/Dissertation.org @@ -338,6 +338,19 @@ El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia c - Biopython: manipulación de secuencias ómicas cite:Cock_2009 *** Funcionalidades + +El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos: + +1. Lectura de ambos archivos FASTQ, secuencia de CDR3 correcta y secuencia de CDR3 con errores, a la vez para obtener las /features/ y el /label/ a la vez +2. Alineamiento de la secuencia correcta y de la secuencia con errores, para obtener entradas de la misma longitud +3. Codificación basada en el índice de las secuencias de ADN, para obtener secuencias numéricas +4. Conversión de las secuencias numéricas al formato binario TFRecord (basado en /Protocol Buffers/) +5. Separación y almacenamiento del /dataset/ en conjunto de entrenamiento, validación y test +6. Lectura paralela de los conjuntos del /dataset/ +7. /One-hot encoding/ de las secuencias numéricas, las cuales representan las secuencias de ADN +8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados +9. Obtención de las métricas que miden el rendimiento del modelo + ** Reproducibilidad * Resultados * Conclusiones diff --git a/Dissertation.pdf b/Dissertation.pdf index d2c41cf..93d2543 100644 Binary files a/Dissertation.pdf and b/Dissertation.pdf differ