Add locimend training description
This commit is contained in:
parent
f9703a884e
commit
08b74bb370
|
@ -338,6 +338,19 @@ El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia c
|
|||
- Biopython: manipulación de secuencias ómicas cite:Cock_2009
|
||||
|
||||
*** Funcionalidades
|
||||
|
||||
El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos:
|
||||
|
||||
1. Lectura de ambos archivos FASTQ, secuencia de CDR3 correcta y secuencia de CDR3 con errores, a la vez para obtener las /features/ y el /label/ a la vez
|
||||
2. Alineamiento de la secuencia correcta y de la secuencia con errores, para obtener entradas de la misma longitud
|
||||
3. Codificación basada en el índice de las secuencias de ADN, para obtener secuencias numéricas
|
||||
4. Conversión de las secuencias numéricas al formato binario TFRecord (basado en /Protocol Buffers/)
|
||||
5. Separación y almacenamiento del /dataset/ en conjunto de entrenamiento, validación y test
|
||||
6. Lectura paralela de los conjuntos del /dataset/
|
||||
7. /One-hot encoding/ de las secuencias numéricas, las cuales representan las secuencias de ADN
|
||||
8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados
|
||||
9. Obtención de las métricas que miden el rendimiento del modelo
|
||||
|
||||
** Reproducibilidad
|
||||
* Resultados
|
||||
* Conclusiones
|
||||
|
|
BIN
Dissertation.pdf
BIN
Dissertation.pdf
Binary file not shown.
Loading…
Reference in New Issue