Add locimend training description
This commit is contained in:
parent
f9703a884e
commit
08b74bb370
|
@ -338,6 +338,19 @@ El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia c
|
||||||
- Biopython: manipulación de secuencias ómicas cite:Cock_2009
|
- Biopython: manipulación de secuencias ómicas cite:Cock_2009
|
||||||
|
|
||||||
*** Funcionalidades
|
*** Funcionalidades
|
||||||
|
|
||||||
|
El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos:
|
||||||
|
|
||||||
|
1. Lectura de ambos archivos FASTQ, secuencia de CDR3 correcta y secuencia de CDR3 con errores, a la vez para obtener las /features/ y el /label/ a la vez
|
||||||
|
2. Alineamiento de la secuencia correcta y de la secuencia con errores, para obtener entradas de la misma longitud
|
||||||
|
3. Codificación basada en el índice de las secuencias de ADN, para obtener secuencias numéricas
|
||||||
|
4. Conversión de las secuencias numéricas al formato binario TFRecord (basado en /Protocol Buffers/)
|
||||||
|
5. Separación y almacenamiento del /dataset/ en conjunto de entrenamiento, validación y test
|
||||||
|
6. Lectura paralela de los conjuntos del /dataset/
|
||||||
|
7. /One-hot encoding/ de las secuencias numéricas, las cuales representan las secuencias de ADN
|
||||||
|
8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados
|
||||||
|
9. Obtención de las métricas que miden el rendimiento del modelo
|
||||||
|
|
||||||
** Reproducibilidad
|
** Reproducibilidad
|
||||||
* Resultados
|
* Resultados
|
||||||
* Conclusiones
|
* Conclusiones
|
||||||
|
|
BIN
Dissertation.pdf
BIN
Dissertation.pdf
Binary file not shown.
Loading…
Reference in New Issue