Add locimend training description

This commit is contained in:
coolneng 2021-07-05 02:38:37 +02:00
parent f9703a884e
commit 08b74bb370
Signed by: coolneng
GPG Key ID: 9893DA236405AF57
2 changed files with 13 additions and 0 deletions

View File

@ -338,6 +338,19 @@ El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia c
- Biopython: manipulación de secuencias ómicas cite:Cock_2009
*** Funcionalidades
El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos:
1. Lectura de ambos archivos FASTQ, secuencia de CDR3 correcta y secuencia de CDR3 con errores, a la vez para obtener las /features/ y el /label/ a la vez
2. Alineamiento de la secuencia correcta y de la secuencia con errores, para obtener entradas de la misma longitud
3. Codificación basada en el índice de las secuencias de ADN, para obtener secuencias numéricas
4. Conversión de las secuencias numéricas al formato binario TFRecord (basado en /Protocol Buffers/)
5. Separación y almacenamiento del /dataset/ en conjunto de entrenamiento, validación y test
6. Lectura paralela de los conjuntos del /dataset/
7. /One-hot encoding/ de las secuencias numéricas, las cuales representan las secuencias de ADN
8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados
9. Obtención de las métricas que miden el rendimiento del modelo
** Reproducibilidad
* Resultados
* Conclusiones

Binary file not shown.