Conclude locimend subsection

This commit is contained in:
coolneng 2021-07-07 15:48:30 +02:00
parent ade1112c8f
commit 0f9a99af48
Signed by: coolneng
GPG Key ID: 9893DA236405AF57
3 changed files with 26 additions and 2 deletions

View File

@ -350,7 +350,7 @@ El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin error
- CuReSim: simulador de secuenciación que emula la tecnología /Ion Torrent/ cite:Caboche_2014
- Biostrings: manipulación de secuencias biológicas cite:Biostrings
*** Funcionalidades
*** Funcionamiento
El programa realiza, parametrizado por 2 parámetros de entrada (número de secuencias diferentes y número de lecturas por el simulador de secuenciación), los siguientes pasos:
@ -366,6 +366,18 @@ locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciació
El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia correcta de ADN, a partir de una secuencia de ADN con errores. Se trata de una reducción de ruido aplicada a un problema de genómica.
La arquitectura del modelo es una /deep feedforward network/, formada por:
- Capa de entrada
- Capa de /masking/: ignora ciertos valores que se añaden a cada tensor para homogenizar el tamaño del /input/
- 3 capas densas, seguidas de una capa de /dropout/: el /dropout/ es un mecanismo que disminuye el /overfitting/ o sobreajuste
- Capa densa
#+CAPTION: Arquitectura de la red neuronal
#+ATTR_HTML: :height 45% :width 70%
#+NAME: fig:locimend
[[./assets/figures/locimend.png]]
La interacción con el modelo se puede realizar mediante:
- Interfaz por línea de comandos (CLI)
@ -377,7 +389,7 @@ La interacción con el modelo se puede realizar mediante:
- Biopython: manipulación de secuencias biológicas cite:Cock_2009
- FastAPI: /framework/ web para la creación de APIs
*** Funcionalidades
*** Entrenamiento
El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos:
@ -391,6 +403,18 @@ El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferen
8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados
9. Obtención de las métricas que miden el rendimiento del modelo
*** Inferencia
La inferencia consiste en la predicción de nuevos resultados a partir de un modelo pre-entrenado. Se llevan a cabo los siguientes pasos:
1. Carga del modelo pre-entrenado
2. Lectura de la secuencia de ADN con errores
3. Codificación basada en el índice de la secuencia de ADN, para obtener une secuencia numérica
4. /One-hot encoding/ de las secuencia numérica, la cual representa la secuencia de ADN
5. Predicción de la secuencia correcta de ADN
6. Descodificación de la secuencia numérica hasta obtener una secuencia de ADN
7. Presentación de la secuencia de ADN correcta inferida por el modelo
** Reproducibilidad
La reproducibilidad de los experimentos en la ciencia es un elemento esencial en el método científico, el cual asegura que una técnica novedosa ofrece resultados verídicos. Actualmente, nos encontramos en una etapa de crisis de reproducibilidad, donde el 70% de los investigadores han fallado al tratar de replicar el estudio de otro científico cite:Baker_2016.

Binary file not shown.

BIN
assets/figures/locimend.png Normal file

Binary file not shown.

After

Width:  |  Height:  |  Size: 85 KiB