Conclude locimend subsection
This commit is contained in:
parent
ade1112c8f
commit
0f9a99af48
|
@ -350,7 +350,7 @@ El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin error
|
|||
- CuReSim: simulador de secuenciación que emula la tecnología /Ion Torrent/ cite:Caboche_2014
|
||||
- Biostrings: manipulación de secuencias biológicas cite:Biostrings
|
||||
|
||||
*** Funcionalidades
|
||||
*** Funcionamiento
|
||||
|
||||
El programa realiza, parametrizado por 2 parámetros de entrada (número de secuencias diferentes y número de lecturas por el simulador de secuenciación), los siguientes pasos:
|
||||
|
||||
|
@ -366,6 +366,18 @@ locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciació
|
|||
|
||||
El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia correcta de ADN, a partir de una secuencia de ADN con errores. Se trata de una reducción de ruido aplicada a un problema de genómica.
|
||||
|
||||
La arquitectura del modelo es una /deep feedforward network/, formada por:
|
||||
|
||||
- Capa de entrada
|
||||
- Capa de /masking/: ignora ciertos valores que se añaden a cada tensor para homogenizar el tamaño del /input/
|
||||
- 3 capas densas, seguidas de una capa de /dropout/: el /dropout/ es un mecanismo que disminuye el /overfitting/ o sobreajuste
|
||||
- Capa densa
|
||||
|
||||
#+CAPTION: Arquitectura de la red neuronal
|
||||
#+ATTR_HTML: :height 45% :width 70%
|
||||
#+NAME: fig:locimend
|
||||
[[./assets/figures/locimend.png]]
|
||||
|
||||
La interacción con el modelo se puede realizar mediante:
|
||||
|
||||
- Interfaz por línea de comandos (CLI)
|
||||
|
@ -377,7 +389,7 @@ La interacción con el modelo se puede realizar mediante:
|
|||
- Biopython: manipulación de secuencias biológicas cite:Cock_2009
|
||||
- FastAPI: /framework/ web para la creación de APIs
|
||||
|
||||
*** Funcionalidades
|
||||
*** Entrenamiento
|
||||
|
||||
El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferentes pasos:
|
||||
|
||||
|
@ -391,6 +403,18 @@ El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferen
|
|||
8. Entrenamiento del algoritmo de /Deep Learning/, con los datos preprocesados
|
||||
9. Obtención de las métricas que miden el rendimiento del modelo
|
||||
|
||||
*** Inferencia
|
||||
|
||||
La inferencia consiste en la predicción de nuevos resultados a partir de un modelo pre-entrenado. Se llevan a cabo los siguientes pasos:
|
||||
|
||||
1. Carga del modelo pre-entrenado
|
||||
2. Lectura de la secuencia de ADN con errores
|
||||
3. Codificación basada en el índice de la secuencia de ADN, para obtener une secuencia numérica
|
||||
4. /One-hot encoding/ de las secuencia numérica, la cual representa la secuencia de ADN
|
||||
5. Predicción de la secuencia correcta de ADN
|
||||
6. Descodificación de la secuencia numérica hasta obtener una secuencia de ADN
|
||||
7. Presentación de la secuencia de ADN correcta inferida por el modelo
|
||||
|
||||
** Reproducibilidad
|
||||
|
||||
La reproducibilidad de los experimentos en la ciencia es un elemento esencial en el método científico, el cual asegura que una técnica novedosa ofrece resultados verídicos. Actualmente, nos encontramos en una etapa de crisis de reproducibilidad, donde el 70% de los investigadores han fallado al tratar de replicar el estudio de otro científico cite:Baker_2016.
|
||||
|
|
BIN
Dissertation.pdf
BIN
Dissertation.pdf
Binary file not shown.
Binary file not shown.
After Width: | Height: | Size: 85 KiB |
Loading…
Reference in New Issue