Add system design and description
This commit is contained in:
parent
eaef4004ce
commit
f9703a884e
|
@ -282,9 +282,62 @@ El uso de /Deep Learning/ para la corrección de errores de secuenciación es un
|
||||||
4. Introducción al uso de Tensorflow y Keras para Deep Learning
|
4. Introducción al uso de Tensorflow y Keras para Deep Learning
|
||||||
5. Estudio de aplicación de Tensorflow/Keras a la corrección de errores de secuenciación en base a los datos sintetizados previamente.
|
5. Estudio de aplicación de Tensorflow/Keras a la corrección de errores de secuenciación en base a los datos sintetizados previamente.
|
||||||
|
|
||||||
* Métodos
|
* Diseño y descripción del sistema
|
||||||
** Tecnologías
|
|
||||||
** Pipeline
|
La finalidad de este proyecto es el desarrollo de un /pipeline/, con el objetivo de crear un algoritmo de /Deep Learning/ capaz de corregir errores de secuenciación en secuencias del ADN, en particular, en la región CDR3 del TCR.
|
||||||
|
|
||||||
|
El sistema se compone de 2 partes, dado que el algoritmo de /Deep Learning/ no es dependiente del /dataset/ generado /in silico/, y se podría entrenar con cualquier otro conjunto de datos.
|
||||||
|
|
||||||
|
#+CAPTION: Descripción del proyecto
|
||||||
|
#+NAME: tab:pipeline
|
||||||
|
| Elemento | Finalidad | Lenguaje de programación |
|
||||||
|
|-------------+----------------------------------------+--------------------------|
|
||||||
|
| [[https://git.coolneng.duckdns.org/coolneng/locigenesis][locigenesis]] | Generación de secuencias de CDR3 | R |
|
||||||
|
| [[https://git.coolneng.duckdns.org/coolneng/locimend][locimend]] | Corrección de errores de secuenciación | Python |
|
||||||
|
|
||||||
|
El diseño del sistema queda plasmado a continuación:
|
||||||
|
|
||||||
|
#+CAPTION: Diseño del sistema. (*A*) Entrenamiento del algoritmo de /Deep Learning/. Como /input/ proporcionamos el número de secuencias, junto con el número de lecturas que deseamos que se simulen. Locigenesis generará 2 archivos en formato FASTQ, que contienen CDR3 con y sin errores de secuenciación, que son el /input/ de locimend para entrenar el modelo de /Deep Learning/, cuya salida es el conjunto de métricas del algoritmo. (*B*) Inferencia del modelo de /Deep Learning/ previamente entrenado y desplegado. Se provee como entrada una secuencia de ADN con errores de secuenciación, el algoritmo procesa ésta y devuelve una secuencia de ADN sin errores
|
||||||
|
#+ATTR_HTML: :height 50% :width 75%
|
||||||
|
#+NAME: fig:pipeline
|
||||||
|
[[./assets/figures/pipeline.png]]
|
||||||
|
|
||||||
|
Procedemos a la exposición de cada parte del /pipeline/, por separado, resaltando las tecnologías usadas y las funcionalidades.
|
||||||
|
|
||||||
|
** locigenesis
|
||||||
|
|
||||||
|
locigenesis es una herramienta que genera un receptor de células T (TCR) humano, lo pasa por una herramienta de simulación de lectura de secuencias y extrae las regiones CDR3.
|
||||||
|
|
||||||
|
El objetivo de este proyecto es generar tanto secuencias de CDR3 con y sin errores de secuenciación, con el fin de crear /datasets/ para entrenar un algoritmo de /Deep Learning/.
|
||||||
|
|
||||||
|
*** Tecnologías
|
||||||
|
|
||||||
|
- immuneSIM: generación /in silico/ de repertorios de BCR y TCR, humanos y de ratón cite:Weber_2020
|
||||||
|
- CuReSim: simulador de secuenciación que emula la técnica /Ion Torrent/ cite:Caboche_2014
|
||||||
|
- Biostrings: manipulación de secuencias ómicas cite:Biostrings
|
||||||
|
|
||||||
|
*** Funcionalidades
|
||||||
|
|
||||||
|
El programa realiza, parametrizado por 2 parámetros de entrada (número de secuencias diferentes y número de lecturas por el simulador de secuenciación), los siguientes pasos:
|
||||||
|
|
||||||
|
1. Generación de las secuencias de la cadena \beta de diversos repertorios inmunológicos del TCR
|
||||||
|
2. Exportación de las secuencias a un archivo en formato FASTQ (tanto CDR3 como la secuencia completa)
|
||||||
|
3. Simulación de una secuenciación mediante CuReSim, y almacenamiento de las secuencias con errores
|
||||||
|
4. Alineamiento de las secuencias completas con errores, y extracción de CDR3 a partir de una heurística
|
||||||
|
5. Exportación de las secuencias de CDR3 con errores y sin errores en archivos con formato FASTQ
|
||||||
|
|
||||||
|
** locimend
|
||||||
|
|
||||||
|
locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciación de secuencias de ADN.
|
||||||
|
|
||||||
|
El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia correcta de ADN, a partir de una secuencia de ADN con errores. Se trata de una reducción de ruido, aplicada a un problema de genómica.
|
||||||
|
|
||||||
|
*** Tecnologías
|
||||||
|
|
||||||
|
- Tensorflow: creación y ejecución de algoritmos de /machine learning/ cite:tensorflow2015-whitepaper
|
||||||
|
- Biopython: manipulación de secuencias ómicas cite:Cock_2009
|
||||||
|
|
||||||
|
*** Funcionalidades
|
||||||
** Reproducibilidad
|
** Reproducibilidad
|
||||||
* Resultados
|
* Resultados
|
||||||
* Conclusiones
|
* Conclusiones
|
||||||
|
|
BIN
Dissertation.pdf
BIN
Dissertation.pdf
Binary file not shown.
|
@ -1265,3 +1265,94 @@
|
||||||
url = {http://dx.doi.org/10.1093/bioinformatics/btx089},
|
url = {http://dx.doi.org/10.1093/bioinformatics/btx089},
|
||||||
publisher = {Oxford University Press (OUP)}
|
publisher = {Oxford University Press (OUP)}
|
||||||
}
|
}
|
||||||
|
|
||||||
|
@inproceedings{inproceedings,
|
||||||
|
author = {Dolstra, Eelco and Jonge, Merijn and Visser, Eelco},
|
||||||
|
year = 2004,
|
||||||
|
month = 01,
|
||||||
|
pages = {79-92},
|
||||||
|
title = {Nix: A Safe and Policy-Free System for Software
|
||||||
|
Deployment.}
|
||||||
|
}
|
||||||
|
|
||||||
|
@Article{Caboche_2014,
|
||||||
|
author = {Caboche, Ségolène and Audebert, Christophe and Lemoine,
|
||||||
|
Yves and Hot, David},
|
||||||
|
title = {Comparison of mapping algorithms used in high-throughput
|
||||||
|
sequencing: application to Ion Torrent data},
|
||||||
|
journal = {BMC Genomics},
|
||||||
|
year = 2014,
|
||||||
|
volume = 15,
|
||||||
|
number = 1,
|
||||||
|
pages = 264,
|
||||||
|
issn = {1471-2164},
|
||||||
|
doi = {10.1186/1471-2164-15-264},
|
||||||
|
url = {http://dx.doi.org/10.1186/1471-2164-15-264},
|
||||||
|
publisher = {Springer Science and Business Media LLC}
|
||||||
|
}
|
||||||
|
|
||||||
|
@Article{Weber_2020,
|
||||||
|
author = {Weber, Cédric R and Akbar, Rahmad and Yermanos, Alexander
|
||||||
|
and Pavlović, Milena and Snapkov, Igor and Sandve, Geir K and
|
||||||
|
Reddy, Sai T and Greiff, Victor},
|
||||||
|
title = {immuneSIM: tunable multi-feature simulation of B- and
|
||||||
|
T-cell receptor repertoires for immunoinformatics
|
||||||
|
benchmarking},
|
||||||
|
journal = {Bioinformatics},
|
||||||
|
year = 2020,
|
||||||
|
editor = {Schwartz, RussellEditor},
|
||||||
|
volume = 36,
|
||||||
|
number = 11,
|
||||||
|
month = {Apr},
|
||||||
|
pages = {3594–3596},
|
||||||
|
issn = {1460-2059},
|
||||||
|
doi = {10.1093/bioinformatics/btaa158},
|
||||||
|
url = {http://dx.doi.org/10.1093/bioinformatics/btaa158},
|
||||||
|
publisher = {Oxford University Press (OUP)}
|
||||||
|
}
|
||||||
|
|
||||||
|
@Article{Cock_2009,
|
||||||
|
author = {Cock, P. J. A. and Antao, T. and Chang, J. T. and Chapman,
|
||||||
|
B. A. and Cox, C. J. and Dalke, A. and Friedberg, I. and
|
||||||
|
Hamelryck, T. and Kauff, F. and Wilczynski, B. and et al.},
|
||||||
|
title = {Biopython: freely available Python tools for computational
|
||||||
|
molecular biology and bioinformatics},
|
||||||
|
journal = {Bioinformatics},
|
||||||
|
year = 2009,
|
||||||
|
volume = 25,
|
||||||
|
number = 11,
|
||||||
|
month = {Mar},
|
||||||
|
pages = {1422–1423},
|
||||||
|
issn = {1460-2059},
|
||||||
|
doi = {10.1093/bioinformatics/btp163},
|
||||||
|
url = {http://dx.doi.org/10.1093/bioinformatics/btp163},
|
||||||
|
publisher = {Oxford University Press (OUP)}
|
||||||
|
}
|
||||||
|
|
||||||
|
@misc{tensorflow2015-whitepaper,
|
||||||
|
title = { {TensorFlow}: Large-Scale Machine Learning on
|
||||||
|
Heterogeneous Systems},
|
||||||
|
url = {https://www.tensorflow.org/},
|
||||||
|
note = {Software available from tensorflow.org},
|
||||||
|
author = { Mart\'{\i}n~Abadi and Ashish~Agarwal and Paul~Barham and
|
||||||
|
Eugene~Brevdo and Zhifeng~Chen and Craig~Citro and
|
||||||
|
Greg~S.~Corrado and Andy~Davis and Jeffrey~Dean and
|
||||||
|
Matthieu~Devin and Sanjay~Ghemawat and Ian~Goodfellow and
|
||||||
|
Andrew~Harp and Geoffrey~Irving and Michael~Isard and Yangqing
|
||||||
|
Jia and Rafal~Jozefowicz and Lukasz~Kaiser and
|
||||||
|
Manjunath~Kudlur and Josh~Levenberg and Dandelion~Man\'{e} and
|
||||||
|
Rajat~Monga and Sherry~Moore and Derek~Murray and Chris~Olah
|
||||||
|
and Mike~Schuster and Jonathon~Shlens and Benoit~Steiner and
|
||||||
|
Ilya~Sutskever and Kunal~Talwar and Paul~Tucker and
|
||||||
|
Vincent~Vanhoucke and Vijay~Vasudevan and Fernanda~Vi\'{e}gas
|
||||||
|
and Oriol~Vinyals and Pete~Warden and Martin~Wattenberg and
|
||||||
|
Martin~Wicke and Yuan~Yu and Xiaoqiang~Zheng},
|
||||||
|
year = 2015,
|
||||||
|
}
|
||||||
|
|
||||||
|
@misc{Biostrings,
|
||||||
|
title = {Biostrings: Efficient manipulation of biological strings},
|
||||||
|
author = {H. Pagès and P. Aboyoun and R. Gentleman and S. DebRoy},
|
||||||
|
year = 2019,
|
||||||
|
note = {R package version 2.50.2},
|
||||||
|
}
|
||||||
|
|
Binary file not shown.
After Width: | Height: | Size: 62 KiB |
Loading…
Reference in New Issue