Add DNA sequencing history
This commit is contained in:
parent
b12ed6c952
commit
e35f8a6dee
|
@ -18,8 +18,6 @@ Las nuevas técnicas de secuenciación de ADN (NGS) han revolucionado la investi
|
||||||
|
|
||||||
*Palabras clave:* deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología
|
*Palabras clave:* deep learning, corrección de errores, receptor de linfocitos T, secuenciación de ADN, inmunología
|
||||||
|
|
||||||
\clearpage
|
|
||||||
|
|
||||||
* Abstract
|
* Abstract
|
||||||
|
|
||||||
Next generation sequencing (NGS) have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a /Deep Learning/ algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR), generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a convolutional neural network (CNN) with the aim of generating a computational model that allows the detection and correction of sequencing errors.
|
Next generation sequencing (NGS) have revolutionised genomic research. These technologies perform sequencing of millions of fragments of DNA in parallel, which are pieced together using bioinformatics analyses. Although these techniques are commonly applied, they have non-negligible error rates that are detrimental to the analysis of regions with a high degree of polimorphism. In this study we propose a novel computational method, locimend, based on a /Deep Learning/ algorithm for DNA sequencing error correction. It is applied to the analysis of the complementarity determining region 3 (CDR3) of the T-cell receptor (TCR), generated in silico and subsequently subjected to a sequencing simulator in order to produce sequencing errors. Using these data, we trained a convolutional neural network (CNN) with the aim of generating a computational model that allows the detection and correction of sequencing errors.
|
||||||
|
@ -29,28 +27,28 @@ Next generation sequencing (NGS) have revolutionised genomic research. These tec
|
||||||
|
|
||||||
*Keywords:* deep learning, error correction, DNA sequencing, T-cell receptor, immunology
|
*Keywords:* deep learning, error correction, DNA sequencing, T-cell receptor, immunology
|
||||||
|
|
||||||
\clearpage
|
|
||||||
|
|
||||||
* Introducción
|
* Introducción
|
||||||
|
|
||||||
La secuenciación de ADN es el proceso mediante el cual se determina el orden de los nucleótidos en una secuencia de ADN. En los años 70, Sanger \etal desarrollaron métodos para secuenciar el ADN mediante técnicas de terminación de cadena. cite:Sanger5463 Este avance revolucionó la biología, proporcionando las herramientas necesarias para descifrar genes, y posteriormente, genomas completos.
|
La secuenciación de ADN es el proceso mediante el cual se determina el orden de los nucleótidos en una secuencia de ADN. En los años 70, Sanger \etal desarrollaron métodos para secuenciar el ADN mediante técnicas de terminación de cadena. cite:Sanger5463 Este avance revolucionó la biología, proporcionando las herramientas necesarias para descifrar genes, y posteriormente, genomas completos. La demanda creciente de un mayor rendimiento llevó a la automatización y paralelización de las tareas de secuenciación. Gracias a estos avances, la técnica de Sanger permitió determinar la primera secuencia del genoma humano en 2004 (Proyecto Genoma Humano). cite:InternationalHumanGenomeSequencingConsortium2004
|
||||||
|
|
||||||
La demanda creciente de un mayor rendimiento llevó a una automatización y paralelización de las tareas de secuenciación.
|
Sin embargo, el Proyecto Genoma Gumano requerió una gran cantidad de tiempo y recursos, y era evidente que se necesitaban tecnologías más rápidas, de mayor rendimiento y más baratas. Por esta razón, en el mismo año (2004) el /National Human Genome Research Institute/ (NHGRI) puso en marcha un programa de financiación con el objetivo de reducir el coste de la secuenciación del genoma humano a 1000 dólares en diez años. cite:Schloss2008 Esto estimuló el desarrollo y la comercialización de las tecnologías de secuenciación de alto rendimiento o /Next-Generation Sequencing/ (NGS), en contraposición con el método automatizado de Sanger, que se considera una tecnología de primera generación.
|
||||||
|
|
||||||
|
Estos nuevos métodos de secuenciación proporcionan tres mejoras importantes: en primer lugar, en lugar de requerir la clonación bacteriana de los fragmentos de ADN, se basan en la preparación de bibliotecas de moléculas en un sistema sin células. En segundo lugar, en lugar de cientos, se producen en paralelo de miles a muchos millones de reacciones de secuenciación. Finalmente, estos resultados de secuenciación se detectan directamente sin necesidad de electroforesis. cite:vanDijk2014
|
||||||
|
|
||||||
|
Actualmente, se encuentran en desarrollo las tecnologías de tercera generación de secuenciación (Third-Generation Sequencing). Existe un debate considerable sobre la diferencia entre la segunda y tercera generación de secuenciación, la secuenciación en tiempo real y la divergencia simple con respecto a las tecnologías anteriores deberían ser las características definitorias de la tercera generación. Aquí consideramos que las tecnologías de tercera generación son aquellas capaces de secuenciar moléculas individuales, negando el requisito de amplificación del ADN que comparten todas las tecnologías anteriores. cite:HEATHER20161
|
||||||
|
|
||||||
|
# Not in the correct place
|
||||||
La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3). cite:pmid19706884
|
La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3). cite:pmid19706884
|
||||||
|
|
||||||
** Estado del arte
|
* Estado del arte
|
||||||
*** NGS
|
** Bioinformática
|
||||||
*** Bioinformática (Deep Learning)
|
** Deep Learning
|
||||||
* Motivación y Objetivos
|
* Objetivos
|
||||||
* Metodología
|
* Métodos
|
||||||
** Tecnologías
|
** Tecnologías
|
||||||
** Pipeline
|
** Pipeline
|
||||||
** Reproducibilidad
|
** Reproducibilidad
|
||||||
* Resultados
|
* Resultados
|
||||||
* Conclusiones
|
* Conclusiones
|
||||||
* Futuras mejoras
|
* Futuras mejoras
|
||||||
|
|
||||||
\clearpage
|
|
||||||
|
|
||||||
* Bibliografía
|
* Bibliografía
|
||||||
|
|
BIN
Dissertation.pdf
BIN
Dissertation.pdf
Binary file not shown.
|
@ -284,3 +284,61 @@
|
||||||
eprint = {https://www.pnas.org/content/74/12/5463.full.pdf},
|
eprint = {https://www.pnas.org/content/74/12/5463.full.pdf},
|
||||||
journal = {Proceedings of the National Academy of Sciences}
|
journal = {Proceedings of the National Academy of Sciences}
|
||||||
}
|
}
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
@Article{InternationalHumanGenomeSequencingConsortium2004,
|
||||||
|
author = {Consortium, International Human Genome Sequencing},
|
||||||
|
title = {Finishing the euchromatic sequence of the human genome},
|
||||||
|
journal = {Nature},
|
||||||
|
year = 2004,
|
||||||
|
month = {Oct},
|
||||||
|
day = 01,
|
||||||
|
volume = 431,
|
||||||
|
number = 7011,
|
||||||
|
pages = {931-945},
|
||||||
|
abstract = {The sequence of the human genome encodes the genetic
|
||||||
|
instructions for human physiology, as well as rich information
|
||||||
|
about human evolution. In 2001, the International Human Genome
|
||||||
|
Sequencing Consortium reported a draft sequence of the
|
||||||
|
euchromatic portion of the human genome. Since then, the
|
||||||
|
international collaboration has worked to convert this draft
|
||||||
|
into a genome sequence with high accuracy and nearly complete
|
||||||
|
coverage. Here, we report the result of this finishing
|
||||||
|
process. The current genome sequence (Build 35) contains 2.85
|
||||||
|
billion nucleotides interrupted by only 341 gaps. It covers
|
||||||
|
∼99{\%} of the euchromatic genome and is accurate to an error
|
||||||
|
rate of ∼1 event per 100,000 bases. Many of the remaining
|
||||||
|
euchromatic gaps are associated with segmental duplications
|
||||||
|
and will require focused work with new methods. The
|
||||||
|
near-complete sequence, the first for a vertebrate, greatly
|
||||||
|
improves the precision of biological analyses of the human
|
||||||
|
genome including studies of gene number, birth and death.
|
||||||
|
Notably, the human genome seems to encode only 20,000--25,000
|
||||||
|
protein-coding genes. The genome sequence reported here should
|
||||||
|
serve as a firm foundation for biomedical research in the
|
||||||
|
decades ahead.},
|
||||||
|
issn = {1476-4687},
|
||||||
|
doi = {10.1038/nature03001},
|
||||||
|
url = {https://doi.org/10.1038/nature03001}
|
||||||
|
}
|
||||||
|
|
||||||
|
|
||||||
|
|
||||||
|
@Article{Schloss2008,
|
||||||
|
author = {Schloss, Jeffery A.},
|
||||||
|
title = {How to get genomes at one ten-thousandth the cost},
|
||||||
|
journal = {Nature Biotechnology},
|
||||||
|
year = 2008,
|
||||||
|
month = {Oct},
|
||||||
|
day = 01,
|
||||||
|
volume = 26,
|
||||||
|
number = 10,
|
||||||
|
pages = {1113-1115},
|
||||||
|
abstract = {The NHGRI's Advanced DNA Sequencing Technology program is
|
||||||
|
spearheading the development of platforms that will bring
|
||||||
|
routine whole-genome sequencing closer to reality.},
|
||||||
|
issn = {1546-1696},
|
||||||
|
doi = {10.1038/nbt1008-1113},
|
||||||
|
url = {https://doi.org/10.1038/nbt1008-1113}
|
||||||
|
}
|
||||||
|
|
Loading…
Reference in New Issue