Add autoencoders section in State of the Art

This commit is contained in:
coolneng 2021-07-03 18:12:53 +02:00
parent 6292b42b1e
commit 9bf910f33a
Signed by: coolneng
GPG Key ID: 9893DA236405AF57
4 changed files with 260 additions and 13 deletions

View File

@ -50,16 +50,16 @@ Estas nuevas técnicas han demostrado su valor, con avances que han permitido se
Aunque las tecnologías de secuenciación paralelas (NGS) han revolucionado el estudio de la variedad genómica entre especies y organismos individuales, la mayoría tiene una capacidad limitada para detectar mutaciones con baja frecuencia. Este tipo de análisis es esencial para detectar mutaciones en oncogenes (genes responsables de la transformación de una célula normal a maligna), pero se ve restringido por una tasa de errores de secuenciación no despreciables, tal y como ilustra la siguiente tabla: Aunque las tecnologías de secuenciación paralelas (NGS) han revolucionado el estudio de la variedad genómica entre especies y organismos individuales, la mayoría tiene una capacidad limitada para detectar mutaciones con baja frecuencia. Este tipo de análisis es esencial para detectar mutaciones en oncogenes (genes responsables de la transformación de una célula normal a maligna), pero se ve restringido por una tasa de errores de secuenciación no despreciables, tal y como ilustra la siguiente tabla:
#+CAPTION: Tiempos de ejecución, longitudes de lectura y tasas de error de secuenciación aproximados de diferentes tecnologías de secuenciación de alto rendimiento a mediados de 2014 cite:doi:10.1146/annurev-genom-090413-025358 #+CAPTION: Longitudes de lectura y tasas de error de secuenciación aproximados de diferentes tecnologías de secuenciación de alto rendimiento a mediados de 2014 cite:doi:10.1146/annurev-genom-090413-025358
#+NAME: tab:NGS-error-rates #+NAME: tab:NGS-error-rates
| Technology | Runtime | Read length (bp) | Error rate (%) | | Tecnología | Longitud de lectura (bp) | Tasa de error (%) |
|-------------+---------+------------------+----------------| |-------------+--------------------------+-------------------|
| Sanger | 2h | 1,000 | 0.11 | | Sanger | 1,000 | 0.11 |
| Illumina | 6 días | 2×125 | ≥0.1 | | Illumina | 2×125 | ≥0.1 |
| SOLiD | 12 días | 35-50 | >0.06 | | SOLiD | 35-50 | >0.06 |
| 454 | 10h | 400 | 1 | | 454 | 400 | 1 |
| SMRT | 0.52h | ~10,000 | 16 | | SMRT | ~10,000 | 16 |
| Ion Torrent | 7h | 400 | 1 | | Ion Torrent | 400 | 1 |
Para contrarrestar este obstáculo, varias técnicas mitigatorias se han puesto en marcha. Una de las más populares es el uso de una secuencia de consenso, que es un perfil estadístico a partir de un alineamiento múltiple de secuencias. Es una forma básica de descubrimiento de patrones, en la que un alineamiento múltiple de secuencias más amplio se resume en las características que se conservan. Este tipo de análisis permite determinar la probabilidad de cada base en cada posición de una secuencia cite:10.1093/bioinformatics/btg109. Para contrarrestar este obstáculo, varias técnicas mitigatorias se han puesto en marcha. Una de las más populares es el uso de una secuencia de consenso, que es un perfil estadístico a partir de un alineamiento múltiple de secuencias. Es una forma básica de descubrimiento de patrones, en la que un alineamiento múltiple de secuencias más amplio se resume en las características que se conservan. Este tipo de análisis permite determinar la probabilidad de cada base en cada posición de una secuencia cite:10.1093/bioinformatics/btg109.
@ -75,16 +75,16 @@ Este problema se agrava en el análisis de repertorios inmunológicos, debido a
La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3) cite:pmid19706884. La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3) cite:pmid19706884.
En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un segmento génico de cada familia mediante un proceso conocido como recombinación somática o recombinación V(D)J, de modo que se eliminan del genoma del linfocito los no seleccionados y los segmentos V(D)J escogidos quedan contiguos, determinando la secuencia de las subunidades del TCR y, por tanto, la especificidad de antígeno de la célula T. La selección aleatoria de segmentos junto con la introducción o pérdida de nucleótidos en sus uniones son los responsables directos de la variabilidad de TCR, cuya estimación es del orden de $10^{15}$ posibles especies distintas o clonotipos cite:BenítezCantos-Master. En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un segmento génico de cada familia (V, D y J) mediante un proceso conocido como recombinación somática o recombinación V(D)J, de modo que se eliminan del genoma del linfocito los no seleccionados y los segmentos V(D)J escogidos quedan contiguos, determinando la secuencia de las subunidades del TCR y, por tanto, la especificidad de antígeno de la célula T. La selección aleatoria de segmentos junto con la introducción o pérdida de nucleótidos en sus uniones son los responsables directos de la variabilidad de TCR, cuya estimación es del orden de $10^{15}$ posibles especies distintas o clonotipos cite:BenítezCantos-Master.
#+CAPTION: Generación de diversidad en el TCR \alpha \beta. Durante el desarrollo de los linfocitos T se reordenan los segmentos génicos V (rosa), D (naranja) y J (verde) a través del proceso de recombinación V(D)J. Durante este proceso se pueden añadir o eliminar nucleótidos en la unión de los segmentos (rojo), contribuyendo a la diversidad de la secuencia. Se señalan las 3 regiones CDR, estando CDR3 localizada en la unión V(D)J cite:BenítezCantos-Master #+CAPTION: Generación de diversidad en el TCR \alpha \beta. Durante el desarrollo de los linfocitos T se reordenan los segmentos génicos V (rosa), D (naranja) y J (verde) a través del proceso de recombinación V(D)J. Durante este proceso se pueden añadir o eliminar nucleótidos en la unión de los segmentos (rojo), contribuyendo a la diversidad de la secuencia. Se señalan las 3 regiones CDR, estando CDR3 localizada en la unión V(D)J cite:BenítezCantos-Master
#+ATTR_HTML: :height 30% :width 90% #+ATTR_HTML: :height 30% :width 90%
#+NAME: fig:vdj-recombination #+LABEL: fig:vdj-recombination
[[./assets/figures/VDJ.png]] [[./assets/figures/VDJ.png]]
Debido a la diversidad de uniones, las moléculas de anticuerpos y TCR muestran la mayor variabilidad, formando CDR3. De hecho, debido a la diversidad de uniones, el número de secuencias de aminoácidos que están presentes en las regiones CDR3 de las de las moléculas de Ig y TCR es mucho mayor que el número que pueden ser codificadas por segmentos de genes de la línea germinal cite:abbas_lichtman_pillai_2017. Debido a la diversidad de uniones, las moléculas de anticuerpos y TCR muestran la mayor variabilidad, formando CDR3. De hecho, debido a la diversidad de uniones, el número de secuencias de aminoácidos que están presentes en las regiones CDR3 de las de las moléculas de Ig y TCR es mucho mayor que el número que pueden ser codificadas por segmentos de genes de la línea germinal cite:abbas_lichtman_pillai_2017.
Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se aplican para aliviar estos impedimentos. Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se han desarrollado para aliviar estos impedimentos.
** Inteligencia artificial ** Inteligencia artificial
@ -197,14 +197,57 @@ La bioinformática es un campo interdisciplinar en el que intervienen principalm
Es tentador atribuir los orígenes de la bioinformática a la reciente convergencia de la secuenciación del ADN, los proyectos genómicos a gran escala, Internet y los superordenadores. Sin embargo, algunos científicos que afirman que la bioinformática se encuentra en su infancia reconocen que los ordenadores eran herramientas importantes en la biología molecular una década antes de que la secuenciación del ADN se convirtiera en algo factible (década de los 1960) cite:Hagen2000. Es tentador atribuir los orígenes de la bioinformática a la reciente convergencia de la secuenciación del ADN, los proyectos genómicos a gran escala, Internet y los superordenadores. Sin embargo, algunos científicos que afirman que la bioinformática se encuentra en su infancia reconocen que los ordenadores eran herramientas importantes en la biología molecular una década antes de que la secuenciación del ADN se convirtiera en algo factible (década de los 1960) cite:Hagen2000.
* Estado del arte * Estado del arte
** Bioinformática
Procedemos a realizar un estudio de las metodologías actuales en los ámbitos, introducidos previamente, del /Deep Learning/ y de la bioinformática, con el objetivo de identificar las técnicas que se utilizan a nivel académico y en la industria.
** Deep Learning ** Deep Learning
El gran potencial de las ANN es la alta velocidad de procesamiento que ofrecen en una implementación paralela masiva, lo que ha aumentado la necesidad de investigar en este ámbito. Hoy en día, las ANN se utilizan sobre todo para la aproximación de funciones universales en paradigmas numéricos debido a sus excelentes propiedades de autoaprendizaje, adaptabilidad, tolerancia a los fallos, no linealidad y avance en el mapeo de la entrada a la salida. Las ANN son capaces de resolver aquellos problemas que no pueden resolverse con la capacidad de cómputo de los procedimientos tradicionales y las matemáticas convencionales cite:ABIODUN2018e00938.
Los métodos de /Deep Learning/ han resultado ser adecuados para el estudio de big data con un éxito notable en su aplicación al reconocimiento del habla, /computer vision/, el reconocimiento de patrones, los sistemas de recomendación y el procesamiento del lenguaje natural (NLP) cite:LIU201711. En la actualidad, la innovación de DL en la identificación de imágenes, la detección de objetos, la clasificación de imágenes y las tareas de identificación de rostros tienen un gran éxito cite:ABIODUN2018e00938.
En nuestro estudio, evaluaremos 2 arquitecturas de /Deep Learning/: /autoencoder/ y CNN. Estableceremos una comparación entre estas diferentes estructuras de ANN, además de mencionar avances recientes en estos algoritmos.
*** Autoencoder
Un /autoencoder/ (AE) es un tipo de ANN, se trata de un algoritmo de aprendizaje no supervisado que se utiliza para codificar eficazmente un conjunto de datos con el fin de reducir la dimensionalidad. Durante las últimas décadas, los AE han estado a la vanguardia en el ámbito del /Deep Learning/. Los datos de entrada se convierten primero en una representación abstracta que, a continuación, la función codificadora vuelve a convertir en el formato original. En concreto, se entrena para codificar la entrada en alguna representación de modo que la entrada pueda reconstruirse a partir de esa representación cite:LIU201711
#+CAPTION: Diagrama de un /autoencoder/. Internamente presenta una capa ($z$) que describe un código para representar el input cite:chervinskii_2015
#+ATTR_HTML: :height 25% :width 80%
#+NAME: fig:autoencoder
[[./assets/figures/autoencoder.png]]
Un autoencoder se compone de 2 elementos:
#+CAPTION: Elementos de un /autoencoder/
#+NAME: tab:autoencoder
| Elemento | Función |
|----------+------------|
| Encoder | $h = f(x)$ |
| Decoder | $r = g(h)$ |
El proceso de aprendizaje se describe como una optimización de una función de pérdida:
\begin{equation}
L(x, g(f(x)))
\end{equation}
Donde $L$ es la función de pérdida que penaliza $g(f(x))$ por ser distinto de $x$ cite:Goodfellow-et-al-2016.
Tradicionalmente, los /autoencoders/ se utilizaban para reducir la dimensionalidad o /feature learning/. Recientemente, ciertas teorías que conectan los AE y los modelos de variables latentes han llevado a los autocodificadores a la vanguardia del modelado generativo cite:Goodfellow-et-al-2016.
En la actualidad, los /autoencoders/ se utilizan para la reducción de ruido, tanto en texto cite:Lewis_2020 como en imágenes cite:bigdeli17_image_restor_using_autoen_prior, /clustering/ no supervisado cite:makhzani15_adver_autoen, generación de imágenes sintéticas cite:Yoo_2020, reducción de dimensionalidad cite:makhzani15_adver_autoen, predicción de secuencia a secuencia para la traducción automática cite:kaiser18_discr_autoen_sequen_model.
*** Redes neuronales convolucionales (CNN)
** Bioinformática
* Objetivos * Objetivos
1. Introducción al dominio de un problema de biología molecular: Secuenciación de ADN y análisis de receptores de linfocitos T (TCR) 1. Introducción al dominio de un problema de biología molecular: Secuenciación de ADN y análisis de receptores de linfocitos T (TCR)
2. Introducción al análisis bioinformático de secuencias de ADN: preprocesamiento de lecturas, alineamiento y otros análisis bioinformáticos asociados. 2. Introducción al análisis bioinformático de secuencias de ADN: preprocesamiento de lecturas, alineamiento y otros análisis bioinformáticos asociados.
3. Creación de un repositorio software para la generación in-silico de secuencias de TCR y la simulación de la secuenciación de las mismas. 3. Creación de un repositorio software para la generación in-silico de secuencias de TCR y la simulación de la secuenciación de las mismas.
4. Introducción al uso de Tensorflow y Keras para Deep Learning 4. Introducción al uso de Tensorflow y Keras para Deep Learning
5. Estudio de aplicación de Tensorflow/Keras a la corrección de errores de secuenciación en base a los datos sintetizados previamente. 5. Estudio de aplicación de Tensorflow/Keras a la corrección de errores de secuenciación en base a los datos sintetizados previamente.
* Métodos * Métodos
** Tecnologías ** Tecnologías
** Pipeline ** Pipeline

Binary file not shown.

View File

@ -810,3 +810,207 @@
edition = {Third}, edition = {Third},
pages = {209, 260}, pages = {209, 260},
} }
@article{ABIODUN2018e00938,
title = {State-of-the-art in artificial neural network applications:
A survey},
journal = {Heliyon},
volume = 4,
number = 11,
pages = {e00938},
year = 2018,
issn = {2405-8440},
doi = {https://doi.org/10.1016/j.heliyon.2018.e00938},
url = {https://www.sciencedirect.com/science/article/pii/S2405844018332067},
author = {Oludare Isaac Abiodun and Aman Jantan and Abiodun Esther
Omolara and Kemi Victoria Dada and Nachaat AbdElatif Mohamed
and Humaira Arshad},
keywords = {Computer science},
abstract = {This is a survey of neural network applications in the
real-world scenario. It provides a taxonomy of artificial
neural networks (ANNs) and furnish the reader with knowledge
of current and emerging trends in ANN applications research
and area of focus for researchers. Additionally, the study
presents ANN application challenges, contributions, compare
performances and critiques methods. The study covers many
applications of ANN techniques in various disciplines which
include computing, science, engineering, medicine,
environmental, agriculture, mining, technology, climate,
business, arts, and nanotechnology, etc. The study assesses
ANN contributions, compare performances and critiques methods.
The study found that neural-network models such as feedforward
and feedback propagation artificial neural networks are
performing better in its application to human problems.
Therefore, we proposed feedforward and feedback propagation
ANN models for research focus based on data analysis factors
like accuracy, processing speed, latency, fault tolerance,
volume, scalability, convergence, and performance. Moreover,
we recommend that instead of applying a single method, future
research can focus on combining ANN models into one
network-wide application.}
}
@article{LIU201711,
title = {A survey of deep neural network architectures and their
applications},
journal = {Neurocomputing},
volume = 234,
pages = {11-26},
year = 2017,
issn = {0925-2312},
doi = {https://doi.org/10.1016/j.neucom.2016.12.038},
url = {https://www.sciencedirect.com/science/article/pii/S0925231216315533},
author = {Weibo Liu and Zidong Wang and Xiaohui Liu and Nianyin Zeng
and Yurong Liu and Fuad E. Alsaadi},
keywords = {Autoencoder, Convolutional neural network, Deep learning,
Deep belief network, Restricted Boltzmann machine},
abstract = {Since the proposal of a fast learning algorithm for deep
belief networks in 2006, the deep learning techniques have
drawn ever-increasing research interests because of their
inherent capability of overcoming the drawback of traditional
algorithms dependent on hand-designed features. Deep learning
approaches have also been found to be suitable for big data
analysis with successful applications to computer vision,
pattern recognition, speech recognition, natural language
processing, and recommendation systems. In this paper, we
discuss some widely-used deep learning architectures and their
practical applications. An up-to-date overview is provided on
four deep learning architectures, namely, autoencoder,
convolutional neural network, deep belief network, and
restricted Boltzmann machine. Different types of deep neural
networks are surveyed and recent progresses are summarized.
Applications of deep learning techniques on some selected
areas (speech recognition, pattern recognition and computer
vision) are highlighted. A list of future research topics are
finally given with clear justifications.}
}
@misc{chervinskii_2015,
title = {Autoencoder structure},
url = {https://commons.wikimedia.org/wiki/File:Autoencoder_structure.png},
journal = {Wikimedia},
author = {Chervinskii},
year = 2015,
month = {Dec}
}
@book{Goodfellow-et-al-2016,
title = {Deep Learning},
author = {Ian Goodfellow and Yoshua Bengio and Aaron Courville},
publisher = {MIT Press},
note = {\url{http://www.deeplearningbook.org}},
year = 2016
}
@Article{Lewis_2020,
author = {Lewis, Mike and Liu, Yinhan and Goyal, Naman and
Ghazvininejad, Marjan and Mohamed, Abdelrahman and Levy, Omer
and Stoyanov, Veselin and Zettlemoyer, Luke},
title = {BART: Denoising Sequence-to-Sequence Pre-training for
Natural Language Generation, Translation, and Comprehension},
journal = {Proceedings of the 58th Annual Meeting of the Association
for Computational Linguistics},
year = 2020,
doi = {10.18653/v1/2020.acl-main.703},
url = {http://dx.doi.org/10.18653/v1/2020.acl-main.703},
publisher = {Association for Computational Linguistics}
}
@article{bigdeli17_image_restor_using_autoen_prior,
author = {Bigdeli, Siavash Arjomand and Zwicker, Matthias},
title = {Image Restoration Using Autoencoding Priors},
journal = {CoRR},
year = 2017,
url = {http://arxiv.org/abs/1703.09964v1},
abstract = {We propose to leverage denoising autoencoder networks as
priors to address image restoration problems. We build on the
key observation that the output of an optimal denoising
autoencoder is a local mean of the true data density, and the
autoencoder error (the difference between the output and input
of the trained autoencoder) is a mean shift vector. We use the
magnitude of this mean shift vector, that is, the distance to
the local mean, as the negative log likelihood of our natural
image prior. For image restoration, we maximize the likelihood
using gradient descent by backpropagating the autoencoder
error. A key advantage of our approach is that we do not need
to train separate networks for different image restoration
tasks, such as non-blind deconvolution with different kernels,
or super-resolution at different magnification factors. We
demonstrate state of the art results for non-blind
deconvolution and super-resolution using the same autoencoding
prior.},
archivePrefix = {arXiv},
eprint = {1703.09964},
primaryClass = {cs.CV},
}
@article{makhzani15_adver_autoen,
author = {Makhzani, Alireza and Shlens, Jonathon and Jaitly, Navdeep
and Goodfellow, Ian and Frey, Brendan},
title = {Adversarial Autoencoders},
journal = {CoRR},
year = 2015,
url = {http://arxiv.org/abs/1511.05644v2},
abstract = {In this paper, we propose the "adversarial autoencoder"
(AAE), which is a probabilistic autoencoder that uses the
recently proposed generative adversarial networks (GAN) to
perform variational inference by matching the aggregated
posterior of the hidden code vector of the autoencoder with an
arbitrary prior distribution. Matching the aggregated
posterior to the prior ensures that generating from any part
of prior space results in meaningful samples. As a result, the
decoder of the adversarial autoencoder learns a deep
generative model that maps the imposed prior to the data
distribution. We show how the adversarial autoencoder can be
used in applications such as semi-supervised classification,
disentangling style and content of images, unsupervised
clustering, dimensionality reduction and data visualization.
We performed experiments on MNIST, Street View House Numbers
and Toronto Face datasets and show that adversarial
autoencoders achieve competitive results in generative
modeling and semi-supervised classification tasks.},
archivePrefix = {arXiv},
eprint = {1511.05644v2},
primaryClass = {cs.LG},
}
@Article{Yoo_2020,
author = {Yoo, Jaeyoung and Lee, Hojun and Kwak, Nojun},
title = {Unpriortized Autoencoder For Image Generation},
journal = {2020 IEEE International Conference on Image Processing
(ICIP)},
year = 2020,
month = {Oct},
doi = {10.1109/icip40778.2020.9191173},
url = {http://dx.doi.org/10.1109/ICIP40778.2020.9191173},
ISBN = 9781728163956,
publisher = {IEEE}
}
@article{kaiser18_discr_autoen_sequen_model,
author = {Kaiser, Łukasz and Bengio, Samy},
title = {Discrete Autoencoders for Sequence Models},
journal = {CoRR},
year = 2018,
url = {http://arxiv.org/abs/1801.09797v1},
abstract = {Recurrent models for sequences have been recently
successful at many tasks, especially for language modeling and
machine translation. Nevertheless, it remains challenging to
extract good representations from these models. For instance,
even though language has a clear hierarchical structure going
from characters through words to sentences, it is not apparent
in current language models. We propose to improve the
representation in sequence models by augmenting current
approaches with an autoencoder that is forced to compress the
sequence through an intermediate discrete latent space. In
order to propagate gradients though this discrete
representation we introduce an improved semantic hashing
technique. We show that this technique performs well on a
newly proposed quantitative efficiency measure. We also
analyze latent codes produced by the model showing how they
correspond to words and phrases. Finally, we present an
application of the autoencoder-augmented model to generating
diverse translations.},
archivePrefix = {arXiv},
eprint = {1801.09797v1},
primaryClass = {cs.LG},
}

Binary file not shown.

After

Width:  |  Height:  |  Size: 48 KiB