Add autoencoders section in State of the Art

2021-07-03 18:12:53 +02:00 · 2021-07-03 18:12:53 +02:00 · 9bf910f33a
commit 9bf910f33a
parent 6292b42b1e
4 changed files with 260 additions and 13 deletions
--- a/Dissertation.org
+++ b/Dissertation.org
@ -50,16 +50,16 @@ Estas nuevas técnicas han demostrado su valor, con avances que han permitido se

 Aunque las tecnologías de secuenciación paralelas (NGS) han revolucionado el estudio de la variedad genómica entre especies y organismos individuales, la mayoría tiene una capacidad limitada para detectar mutaciones con baja frecuencia. Este tipo de análisis es esencial para detectar mutaciones en oncogenes (genes responsables de la transformación de una célula normal a maligna), pero se ve restringido por una tasa de errores de secuenciación no despreciables, tal y como ilustra la siguiente tabla:

-#+CAPTION: Tiempos de ejecución, longitudes de lectura y tasas de error de secuenciación aproximados de diferentes tecnologías de secuenciación de alto rendimiento a mediados de 2014 cite:doi:10.1146/annurev-genom-090413-025358
+#+CAPTION: Longitudes de lectura y tasas de error de secuenciación aproximados de diferentes tecnologías de secuenciación de alto rendimiento a mediados de 2014 cite:doi:10.1146/annurev-genom-090413-025358
 #+NAME: tab:NGS-error-rates
-| Technology  | Runtime | Read length (bp) | Error rate (%) |
-|-------------+---------+------------------+----------------|
-| Sanger      | 2h      | ∼1,000           |          0.1–1 |
-| Illumina    | 6 días  | 2×125            |           ≥0.1 |
-| SOLiD       | 12 días | 35-50            |          >0.06 |
-| 454         | 10h     | 400              |              1 |
-| SMRT        | 0.5–2h  | ~10,000          |             16 |
-| Ion Torrent | 7h      | 400              |              1 |
+| Tecnología  | Longitud de lectura (bp) | Tasa de error (%) |
+|-------------+--------------------------+-------------------|
+| Sanger      | ∼1,000                   |             0.1–1 |
+| Illumina    | 2×125                    |              ≥0.1 |
+| SOLiD       | 35-50                    |             >0.06 |
+| 454         | 400                      |                 1 |
+| SMRT        | ~10,000                  |                16 |
+| Ion Torrent | 400                      |                 1 |

 Para contrarrestar este obstáculo, varias técnicas mitigatorias se han puesto en marcha. Una de las más populares es el uso de una secuencia de consenso, que es un perfil estadístico a partir de un alineamiento múltiple de secuencias. Es una forma básica de descubrimiento de patrones, en la que un alineamiento múltiple de secuencias más amplio se resume en las características que se conservan. Este tipo de análisis permite determinar la probabilidad de cada base en cada posición de una secuencia cite:10.1093/bioinformatics/btg109.

@ -75,16 +75,16 @@ Este problema se agrava en el análisis de repertorios inmunológicos, debido a

 La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3) cite:pmid19706884.

-En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un segmento génico de cada familia mediante un proceso conocido como recombinación somática o recombinación V(D)J, de modo que se eliminan del genoma del linfocito los no seleccionados y los segmentos V(D)J escogidos quedan contiguos, determinando la secuencia de las subunidades del TCR y, por tanto, la especificidad de antígeno de la célula T. La selección aleatoria de segmentos junto con la introducción o pérdida de nucleótidos en sus uniones son los responsables directos de la variabilidad de TCR, cuya estimación es del orden de $10^{15}$ posibles especies distintas o clonotipos cite:BenítezCantos-Master.
+En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un segmento génico de cada familia (V, D y J) mediante un proceso conocido como recombinación somática o recombinación V(D)J, de modo que se eliminan del genoma del linfocito los no seleccionados y los segmentos V(D)J escogidos quedan contiguos, determinando la secuencia de las subunidades del TCR y, por tanto, la especificidad de antígeno de la célula T. La selección aleatoria de segmentos junto con la introducción o pérdida de nucleótidos en sus uniones son los responsables directos de la variabilidad de TCR, cuya estimación es del orden de $10^{15}$ posibles especies distintas o clonotipos cite:BenítezCantos-Master.

 #+CAPTION: Generación de diversidad en el TCR \alpha \beta. Durante el desarrollo de los linfocitos T se reordenan los segmentos génicos V (rosa), D (naranja) y J (verde) a través del proceso de recombinación V(D)J. Durante este proceso se pueden añadir o eliminar nucleótidos en la unión de los segmentos (rojo), contribuyendo a la diversidad de la secuencia. Se señalan las 3 regiones CDR, estando CDR3 localizada en la unión V(D)J cite:BenítezCantos-Master
 #+ATTR_HTML: :height 30% :width 90%
-#+NAME: fig:vdj-recombination
+#+LABEL: fig:vdj-recombination
 [[./assets/figures/VDJ.png]]

 Debido a la diversidad de uniones, las moléculas de anticuerpos y TCR muestran la mayor variabilidad, formando CDR3. De hecho, debido a la diversidad de uniones, el número de secuencias de aminoácidos que están presentes en las regiones CDR3 de las de las moléculas de Ig y TCR es mucho mayor que el número que pueden ser codificadas por segmentos de genes de la línea germinal cite:abbas_lichtman_pillai_2017.

-Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se aplican para aliviar estos impedimentos.
+Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se han desarrollado para aliviar estos impedimentos.

 ** Inteligencia artificial

@ -197,14 +197,57 @@ La bioinformática es un campo interdisciplinar en el que intervienen principalm
 Es tentador atribuir los orígenes de la bioinformática a la reciente convergencia de la secuenciación del ADN, los proyectos genómicos a gran escala, Internet y los superordenadores. Sin embargo, algunos científicos que afirman que la bioinformática se encuentra en su infancia reconocen que los ordenadores eran herramientas importantes en la biología molecular una década antes de que la secuenciación del ADN se convirtiera en algo factible (década de los 1960) cite:Hagen2000.

 * Estado del arte
-** Bioinformática
+
+Procedemos a realizar un estudio de las metodologías actuales en los ámbitos, introducidos previamente, del /Deep Learning/ y de la bioinformática, con el objetivo de identificar las técnicas que se utilizan a nivel académico y en la industria.
+
 ** Deep Learning
+
+El gran potencial de las ANN es la alta velocidad de procesamiento que ofrecen en una implementación paralela masiva, lo que ha aumentado la necesidad de investigar en este ámbito. Hoy en día, las ANN se utilizan sobre todo para la aproximación de funciones universales en paradigmas numéricos debido a sus excelentes propiedades de autoaprendizaje, adaptabilidad, tolerancia a los fallos, no linealidad y avance en el mapeo de la entrada a la salida. Las ANN son capaces de resolver aquellos problemas que no pueden resolverse con la capacidad de cómputo de los procedimientos tradicionales y las matemáticas convencionales cite:ABIODUN2018e00938.
+
+Los métodos de /Deep Learning/ han resultado ser adecuados para el estudio de big data con un éxito notable en su aplicación al reconocimiento del habla, /computer vision/, el reconocimiento de patrones, los sistemas de recomendación y el procesamiento del lenguaje natural (NLP) cite:LIU201711. En la actualidad, la innovación de DL en la identificación de imágenes, la detección de objetos, la clasificación de imágenes y las tareas de identificación de rostros tienen un gran éxito cite:ABIODUN2018e00938.
+
+En nuestro estudio, evaluaremos 2 arquitecturas de /Deep Learning/: /autoencoder/ y CNN. Estableceremos una comparación entre estas diferentes estructuras de ANN, además de mencionar avances recientes en estos algoritmos.
+
+*** Autoencoder
+
+Un /autoencoder/ (AE) es un tipo de ANN, se trata de un algoritmo de aprendizaje no supervisado que se utiliza para codificar eficazmente un conjunto de datos con el fin de reducir la dimensionalidad. Durante las últimas décadas, los AE han estado a la vanguardia en el ámbito del /Deep Learning/. Los datos de entrada se convierten primero en una representación abstracta que, a continuación, la función codificadora vuelve a convertir en el formato original. En concreto, se entrena para codificar la entrada en alguna representación de modo que la entrada pueda reconstruirse a partir de esa representación cite:LIU201711
+
+#+CAPTION: Diagrama de un /autoencoder/. Internamente presenta una capa ($z$) que describe un código para representar el input cite:chervinskii_2015
+#+ATTR_HTML: :height 25% :width 80%
+#+NAME: fig:autoencoder
+[[./assets/figures/autoencoder.png]]
+
+Un autoencoder se compone de 2 elementos:
+
+#+CAPTION: Elementos de un /autoencoder/
+#+NAME: tab:autoencoder
+| Elemento | Función    |
+|----------+------------|
+| Encoder  | $h = f(x)$ |
+| Decoder  | $r = g(h)$ |
+
+El proceso de aprendizaje se describe como una optimización de una función de pérdida:
+
+\begin{equation}
+L(x, g(f(x)))
+\end{equation}
+
+Donde $L$ es la función de pérdida que penaliza $g(f(x))$ por ser distinto de $x$ cite:Goodfellow-et-al-2016.
+
+Tradicionalmente, los /autoencoders/ se utilizaban para reducir la dimensionalidad o /feature learning/. Recientemente, ciertas teorías que conectan los AE y los modelos de variables latentes han llevado a los autocodificadores a la vanguardia del modelado generativo cite:Goodfellow-et-al-2016.
+
+En la actualidad, los /autoencoders/ se utilizan para la reducción de ruido, tanto en texto cite:Lewis_2020 como en imágenes cite:bigdeli17_image_restor_using_autoen_prior, /clustering/ no supervisado cite:makhzani15_adver_autoen, generación de imágenes sintéticas cite:Yoo_2020, reducción de dimensionalidad cite:makhzani15_adver_autoen, predicción de secuencia a secuencia para la traducción automática cite:kaiser18_discr_autoen_sequen_model.
+
+*** Redes neuronales convolucionales (CNN)
+** Bioinformática
 * Objetivos
+
 1. Introducción al dominio de un problema de biología molecular: Secuenciación de ADN y análisis de receptores de linfocitos T (TCR)
 2. Introducción al análisis bioinformático de secuencias de ADN: preprocesamiento de lecturas, alineamiento y otros análisis bioinformáticos asociados.
 3. Creación de un repositorio software para la generación in-silico de secuencias de TCR y la simulación de la secuenciación de las mismas.
 4. Introducción al uso de Tensorflow y Keras para Deep Learning
 5. Estudio de aplicación de Tensorflow/Keras a la corrección de errores de secuenciación en base a los datos sintetizados previamente.
+
 * Métodos
 ** Tecnologías
 ** Pipeline
--- a/Dissertation.pdf
+++ b/Dissertation.pdf
--- a/assets/bibliography.bib
+++ b/assets/bibliography.bib
@ -810,3 +810,207 @@
  edition         = {Third},
  pages           = {209, 260},
 }
+
+@article{ABIODUN2018e00938,
+  title           = {State-of-the-art in artificial neural network applications:
+                  A survey},
+  journal         = {Heliyon},
+  volume          = 4,
+  number          = 11,
+  pages           = {e00938},
+  year            = 2018,
+  issn            = {2405-8440},
+  doi             = {https://doi.org/10.1016/j.heliyon.2018.e00938},
+  url             = {https://www.sciencedirect.com/science/article/pii/S2405844018332067},
+  author          = {Oludare Isaac Abiodun and Aman Jantan and Abiodun Esther
+                  Omolara and Kemi Victoria Dada and Nachaat AbdElatif Mohamed
+                  and Humaira Arshad},
+  keywords        = {Computer science},
+  abstract        = {This is a survey of neural network applications in the
+                  real-world scenario. It provides a taxonomy of artificial
+                  neural networks (ANNs) and furnish the reader with knowledge
+                  of current and emerging trends in ANN applications research
+                  and area of focus for researchers. Additionally, the study
+                  presents ANN application challenges, contributions, compare
+                  performances and critiques methods. The study covers many
+                  applications of ANN techniques in various disciplines which
+                  include computing, science, engineering, medicine,
+                  environmental, agriculture, mining, technology, climate,
+                  business, arts, and nanotechnology, etc. The study assesses
+                  ANN contributions, compare performances and critiques methods.
+                  The study found that neural-network models such as feedforward
+                  and feedback propagation artificial neural networks are
+                  performing better in its application to human problems.
+                  Therefore, we proposed feedforward and feedback propagation
+                  ANN models for research focus based on data analysis factors
+                  like accuracy, processing speed, latency, fault tolerance,
+                  volume, scalability, convergence, and performance. Moreover,
+                  we recommend that instead of applying a single method, future
+                  research can focus on combining ANN models into one
+                  network-wide application.}
+}
+
+@article{LIU201711,
+  title           = {A survey of deep neural network architectures and their
+                  applications},
+  journal         = {Neurocomputing},
+  volume          = 234,
+  pages           = {11-26},
+  year            = 2017,
+  issn            = {0925-2312},
+  doi             = {https://doi.org/10.1016/j.neucom.2016.12.038},
+  url             = {https://www.sciencedirect.com/science/article/pii/S0925231216315533},
+  author          = {Weibo Liu and Zidong Wang and Xiaohui Liu and Nianyin Zeng
+                  and Yurong Liu and Fuad E. Alsaadi},
+  keywords        = {Autoencoder, Convolutional neural network, Deep learning,
+                  Deep belief network, Restricted Boltzmann machine},
+  abstract        = {Since the proposal of a fast learning algorithm for deep
+                  belief networks in 2006, the deep learning techniques have
+                  drawn ever-increasing research interests because of their
+                  inherent capability of overcoming the drawback of traditional
+                  algorithms dependent on hand-designed features. Deep learning
+                  approaches have also been found to be suitable for big data
+                  analysis with successful applications to computer vision,
+                  pattern recognition, speech recognition, natural language
+                  processing, and recommendation systems. In this paper, we
+                  discuss some widely-used deep learning architectures and their
+                  practical applications. An up-to-date overview is provided on
+                  four deep learning architectures, namely, autoencoder,
+                  convolutional neural network, deep belief network, and
+                  restricted Boltzmann machine. Different types of deep neural
+                  networks are surveyed and recent progresses are summarized.
+                  Applications of deep learning techniques on some selected
+                  areas (speech recognition, pattern recognition and computer
+                  vision) are highlighted. A list of future research topics are
+                  finally given with clear justifications.}
+}
+
+@misc{chervinskii_2015,
+  title           = {Autoencoder structure},
+  url             = {https://commons.wikimedia.org/wiki/File:Autoencoder_structure.png},
+  journal         = {Wikimedia},
+  author          = {Chervinskii},
+  year            = 2015,
+  month           = {Dec}
+}
+
+@book{Goodfellow-et-al-2016,
+  title           = {Deep Learning},
+  author          = {Ian Goodfellow and Yoshua Bengio and Aaron Courville},
+  publisher       = {MIT Press},
+  note            = {\url{http://www.deeplearningbook.org}},
+  year            = 2016
+}
+
+@Article{Lewis_2020,
+  author          = {Lewis, Mike and Liu, Yinhan and Goyal, Naman and
+                  Ghazvininejad, Marjan and Mohamed, Abdelrahman and Levy, Omer
+                  and Stoyanov, Veselin and Zettlemoyer, Luke},
+  title           = {BART: Denoising Sequence-to-Sequence Pre-training for
+                  Natural Language Generation, Translation, and Comprehension},
+  journal         = {Proceedings of the 58th Annual Meeting of the Association
+                  for Computational Linguistics},
+  year            = 2020,
+  doi             = {10.18653/v1/2020.acl-main.703},
+  url             = {http://dx.doi.org/10.18653/v1/2020.acl-main.703},
+  publisher       = {Association for Computational Linguistics}
+}
+
+@article{bigdeli17_image_restor_using_autoen_prior,
+  author          = {Bigdeli, Siavash Arjomand and Zwicker, Matthias},
+  title           = {Image Restoration Using Autoencoding Priors},
+  journal         = {CoRR},
+  year            = 2017,
+  url             = {http://arxiv.org/abs/1703.09964v1},
+  abstract        = {We propose to leverage denoising autoencoder networks as
+                  priors to address image restoration problems. We build on the
+                  key observation that the output of an optimal denoising
+                  autoencoder is a local mean of the true data density, and the
+                  autoencoder error (the difference between the output and input
+                  of the trained autoencoder) is a mean shift vector. We use the
+                  magnitude of this mean shift vector, that is, the distance to
+                  the local mean, as the negative log likelihood of our natural
+                  image prior. For image restoration, we maximize the likelihood
+                  using gradient descent by backpropagating the autoencoder
+                  error. A key advantage of our approach is that we do not need
+                  to train separate networks for different image restoration
+                  tasks, such as non-blind deconvolution with different kernels,
+                  or super-resolution at different magnification factors. We
+                  demonstrate state of the art results for non-blind
+                  deconvolution and super-resolution using the same autoencoding
+                  prior.},
+  archivePrefix   = {arXiv},
+  eprint          = {1703.09964},
+  primaryClass    = {cs.CV},
+}
+
+@article{makhzani15_adver_autoen,
+  author          = {Makhzani, Alireza and Shlens, Jonathon and Jaitly, Navdeep
+                  and Goodfellow, Ian and Frey, Brendan},
+  title           = {Adversarial Autoencoders},
+  journal         = {CoRR},
+  year            = 2015,
+  url             = {http://arxiv.org/abs/1511.05644v2},
+  abstract        = {In this paper, we propose the "adversarial autoencoder"
+                  (AAE), which is a probabilistic autoencoder that uses the
+                  recently proposed generative adversarial networks (GAN) to
+                  perform variational inference by matching the aggregated
+                  posterior of the hidden code vector of the autoencoder with an
+                  arbitrary prior distribution. Matching the aggregated
+                  posterior to the prior ensures that generating from any part
+                  of prior space results in meaningful samples. As a result, the
+                  decoder of the adversarial autoencoder learns a deep
+                  generative model that maps the imposed prior to the data
+                  distribution. We show how the adversarial autoencoder can be
+                  used in applications such as semi-supervised classification,
+                  disentangling style and content of images, unsupervised
+                  clustering, dimensionality reduction and data visualization.
+                  We performed experiments on MNIST, Street View House Numbers
+                  and Toronto Face datasets and show that adversarial
+                  autoencoders achieve competitive results in generative
+                  modeling and semi-supervised classification tasks.},
+  archivePrefix   = {arXiv},
+  eprint          = {1511.05644v2},
+  primaryClass    = {cs.LG},
+}
+
+@Article{Yoo_2020,
+  author          = {Yoo, Jaeyoung and Lee, Hojun and Kwak, Nojun},
+  title           = {Unpriortized Autoencoder For Image Generation},
+  journal         = {2020 IEEE International Conference on Image Processing
+                  (ICIP)},
+  year            = 2020,
+  month           = {Oct},
+  doi             = {10.1109/icip40778.2020.9191173},
+  url             = {http://dx.doi.org/10.1109/ICIP40778.2020.9191173},
+  ISBN            = 9781728163956,
+  publisher       = {IEEE}
+}
+@article{kaiser18_discr_autoen_sequen_model,
+  author          = {Kaiser, Łukasz and Bengio, Samy},
+  title           = {Discrete Autoencoders for Sequence Models},
+  journal         = {CoRR},
+  year            = 2018,
+  url             = {http://arxiv.org/abs/1801.09797v1},
+  abstract        = {Recurrent models for sequences have been recently
+                  successful at many tasks, especially for language modeling and
+                  machine translation. Nevertheless, it remains challenging to
+                  extract good representations from these models. For instance,
+                  even though language has a clear hierarchical structure going
+                  from characters through words to sentences, it is not apparent
+                  in current language models. We propose to improve the
+                  representation in sequence models by augmenting current
+                  approaches with an autoencoder that is forced to compress the
+                  sequence through an intermediate discrete latent space. In
+                  order to propagate gradients though this discrete
+                  representation we introduce an improved semantic hashing
+                  technique. We show that this technique performs well on a
+                  newly proposed quantitative efficiency measure. We also
+                  analyze latent codes produced by the model showing how they
+                  correspond to words and phrases. Finally, we present an
+                  application of the autoencoder-augmented model to generating
+                  diverse translations.},
+  archivePrefix   = {arXiv},
+  eprint          = {1801.09797v1},
+  primaryClass    = {cs.LG},
+}
--- a/assets/figures/autoencoder.png
+++ b/assets/figures/autoencoder.png