diff --git a/Dissertation.org b/Dissertation.org index 34d6526..f551ed3 100644 --- a/Dissertation.org +++ b/Dissertation.org @@ -206,7 +206,7 @@ El gran potencial de las ANN es la alta velocidad de procesamiento que ofrecen e Los métodos de /Deep Learning/ han resultado ser adecuados para el estudio de big data con un éxito notable en su aplicación al reconocimiento del habla, /computer vision/, el reconocimiento de patrones, los sistemas de recomendación y el procesamiento del lenguaje natural (NLP) cite:LIU201711. En la actualidad, la innovación del /Deep Learning/ en la identificación de imágenes, la detección de objetos, la clasificación de imágenes y las tareas de identificación de rostros tienen un gran éxito cite:ABIODUN2018e00938. -En nuestro estudio, evaluaremos 2 arquitecturas de /Deep Learning/: /autoencoder/ y CNN. Estableceremos una comparación entre estas diferentes estructuras de ANN, además de mencionar avances recientes en estos algoritmos. +En nuestro estudio, evaluaremos 3 arquitecturas de /Deep Learning/: /autoencoder/, CNN y /Deep Feedforward Networks/. Estableceremos una comparación entre estas diferentes estructuras de ANN, además de mencionar avances recientes en estos algoritmos. *** Autoencoder @@ -260,6 +260,23 @@ Las capas de convolución (capas C) se utilizan para extraer características y En la actualidad, las CNN se utilizan para /computer vision/, tanto para la clasificación de imágenes cite:howard17_mobil como para la segmentación cite:ronneberger15_u_net, sistemas de recomendación cite:yuan18_simpl_convol_gener_networ_next_item_recom y análisis de sentimientos cite:sadr21_novel_deep_learn_method_textual_sentim_analy. +*** Deep Feedforward Networks + +Las /Deep Feedforward Networks/, \ie /deep multilayer perceptrons/, son los modelos de /Deep Learning/ por excelencia. El objetivo de una red /feedforward/ es aproximar alguna función $f$, definiendo un mapeo: + +\begin{equation} +y = f(x;\theta) +\end{equation} + +donde $y$ es la categoría que deseamos como salida y $\theta$ es el valor de los parámetros que resultan en la mejor aproximación de la función. Estos modelos se denominan /feedforward/ porque la información fluye a través de la función que se evalúa desde $x$, a través de los cálculos intermedios utilizados para definir $f$ y, finalmente, a la salida $y$. No hay conexiones de retroalimentación (/feedback/) en las que las salidas del modelo se retroalimenten a sí mismas cite:Goodfellow-et-al-2016. + +#+CAPTION: Diagrama de una /feedforward network/ que contiene dos unidades, con una única capa oculta cite:Goodfellow-et-al-2016 +#+ATTR_HTML: :height 20% :width 70% +#+NAME: fig:feedforward +[[./assets/figures/feedforward.png]] + +Las /deep feedforward networks/ se pueden aplicar a una miríada de problemas, se puede considerar la arquitectura de ANN más general. En la actualidad, las /deep feedforward networks/ se pueden utilizar para la identificación automática del idioma cite:Lopez_Moreno_2016, la modelización de la propagación de enfermedades infecciosas cite:Chakraborty_2020 y para la predicción de la demanda de energía eléctrica cite:Mansoor_2021. + ** Bioinformática El estudio de las ómicas en biología molecular se beneficia de una serie de nuevas tecnologías que pueden ayudar a explicar vías, redes y procesos celulares, tanto normales como anormales, mediante el seguimiento simultáneo de miles de componentes moleculares. Las ómicas abarcan un conjunto cada vez más amplio de ramas, desde la *genómica* (el estudio cuantitativo de los genes codificantes de proteínas, los elementos reguladores y las secuencias no codificantes), la *transcriptómica* (ARN y expresión de genes), la *proteómica* (por ejemplo, centrada en la abundancia de proteínas) y la *metabolómica* (metabolitos y redes metabólicas) hasta los avances en la era de la biología y la medicina postgenómica: farmacogenómica (estudio cuantitativo de cómo la genética afecta a la respuesta del huésped a los fármacos) y fisiómica (dinámica y funciones fisiológicas de organismos enteros) cite:Schneider_2011. @@ -349,10 +366,16 @@ locimend es un algoritmo de /Deep Learning/ que corrige errores de secuenciació El objetivo de este proyecto es crear un modelo que pueda inferir la secuencia correcta de ADN, a partir de una secuencia de ADN con errores. Se trata de una reducción de ruido aplicada a un problema de genómica. +La interacción con el modelo se puede realizar mediante: + +- Interfaz por línea de comandos (CLI) +- API REST + *** Tecnologías - Tensorflow: creación y ejecución de algoritmos de /machine learning/ cite:tensorflow2015-whitepaper - Biopython: manipulación de secuencias biológicas cite:Cock_2009 +- FastAPI: /framework/ web para la creación de APIs *** Funcionalidades @@ -370,6 +393,17 @@ El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferen ** Reproducibilidad * Resultados + +Dataset 200 secuencias 100 lecturas cada una +Training time 23 minutes + +#+CAPTION: Rendimiento de locimend con los diferentes /datasets/ +#+NAME: tab:results +| Dataset | Accuracy | AUC | +|------------+----------+------| +| Validación | 0.89 | 0.98 | +| Test | 0.89 | 0.98 | + * Conclusiones * Futuras mejoras * Bibliografía diff --git a/Dissertation.pdf b/Dissertation.pdf index a83a525..5962390 100644 Binary files a/Dissertation.pdf and b/Dissertation.pdf differ diff --git a/assets/bibliography.bib b/assets/bibliography.bib index aa6452d..5aa127a 100644 --- a/assets/bibliography.bib +++ b/assets/bibliography.bib @@ -1371,3 +1371,52 @@ url = {http://dx.doi.org/10.1080/713827180}, publisher = {Informa UK Limited} } + +@Article{Lopez_Moreno_2016, + author = {Lopez-Moreno, Ignacio and Gonzalez-Dominguez, Javier and + Martinez, David and Plchot, Oldřich and Gonzalez-Rodriguez, + Joaquin and Moreno, Pedro J.}, + title = {On the use of deep feedforward neural networks for + automatic language identification}, + journal = {Computer Speech & Language}, + year = 2016, + volume = 40, + month = {Nov}, + pages = {46–59}, + issn = {0885-2308}, + doi = {10.1016/j.csl.2016.03.001}, + url = {http://dx.doi.org/10.1016/j.csl.2016.03.001}, + publisher = {Elsevier BV} +} + +@Article{Chakraborty_2020, + author = {Chakraborty, Sourav and Choudhary, Arun Kumar and Sarma, + Mausumi and Hazarika, Manuj Kumar}, + title = {Reaction order and neural network approaches for the + simulation of COVID-19 spreading kinetic in India}, + journal = {Infectious Disease Modelling}, + year = 2020, + volume = 5, + pages = {737–747}, + issn = {2468-0427}, + doi = {10.1016/j.idm.2020.09.002}, + url = {http://dx.doi.org/10.1016/j.idm.2020.09.002}, + publisher = {Elsevier BV} +} + +@Article{Mansoor_2021, + author = {Mansoor, Muhammad and Grimaccia, Francesco and Leva, Sonia + and Mussetta, Marco}, + title = {Comparison of echo state network and feed-forward neural + networks in electrical load forecasting for demand response + programs}, + journal = {Mathematics and Computers in Simulation}, + year = 2021, + volume = 184, + month = {Jun}, + pages = {282–293}, + issn = {0378-4754}, + doi = {10.1016/j.matcom.2020.07.011}, + url = {http://dx.doi.org/10.1016/j.matcom.2020.07.011}, + publisher = {Elsevier BV} +} diff --git a/assets/figures/feedforward.png b/assets/figures/feedforward.png new file mode 100644 index 0000000..87d62a0 Binary files /dev/null and b/assets/figures/feedforward.png differ