From 381b58611a23f332c29c056f4a4222b5cc8d3ef3 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?Marisol=20Ben=C3=ADtez-Cantos?= Date: Wed, 7 Jul 2021 09:38:32 +0000 Subject: [PATCH] Small corrections to Dissertation.org --- Dissertation.org | 22 +++++++++++----------- 1 file changed, 11 insertions(+), 11 deletions(-) diff --git a/Dissertation.org b/Dissertation.org index 592896f..6988b23 100644 --- a/Dissertation.org +++ b/Dissertation.org @@ -238,9 +238,9 @@ Tradicionalmente, los /autoencoders/ se utilizaban para reducir la dimensionalid En la actualidad, los /autoencoders/ se utilizan para la reducción de ruido tanto en texto cite:Lewis_2020 como en imágenes cite:bigdeli17_image_restor_using_autoen_prior, /clustering/ no supervisado cite:makhzani15_adver_autoen, generación de imágenes sintéticas cite:Yoo_2020, reducción de dimensionalidad cite:makhzani15_adver_autoen y predicción de secuencia a secuencia para la traducción automática cite:kaiser18_discr_autoen_sequen_model. -*** Redes neuronales convolucionales (CNN) +*** Redes neuronales convolucionales -Una red neuronal convolucional (CNN) es un tipo de red neuronal especializada en el procesamiento de datos que tienen una topología en forma de cuadrícula (/grid/). El nombre de "red neuronal convolucional" indica que la red emplea una operación matemática denominada convolución. Las redes convolucionales han tenido un enorme éxito en las aplicaciones prácticas cite:Goodfellow-et-al-2016. +Una red neuronal convolucional (CNN, por sus siglas en inglés) es un tipo de red neuronal especializada en el procesamiento de datos que tienen una topología en forma de cuadrícula (/grid/). El nombre de "red neuronal convolucional" indica que la red emplea una operación matemática denominada convolución. Las redes convolucionales han tenido un enorme éxito en las aplicaciones prácticas cite:Goodfellow-et-al-2016. #+CAPTION: Diagrama de una CNN. Una CNN es una red neuronal multicapa, compuesta por dos tipos diferentes de capas, a saber, las capas de convolución (capas C) y las capas de submuestreo (capas S) cite:LIU201711 #+ATTR_HTML: :height 20% :width 70% @@ -260,9 +260,9 @@ Las capas de convolución (capas C) se utilizan para extraer características y En la actualidad, las CNN se utilizan para /computer vision/, tanto para la clasificación de imágenes cite:howard17_mobil como para la segmentación cite:ronneberger15_u_net, sistemas de recomendación cite:yuan18_simpl_convol_gener_networ_next_item_recom y análisis de sentimientos cite:sadr21_novel_deep_learn_method_textual_sentim_analy. -*** Deep Feedforward Networks +*** /Deep feedforward networks/ -Las /Deep Feedforward Networks/, \ie /deep multilayer perceptrons/, son los modelos de /Deep Learning/ por excelencia. El objetivo de una red /feedforward/ es aproximar alguna función $f$, definiendo un mapeo: +Las /deep feedforward networks/, \ie /deep multilayer perceptrons/, son los modelos de /Deep Learning/ por excelencia. El objetivo de una red /feedforward/ es aproximar una función $f$, definiendo un mapeo: \begin{equation} y = f(x;\theta) @@ -275,7 +275,7 @@ donde $y$ es la categoría que deseamos como salida y $\theta$ es el valor de lo #+NAME: fig:feedforward [[./assets/figures/feedforward.png]] -Las /deep feedforward networks/ se pueden aplicar a una miríada de problemas, se puede considerar la arquitectura de ANN más general. En la actualidad, las /deep feedforward networks/ se pueden utilizar para la identificación automática del idioma cite:Lopez_Moreno_2016, la modelización de la propagación de enfermedades infecciosas cite:Chakraborty_2020 y para la predicción de la demanda de energía eléctrica cite:Mansoor_2021. +Las /deep feedforward networks/ se pueden aplicar a una miríada de problemas, dado que se puede considerar la arquitectura de ANN más general. En la actualidad, las /deep feedforward networks/ se pueden utilizar para la identificación automática del idioma cite:Lopez_Moreno_2016, para la modelización de la propagación de enfermedades infecciosas cite:Chakraborty_2020 y para la predicción de la demanda de energía eléctrica cite:Mansoor_2021. ** Bioinformática @@ -298,7 +298,7 @@ El uso de /Deep Learning/ para la corrección de errores de secuenciación es un * Planificación del proyecto -El presente proyecto pertenece al ámbito de la bioinformática, lo cual implica que es un trabajo interdisciplinar. Por lo tanto, se requiere una formación previa en ciertos ámbitos. En particular, fue necesario un estudio de las bases bioquímicas, las /NGS/, la recombinación VDJ, el lenguaje de programación R, el /Deep Learning/ y el funcionamiento de Tensorflow y Keras. +El presente proyecto pertenece al ámbito de la bioinformática, lo cual implica que es un trabajo interdisciplinar. Por lo tanto, se requiere una formación previa en áreas del conocimiento muy diversas. En particular, fue necesario un estudio de las bases bioquímicas, las /NGS/, la recombinación VDJ de los linfocitos T, el lenguaje de programación R, el /Deep Learning/ y el funcionamiento de Tensorflow y Keras. El proyecto se divide en 2 partes: @@ -312,9 +312,9 @@ La razón de esta segmentación se expone en la sección siguiente. #+NAME: fig:gantt [[./assets/figures/gantt.png]] -La estimación temporal inicial del proyecto no se vio representada por la implementación real del susodicho. Tanto la extracción de CDR3 mediante alineamiento múltiple, como el preprocesamiento de las secuencias para el uso de Tensorflow ocuparon la mayor parte de la implementación del sistema. +La estimación temporal inicial del proyecto no se vio representada por la implementación real del mismo. Tanto la extracción de secuencias CDR3 mediante alineamiento múltiple, como el preprocesamiento de las secuencias para el uso de Tensorflow ocuparon la mayor parte del desarrollo del sistema. -Estas observaciones no son sorprendentes, en la práctica se ha comprobado que el preprocesamiento de los datos supone aproximadamente el 80% del esfuerzo total del proceso de /machine learning/ cite:Zhang_2003. Incorporamos esta información a nuestro bagaje académico, como una forma de /feedback/ positivo para mejorar la estimación temporal de los futuros proyectos relacionados con el /machine learning/. +Estas observaciones no son sorprendentes; en la práctica se ha comprobado que el preprocesamiento de los datos supone aproximadamente el 80% del esfuerzo total de los proyectos de /machine learning/ cite:Zhang_2003. Incorporamos esta información a nuestro bagaje académico, como una forma de /feedback/ positivo para mejorar la estimación temporal de los futuros proyectos relacionados con técnicas de aprendizaje automático. * Diseño y descripción del sistema @@ -393,11 +393,11 @@ El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferen ** Reproducibilidad -La reproducibilidad de los experimentos en la ciencia es un elemento esencial en el método científico, el cual asegura que una técnica novedosa ofrece resultados verídicos. Actualmente, nos encontramos en un montón de crisis de ésta donde el 70% de los investigadores han fallado al tratar de replicar el estudio de otro científico cite:Baker_2016. +La reproducibilidad de los experimentos en la ciencia es un elemento esencial en el método científico, el cual asegura que una técnica novedosa ofrece resultados verídicos. Actualmente, nos encontramos en una etapa de crisis de reproducibilidad, donde el 70% de los investigadores han fallado al tratar de replicar el estudio de otro científico cite:Baker_2016. Asimismo, en el ámbito de la informática pocos experimentos computacionales son documentados de forma precisa. Por lo general, no existe un registro del flujo de trabajo, la configuración del /hardware/ y el /software/ del equipo, la configuración de los parámetros o las secuencias de invocación de funciones. El código fuente a menudo se revisa sin dejar constancia de ello. Además de dificultar la reproducibilidad de los resultados, estas prácticas acaban impidiendo la productividad de los propios investigadores cite:Stodden13publishingstandards. -Recientemente, han surgido nuevos enfoques para lidiar con este problema desde el punto de vista de la resolución de dependencias de un proyecto /software/. En este proyecto, usamos el gestor de paquetes Nix cite:inproceedings, para garantizar que los resultados que obtenemos son reproducibles, en cualquier máquina. +Recientemente han surgido nuevos enfoques para lidiar con este problema desde el punto de vista de la resolución de dependencias de un proyecto /software/. En el presente trabajo, usamos el gestor de paquetes Nix cite:inproceedings, para garantizar que los resultados que obtenemos son reproducibles en cualquier máquina. * Resultados @@ -405,7 +405,7 @@ El algoritmo de /Deep Learning/ fue entrenado con un /dataset/ sintético de las Dado que los conjuntos de datos de entrenamiento estaban completamente anotados (\ie aprendizaje supervisado), el problema se formuló como una tarea de clasificación binaria supervisada de predicción de una base dada como error/no error, y el rendimiento se midió en unos /datasets/ de validación y de test. -El entrenamiento del modelo de /Deep Learning/ se efectuó en un PC con un procesador Ryzen 5 2600X (6 núcleos, 12 hebras) y 16 GB de RAM. El tiempo necesario para realizarlo fue de 23 minutos. +El entrenamiento del modelo de /Deep Learning/ se efectuó en un PC con un procesador Ryzen 5 2600X (6 núcleos, 12 hebras) y 16 GB de RAM. El tiempo de ejecución fue de 23 minutos. Presentamos las métricas obtenidas al finalizar el entrenamiento de locimend: