diff --git a/Dissertation.org b/Dissertation.org index d16205f..d3d15c4 100644 --- a/Dissertation.org +++ b/Dissertation.org @@ -26,8 +26,6 @@ Hay muy pocos principios firmes en biología. A menudo se dice, de una forma u o Las proteínas se producen mediante el proceso de traducción, que tiene lugar en los ribosomas y está dirigido por el ARN mensajero (ARNm). El mensaje genético codificado en el ADN se transcribe primero en ARNm, y la secuencia de nucleótidos del ARNm se traduce en la secuencia de aminoácidos de la proteína. El ARNm que especifica la secuencia de aminoácidos de la proteína se lee en codones, que son conjuntos de tres nucleótidos que especifican aminoácidos individuales cite:book:211898. El código genético se muestra a continuación: -# [COMMENT: Creo que es mejor que referencies las figuras y tablas en el texto en vez de poner lo de "se muestra a continuación". Supongo que en org-mode sería algo así: "El código genético se muestra en la Figura [[fig:genetic-code]].", pero no sé si funciona. Te dejo por aquí el link a la sección de internal links del manual de Org: https://orgmode.org/org.html#Internal-Links . Si fuera mucho follón, pasando.] - #+CAPTION: El código genético #+NAME: fig:genetic-code [[./assets/figures/genetic-code.png]] @@ -135,8 +133,6 @@ Los principios básicos de las redes neuronales artificiales fueron formulados p *** Back propagation -# [COMMENT: He quitado el acrónimo de back propagation porque no lo usas después. Por norma general, los acrónimos se ponen cuando vas a escribir el término más de 3-4 veces en el texto o cuando el concepto es más conocido por su acrónimo. Si no, está bien que pongas back propagation directamente.] - El algoritmo de /back propagation/ permite establecer los pesos y, por tanto, entrenar los perceptrones multicapa. Esto abrió el camino para el uso de las redes neuronales multicapa. La disponibilidad de un método riguroso para fijar los pesos intermedios, \ie para entrenar las capas ocultas, impulsó el desarrollo de las ANN, superando las deficiencias de la capa única propuesta por Minsky cite:book:2610592. Los autores de la publicación original que describió este algoritmo sintetizan su funcionamiento a alto nivel: #+BEGIN_QUOTE @@ -147,12 +143,10 @@ Asimismo el algoritmo de /back propagation/ es un enfoque para calcular los grad *** Gradient descent -# [COMMENT: He cambiado "parametrizada por los parámetros de un modelo" por "definida por los parámetros...". No sé si es el término más preciso, pero lo otro me sonaba muy redundante.] - -El /gradient descent/ es una forma de minimizar una función objetivo definida por los parámetros de un modelo (e.g. pesos de una neurona artificial) mediante la actualización de los parámetros en la dirección opuesta al gradiente de la función objetivo con respecto a los parámetros, \ie siguiendo la dirección de la pendiente de la superficie creada por la función objetivo hacia abajo hasta llegar a un mínimo local o global cite:ruder2016overview. +El /gradient descent/ es una forma de minimizar una función objetivo parametrizada por las variables de un modelo (e.g. pesos de una neurona artificial) mediante la actualización de los éstas en la dirección opuesta al gradiente de la función objetivo con respecto a los parámetros, \ie siguiendo la dirección de la pendiente de la superficie creada por la función objetivo hacia abajo hasta llegar a un mínimo local o global cite:ruder2016overview. #+CAPTION: Diagrama del algoritmo de /gradient descent/. Comenzando en el punto inicial $w^0$ hacemos nuestra primera aproximación a $g(w)$ en el punto $(w^0,g(w^0))$ en la función (mostrada como un punto negro hueco) con la aproximación en serie de Taylor de primer orden dibujada en rojo. Moviéndonos en la dirección de descenso del gradiente negativo proporcionada por esta aproximación llegamos a un punto $w^1=w^0-\alpha\frac{d}{dw}g(w^0)$. A continuación, repetimos este proceso en $w^1$, moviéndonos en la dirección del gradiente negativo allí, y así sucesivamente. cite:book:2530718 -#+ATTR_HTML: :height 25% :width 80% +#+ATTR_HTML: :height 25% :width 70% #+NAME: fig:gradient-descent [[./assets/figures/gradient-descent.png]] @@ -268,7 +262,7 @@ En la actualidad, las CNN se utilizan para /computer vision/, tanto para la clas ** Bioinformática -El estudio de las "ómicas" en biología molecular se beneficia de una serie de nuevas tecnologías que pueden ayudar a explicar vías, redes y procesos celulares, tanto normales como anormales, mediante el seguimiento simultáneo de miles de componentes moleculares. Las ómicas abarcan un conjunto cada vez más amplio de ramas, desde la *genómica* (el estudio cuantitativo de los genes codificantes de proteínas, los elementos reguladores y las secuencias no codificantes), la *transcriptómica* (ARN y expresión de genes), la *proteómica* (por ejemplo, centrada en la abundancia de proteínas) y la *metabolómica* (metabolitos y redes metabólicas) hasta los avances en la era de la biología y la medicina postgenómica: farmacogenómica (estudio cuantitativo de cómo la genética afecta a la respuesta del huésped a los fármacos) y fisiómica (dinámica y funciones fisiológicas de organismos enteros) cite:Schneider_2011. +El estudio de las ómicas en biología molecular se beneficia de una serie de nuevas tecnologías que pueden ayudar a explicar vías, redes y procesos celulares, tanto normales como anormales, mediante el seguimiento simultáneo de miles de componentes moleculares. Las ómicas abarcan un conjunto cada vez más amplio de ramas, desde la *genómica* (el estudio cuantitativo de los genes codificantes de proteínas, los elementos reguladores y las secuencias no codificantes), la *transcriptómica* (ARN y expresión de genes), la *proteómica* (por ejemplo, centrada en la abundancia de proteínas) y la *metabolómica* (metabolitos y redes metabólicas) hasta los avances en la era de la biología y la medicina postgenómica: farmacogenómica (estudio cuantitativo de cómo la genética afecta a la respuesta del huésped a los fármacos) y fisiómica (dinámica y funciones fisiológicas de organismos enteros) cite:Schneider_2011. Los métodos de la bioinformática han demostrado ser eficaces para resolver los diversos problemas de las ómicas, concretamente para la obtención del estado transcriptómico de una célula (RNA-seq) cite:Peri_2020, reconstrucción de las secuencias de ADN cite:Zerbino_2008, anotación de genomas cite:Spudich_2007 y predicción de la estructura tridimensional de las proteínas cite:Liu_2018. Sin embargo, el problema de las tasas de error no negligibles en las tecnologías de secuenciación de ADN de segunda y tercera generación ha impulsado el desarrollo de múltiples técnicas bioinformáticas para paliar este contratiempo. @@ -295,13 +289,11 @@ El sistema se compone de 2 partes, dado que el algoritmo de /Deep Learning/ no e #+NAME: tab:pipeline | Elemento | Finalidad | Lenguaje de programación | |-------------+----------------------------------------+--------------------------| -| [[https://git.coolneng.duckdns.org/coolneng/locigenesis][locigenesis]] | Generación y secuenciación /in silico/ de secuencias de CDR3 | R | +| [[https://git.coolneng.duckdns.org/coolneng/locigenesis][locigenesis]] | Generación y secuenciación de CDR3 | R | | [[https://git.coolneng.duckdns.org/coolneng/locimend][locimend]] | Corrección de errores de secuenciación | Python | El diseño del sistema queda plasmado a continuación: -# [COMMENT: Es una tontería, pero en la figura la B está en negrita y la A no. Además, no sé si sería conveniente que en algún momento expliques o enseñes en alguna figura el formato FASTQ.] - #+CAPTION: Diseño del sistema. (*A*) Entrenamiento del algoritmo de /Deep Learning/. Como /input/ proporcionamos el número de secuencias, junto con el número de lecturas que deseamos que se simulen. Locigenesis generará 2 archivos en formato FASTQ, que contienen CDR3 con y sin errores de secuenciación, que son el /input/ de locimend para entrenar el modelo de /Deep Learning/, cuya salida es el conjunto de métricas del algoritmo. (*B*) Inferencia del modelo de /Deep Learning/ previamente entrenado y desplegado. Se provee como entrada una secuencia de ADN con errores de secuenciación, el algoritmo procesa ésta y devuelve una secuencia de ADN sin errores #+ATTR_HTML: :height 50% :width 75% #+NAME: fig:pipeline diff --git a/Dissertation.pdf b/Dissertation.pdf index 9b003c6..792d6cc 100644 Binary files a/Dissertation.pdf and b/Dissertation.pdf differ