Review and suggestions to Dissertation.org (up to Gradient descent)

This commit is contained in:
Marisol Benítez-Cantos 2021-07-06 11:16:44 +00:00
parent 344f0817ec
commit 91839cb4b4
1 changed files with 19 additions and 15 deletions

View File

@ -20,31 +20,33 @@ El ácido desoxirribonucleico (ADN) y el ácido ribonucleico (ARN) son los repos
#+NAME: fig:central-dogma
[[./assets/figures/central-dogma.png]]
Tanto el ADN como el ARN son ácidos nucleicos, formados por cadenas de nucleótidos. Los nucleótidos son las unidades monoméricas de los ácidos nucleicos. El ADN contiene las bases adenina (A), guanina (G) citosina (C) y timina (T), mientras que el ARN contiene A, G y C, pero tiene uracilo (U) en lugar de timina (T) cite:book:211898.
Tanto el ADN como el ARN son ácidos nucleicos compuestos por unidades monoméricas llamadas nucleótidos, que a su vez contienen una base nitrogenada. El ADN está compuesto por las bases adenina (A), guanina (G) citosina (C) y timina (T), mientras que el ARN contiene uracilo (U) en lugar de timina (T) cite:book:211898.
Hay muy pocos principios firmes en biología. A menudo se dice, de una forma u otra, que la única regla real es que no hay reglas, es decir, que se pueden encontrar excepciones a cada principio fundamental si se busca lo suficiente. El principio conocido como el Dogma central de la biología molecular parece ser una excepción a esta regla de excepción ubicua cite:CRICK1970. El dogma central de la biología molecular establece que una vez que la información ha pasado a proteína no puede volver a salir; \ie la transferencia de información de ácido nucleico a ácido nucleico, o de ácido nucleico a proteína puede ser posible, pero la transferencia de proteína a proteína, o de proteína a ácido nucleico es imposible cite:crick1958protein.
Hay muy pocos principios firmes en biología. A menudo se dice, de una forma u otra, que la única regla real es que no hay reglas, es decir, que se pueden encontrar excepciones a cada principio fundamental si se busca lo suficiente. El principio conocido como el "Dogma Central de la Biología Molecular" parece ser una excepción a esta regla de excepción ubicua cite:CRICK1970. El Dogma Central establece que, una vez que la información ha pasado a proteína, no puede volver a salir; \ie la transferencia de información de ácido nucleico a ácido nucleico, o de ácido nucleico a proteína puede ser posible, pero la transferencia de proteína a proteína, o de proteína a ácido nucleico es imposible cite:crick1958protein.
Las proteínas se producen mediante el proceso de traducción, que tiene lugar en los ribosomas y está dirigido por el ARN mensajero (ARNm). El mensaje genético codificado en el ADN se transcribe primero en ARNm, y la secuencia de nucleótidos del ARNm se traduce en la secuencia de aminoácidos de la proteína. El ARNm que especifica la secuencia de aminoácidos de la proteína se lee en codones, que son conjuntos de tres nucleótidos que especifican aminoácidos individuales cite:book:211898. El código genético se muestra a continuación:
% [COMMENT: Creo que es mejor que referencies las figuras y tablas en el texto en vez de poner lo de "se muestra a continuación". Supongo que en org-mode sería algo así: "El código genético se muestra en la Figura [[fig:genetic-code]].", pero no sé si funciona. Te dejo por aquí el link a la sección de internal links del manual de Org: https://orgmode.org/org.html#Internal-Links . Si fuera mucho follón, pasando.]
#+CAPTION: El código genético
#+NAME: fig:genetic-code
[[./assets/figures/genetic-code.png]]
Por lo tanto, si elucidamos la información contenida en el ADN, obtenemos información sobre las biomoléculas que realizan las diferentes tareas fisiológicas y metabólica (e.g. ARN, proteínas).
Por lo tanto, si elucidamos la información contenida en el ADN, obtenemos información sobre las biomoléculas que realizan las diferentes tareas fisiológicas y metabólicas (e.g. ARN, proteínas).
** Secuenciación de ADN
La secuenciación de ADN es el proceso mediante el cual se determina el orden de los nucleótidos en una secuencia de ADN. En los años 70, Sanger \etal desarrollaron métodos para secuenciar el ADN mediante técnicas de terminación de cadena cite:Sanger5463. Este avance revolucionó la biología, proporcionando las herramientas necesarias para descifrar genes, y posteriormente, genomas completos. La demanda creciente de un mayor rendimiento llevó a la automatización y paralelización de las tareas de secuenciación. Gracias a estos avances, la técnica de Sanger permitió determinar la primera secuencia del genoma humano en 2004 (Proyecto Genoma Humano). Cabe destacar que se estima que la secuencia final cubría aproximadamente el 92% del genoma cite:InternationalHumanGenomeSequencingConsortium2004.
La secuenciación de ADN es el proceso mediante el cual se determina el orden de los nucleótidos en una secuencia de ADN. En los años 70, Sanger \etal desarrollaron métodos para secuenciar el ADN mediante técnicas de terminación de cadena cite:Sanger5463. Este avance revolucionó la biología, proporcionando las herramientas necesarias para descifrar genes, y posteriormente, genomas completos. La demanda creciente de un mayor rendimiento llevó a la automatización y paralelización de las tareas de secuenciación. Gracias a estos avances, la técnica de Sanger permitió determinar la primera secuencia del genoma humano en 2004 (Proyecto Genoma Humano). Cabe destacar que se estima que la secuencia final cubría aproximadamente el 92% del genoma debido a las limitaciones de la propia técnica de secuenciación y ensamblado cite:InternationalHumanGenomeSequencingConsortium2004.
Sin embargo, el Proyecto Genoma Humano requerió una gran cantidad de tiempo y recursos, y era evidente que se necesitaban tecnologías más rápidas, de mayor rendimiento y más baratas. Por esta razón, en el mismo año (2004) el /National Human Genome Research Institute/ (NHGRI) puso en marcha un programa de financiación con el objetivo de reducir el coste de la secuenciación del genoma humano a 1000 dólares en diez años cite:Schloss2008. Esto estimuló el desarrollo y la comercialización de las tecnologías de secuenciación de alto rendimiento o /Next-Generation Sequencing/ (NGS), en contraposición con el método automatizado de Sanger, que se considera una tecnología de primera generación.
** Técnicas de secuenciación de alto rendimiento
Estos nuevos métodos de secuenciación proporcionan tres mejoras importantes: en primer lugar, en lugar de requerir la clonación bacteriana de los fragmentos de ADN, se basan en la preparación de bibliotecas de moléculas en un sistema sin células. En segundo lugar, en lugar de cientos, se producen en paralelo de miles a muchos millones de reacciones de secuenciación. Finalmente, estos resultados de secuenciación se detectan directamente sin necesidad de electroforesis cite:vanDijk2014.
Estos nuevos métodos de secuenciación proporcionan tres mejoras importantes: en primer lugar, no requieren la clonación bacteriana de los fragmentos de ADN, sino que se basan en la preparación de bibliotecas de moléculas en un sistema sin células. En segundo lugar, en lugar de cientos, se producen en paralelo de miles a muchos millones de reacciones de secuenciación. Finalmente, estos resultados de secuenciación se detectan directamente sin necesidad de una técnina experimental adicional llamada electroforesis cite:vanDijk2014.
Actualmente, se encuentran en desarrollo las tecnologías de tercera generación de secuenciación (/Third-Generation Sequencing/). Existe un debate considerable sobre la diferencia entre la segunda y tercera generación de secuenciación, la secuenciación en tiempo real y la divergencia simple con respecto a las tecnologías anteriores deberían ser las características definitorias de la tercera generación. Aquí consideramos que las tecnologías de tercera generación son aquellas capaces de secuenciar moléculas individuales, negando el requisito de amplificación del ADN que comparten todas las tecnologías anteriores cite:HEATHER20161.
Actualmente, se encuentran en desarrollo las tecnologías de tercera generación de secuenciación (/Third-Generation Sequencing/). Existe un debate considerable sobre la diferencia entre la segunda y tercera generación de secuenciación; la secuenciación en tiempo real y la divergencia simple con respecto a las tecnologías anteriores deberían ser las características definitorias de la tercera generación. En este trabajo se considera que las tecnologías de tercera generación son aquellas capaces de secuenciar moléculas individuales, negando el requisito de amplificación del ADN que comparten todas las tecnologías anteriores cite:HEATHER20161.
Estas nuevas técnicas han demostrado su valor, con avances que han permitido secuenciar el genoma humano completo, incluyendo las secuencias repetitivas (de telómero a telómero). Combinando los aspectos complementarios de las tecnologías Oxford Nanopore y PacBio HiFi, 2111 nuevos genes, de los cuales 140 son codificantes, fueron descubiertos en el genoma humano cite:Nurk2021.05.26.445798.
Estas nuevas técnicas han demostrado su valor con avances que han permitido secuenciar el genoma humano completo, incluyendo las secuencias repetitivas (de telómero a telómero) que no pudieron dilucidarse en el Proyecto Genoma Humano. Combinando los aspectos complementarios de las tecnologías Oxford Nanopore y PacBio HiFi, 2111 nuevos genes, de los cuales 140 son codificantes, fueron descubiertos en el genoma humano en el año 2021 cite:Nurk2021.05.26.445798.
** Limitaciones de los métodos paralelos
@ -73,7 +75,7 @@ Este problema se agrava en el análisis de repertorios inmunológicos, debido a
** Variedad genética en el sistema inmunitario
La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3) cite:pmid19706884.
La capacidad del sistema inmunitario adaptativo para responder a cualquiera de los numerosos antígenos extraños potenciales a los que puede estar expuesta una persona depende de los receptores altamente polimórficos expresados por las células B (inmunoglobulinas o anticuerpos) y las células T (receptores de células T [TCR]). La especificidad de las células T viene determinada principalmente por la secuencia de aminoácidos codificada en los bucles de la tercera región determinante de la complementariedad (CDR3) cite:pmid19706884.
En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un segmento génico de cada familia (V, D y J) mediante un proceso conocido como recombinación somática o recombinación V(D)J, de modo que se eliminan del genoma del linfocito los no seleccionados y los segmentos V(D)J escogidos quedan contiguos, determinando la secuencia de las subunidades del TCR y, por tanto, la especificidad de antígeno de la célula T. La selección aleatoria de segmentos junto con la introducción o pérdida de nucleótidos en sus uniones son los responsables directos de la variabilidad de TCR, cuya estimación es del orden de $10^{15}$ posibles especies distintas o clonotipos cite:BenítezCantos-Master.
@ -82,13 +84,13 @@ En el timo, durante el desarrollo de los linfocitos T, se selecciona al azar un
#+LABEL: fig:vdj-recombination
[[./assets/figures/VDJ.png]]
Debido a la diversidad de uniones, las moléculas de anticuerpos y TCR muestran la mayor variabilidad, formando CDR3. De hecho, debido a la diversidad de uniones, el número de secuencias de aminoácidos que están presentes en las regiones CDR3 de las de las moléculas de Ig y TCR es mucho mayor que el número que pueden ser codificadas por segmentos de genes de la línea germinal cite:abbas_lichtman_pillai_2017.
Debido a la diversidad generada en esta recombinación aleatoria, las moléculas de anticuerpos y TCR muestran una enorme variabilidad de secuencias CDR3. De hecho, el número de secuencias de aminoácidos que están presentes en las regiones CDR3 de las moléculas de anticuerpos y TCR es mucho mayor que las que pueden ser codificadas por segmentos de genes de la línea germinal cite:abbas_lichtman_pillai_2017.
Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se han desarrollado para aliviar estos impedimentos.
Frente a la evidencia recaudada, diversos métodos computacionales basados en la inteligencia artificial se han desarrollado para aliviar estos impedimentos e intentar discernir la verdadera variabilidad de secuencia de los errores de secuenciación inherentes a las tecnologías actuales.
** Inteligencia artificial
La inteligencia artificial (IA) es uno de los campos más nuevos de la ciencia y la ingeniería. La investigación empezó después de la Segunda Guerra Mundial, y el término se acuñó en 1956, en la conferencia de Dartmouth College. La definición de inteligencia artificial sigue generando debate a día de hoy, por ende acotaremos la definición de inteligencia artificial al estudio de los agentes inteligentes cite:book:771224.
La inteligencia artificial (IA) es uno de los campos más nuevos de la ciencia y la ingeniería. La investigación empezó después de la Segunda Guerra Mundial, y el término se acuñó en 1956, en la conferencia de Dartmouth College. La definición de inteligencia artificial sigue generando debate a día de hoy. Por ende acotaremos la definición de inteligencia artificial al estudio de los agentes inteligentes cite:book:771224.
Un agente es cualquier elemento capaz de percibir su entorno mediante sensores y actuar en consecuencia en ese entorno mediante actuadores. Un agente inteligente es aquel que actúa para conseguir el mejor resultado o, cuando hay incertidumbre, el mejor resultado esperado. En términos matemáticos, formulamos que el comportamiento de un agente se describe por la función de agente que asigna a cualquier entrada una acción cite:book:771224.
@ -108,7 +110,7 @@ Los sistemas de conocimiento (década de 1970) aprovecharon conocimiento especí
Una red neuronal artificial es un modelo de computación bioinspirado, formado por capas de neuronas artificiales. Comenzaremos definiendo el concepto de neurona artificial, con el fin de introducir la noción de red neuronal artificial de forma clara y concisa.
Una neurona artificial es un modelo de una neurona biológica, cada neurona recibe un conjunto de señales y, al dispararse, transmite una señal a las neuronas interconectadas. Las entradas (/inputs/) se inhiben o amplifican mediante unos pesos numéricos asociados a cada conexión. El disparo, \ie activación, se controla a través de la función de activación. La neurona recoge todas las señales entrantes y calcula una señal de entrada neta en función de los pesos respectivos. La señal de entrada neta sirve de entrada a la función de activación que calcula la señal de salida cite:book:80129.
Una neurona artificial es un modelo de una neurona biológica, donde cada neurona recibe un conjunto de señales y, al dispararse, transmite una señal a las neuronas interconectadas. Las entradas (/inputs/) se inhiben o amplifican mediante unos pesos numéricos asociados a cada conexión. El disparo, \ie activación, se controla a través de la función de activación. La neurona recoge todas las señales entrantes y calcula una señal de entrada neta en función de los pesos respectivos. La señal de entrada neta sirve de entrada a la función de activación que calcula la señal de salida cite:book:80129.
#+CAPTION: Diagrama de una neurona artificial cite:book:80129
#+NAME: fig:artificial-neuron
@ -122,7 +124,7 @@ y= f \left(\sum\limits_{i=0}^{n} w_{i}x_{i} - T \right)
donde $y$ es la salida del nodo, $f$ es la función de activación, $w_i$ es el peso de la entrada $x_{i}$ , y $T$ es el valor del umbral cite:Zou2009.
Una red neuronal artificial (ANN) es una red de capas de neuronas artificiales. Una ANN está formada por una capa de entrada, capas ocultas y una capa de salida. Las neuronas de una capa están conectadas, total o parcialmente, a las neuronas de la capa siguiente. También son posibles las conexiones de retroalimentación con las capas anteriores cite:book:80129. La estructura típica de una ANN es la siguiente:
Una red neuronal artificial (ANN, por sus siglas en inglés) es una red de capas de neuronas artificiales. Una ANN está formada por una capa de entrada, capas ocultas y una capa de salida. Las neuronas de una capa están conectadas, total o parcialmente, a las neuronas de la capa siguiente. También son posibles las conexiones de retroalimentación con las capas anteriores cite:book:80129. La estructura típica de una ANN es la siguiente:
#+CAPTION: Estructura de una red neuronal artificial cite:book:80129
#+ATTR_HTML: :height 30% :width 50%
@ -133,7 +135,9 @@ Los principios básicos de las redes neuronales artificiales fueron formulados p
*** Back propagation
El algoritmo de /back propagation/ (BP) permite establecer los pesos y, por tanto, entrenar los perceptrones multicapa. Esto abrió el camino para el uso de las redes neuronales multicapa. La disponibilidad de un método riguroso para fijar los pesos intermedios, \ie para entrenar las capas ocultas, impulsó el desarrollo de las ANN, superando las deficiencias de la capa única propuesta por Minsky cite:book:2610592. Los autores de la publicación original que describió este algoritmo sintetizan su funcionamiento a alto nivel:
% [COMMENT: He quitado el acrónimo de back propagation porque no lo usas después. Por norma general, los acrónimos se ponen cuando vas a escribir el término más de 3-4 veces en el texto. Si no, está bien que pongas back propagation directamente.]
El algoritmo de /back propagation/ permite establecer los pesos y, por tanto, entrenar los perceptrones multicapa. Esto abrió el camino para el uso de las redes neuronales multicapa. La disponibilidad de un método riguroso para fijar los pesos intermedios, \ie para entrenar las capas ocultas, impulsó el desarrollo de las ANN, superando las deficiencias de la capa única propuesta por Minsky cite:book:2610592. Los autores de la publicación original que describió este algoritmo sintetizan su funcionamiento a alto nivel:
#+BEGIN_QUOTE
Este algoritmo ajusta iterativamente los pesos de cada conexión, con el objetivo de minimizar la función de pérdida (\ie obtener la menor diferencia entre la salida de la ANN y el valor esperado). Como resultado de ello, las capas ocultas llegan a representar características importantes del dominio del problema, y las regularidades de la tarea son captadas por las interacciones de estas unidades. La capacidad de crear nuevas características útiles distingue a la retropropagación de otros métodos anteriores más sencillos, como el procedimiento de convergencia del perceptrón cite:Rumelhart1986.