Add reproducibility subsection
This commit is contained in:
parent
5797356adc
commit
93ac95a30a
|
@ -392,6 +392,13 @@ El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferen
|
||||||
9. Obtención de las métricas que miden el rendimiento del modelo
|
9. Obtención de las métricas que miden el rendimiento del modelo
|
||||||
|
|
||||||
** Reproducibilidad
|
** Reproducibilidad
|
||||||
|
|
||||||
|
La reproducibilidad de los experimentos en la ciencia es un elemento esencial en el método científico, el cual asegura que una técnica novedosa ofrece resultados verídicos. Actualmente, nos encontramos en un montón de crisis de ésta donde el 70% de los investigadores han fallado al tratar de replicar el estudio de otro científico cite:Baker_2016.
|
||||||
|
|
||||||
|
Asimismo, en el ámbito de la informática pocos experimentos computacionales son documentados de forma precisa. Por lo general, no existe un registro del flujo de trabajo, la configuración del /hardware/ y el /software/ del equipo, la configuración de los parámetros o las secuencias de invocación de funciones. El código fuente a menudo se revisa sin dejar constancia de ello. Además de dificultar la reproducibilidad de los resultados, estas prácticas acaban impidiendo la productividad de los propios investigadores cite:Stodden13publishingstandards.
|
||||||
|
|
||||||
|
Recientemente, han surgido nuevos enfoques para lidiar con este problema desde el punto de vista de la resolución de dependencias de un proyecto /software/. En este proyecto, usamos el gestor de paquetes Nix cite:inproceedings, para garantizar que los resultados que obtenemos son reproducibles, en cualquier máquina.
|
||||||
|
|
||||||
* Resultados
|
* Resultados
|
||||||
|
|
||||||
El algoritmo de /Deep Learning/ fue entrenado con un /dataset/ sintético de las secuencias de la región CDR3 del TCR. En concreto, se generó un dataset de 20,000 secuencias, procedentes de una simulación de secuenciación (reproducida durante 100 iteraciones), de 200 secuencias únicas. Este /dataset/ se proporciona en el repositorio de locimend.
|
El algoritmo de /Deep Learning/ fue entrenado con un /dataset/ sintético de las secuencias de la región CDR3 del TCR. En concreto, se generó un dataset de 20,000 secuencias, procedentes de una simulación de secuenciación (reproducida durante 100 iteraciones), de 200 secuencias únicas. Este /dataset/ se proporciona en el repositorio de locimend.
|
||||||
|
|
BIN
Dissertation.pdf
BIN
Dissertation.pdf
Binary file not shown.
|
@ -1420,3 +1420,25 @@
|
||||||
url = {http://dx.doi.org/10.1016/j.matcom.2020.07.011},
|
url = {http://dx.doi.org/10.1016/j.matcom.2020.07.011},
|
||||||
publisher = {Elsevier BV}
|
publisher = {Elsevier BV}
|
||||||
}
|
}
|
||||||
|
|
||||||
|
@Article{Baker_2016,
|
||||||
|
author = {Baker, Monya},
|
||||||
|
title = {1,500 scientists lift the lid on reproducibility},
|
||||||
|
journal = {Nature},
|
||||||
|
year = 2016,
|
||||||
|
volume = 533,
|
||||||
|
number = 7604,
|
||||||
|
month = {May},
|
||||||
|
pages = {452–454},
|
||||||
|
issn = {1476-4687},
|
||||||
|
doi = {10.1038/533452a},
|
||||||
|
url = {http://dx.doi.org/10.1038/533452a},
|
||||||
|
publisher = {Springer Science and Business Media LLC}
|
||||||
|
}
|
||||||
|
|
||||||
|
@MISC{Stodden13publishingstandards,
|
||||||
|
author = {Victoria Stodden and Jonathan Borwein and David H. Bailey},
|
||||||
|
title = {Publishing Standards for Computational Science: “Setting
|
||||||
|
the Default to Reproducible”},
|
||||||
|
year = 2013
|
||||||
|
}
|
||||||
|
|
Loading…
Reference in New Issue