Add reproducibility subsection

This commit is contained in:
coolneng 2021-07-07 04:50:16 +02:00
parent 5797356adc
commit 93ac95a30a
Signed by: coolneng
GPG Key ID: 9893DA236405AF57
3 changed files with 29 additions and 0 deletions

View File

@ -392,6 +392,13 @@ El entrenamiento del modelo se realiza, a partir de 2 archivos FASTQ, en diferen
9. Obtención de las métricas que miden el rendimiento del modelo 9. Obtención de las métricas que miden el rendimiento del modelo
** Reproducibilidad ** Reproducibilidad
La reproducibilidad de los experimentos en la ciencia es un elemento esencial en el método científico, el cual asegura que una técnica novedosa ofrece resultados verídicos. Actualmente, nos encontramos en un montón de crisis de ésta donde el 70% de los investigadores han fallado al tratar de replicar el estudio de otro científico cite:Baker_2016.
Asimismo, en el ámbito de la informática pocos experimentos computacionales son documentados de forma precisa. Por lo general, no existe un registro del flujo de trabajo, la configuración del /hardware/ y el /software/ del equipo, la configuración de los parámetros o las secuencias de invocación de funciones. El código fuente a menudo se revisa sin dejar constancia de ello. Además de dificultar la reproducibilidad de los resultados, estas prácticas acaban impidiendo la productividad de los propios investigadores cite:Stodden13publishingstandards.
Recientemente, han surgido nuevos enfoques para lidiar con este problema desde el punto de vista de la resolución de dependencias de un proyecto /software/. En este proyecto, usamos el gestor de paquetes Nix cite:inproceedings, para garantizar que los resultados que obtenemos son reproducibles, en cualquier máquina.
* Resultados * Resultados
El algoritmo de /Deep Learning/ fue entrenado con un /dataset/ sintético de las secuencias de la región CDR3 del TCR. En concreto, se generó un dataset de 20,000 secuencias, procedentes de una simulación de secuenciación (reproducida durante 100 iteraciones), de 200 secuencias únicas. Este /dataset/ se proporciona en el repositorio de locimend. El algoritmo de /Deep Learning/ fue entrenado con un /dataset/ sintético de las secuencias de la región CDR3 del TCR. En concreto, se generó un dataset de 20,000 secuencias, procedentes de una simulación de secuenciación (reproducida durante 100 iteraciones), de 200 secuencias únicas. Este /dataset/ se proporciona en el repositorio de locimend.

Binary file not shown.

View File

@ -1420,3 +1420,25 @@
url = {http://dx.doi.org/10.1016/j.matcom.2020.07.011}, url = {http://dx.doi.org/10.1016/j.matcom.2020.07.011},
publisher = {Elsevier BV} publisher = {Elsevier BV}
} }
@Article{Baker_2016,
author = {Baker, Monya},
title = {1,500 scientists lift the lid on reproducibility},
journal = {Nature},
year = 2016,
volume = 533,
number = 7604,
month = {May},
pages = {452454},
issn = {1476-4687},
doi = {10.1038/533452a},
url = {http://dx.doi.org/10.1038/533452a},
publisher = {Springer Science and Business Media LLC}
}
@MISC{Stodden13publishingstandards,
author = {Victoria Stodden and Jonathan Borwein and David H. Bailey},
title = {Publishing Standards for Computational Science: “Setting
the Default to Reproducible”},
year = 2013
}