diff --git a/docs/Summary.org b/docs/Summary.org new file mode 100644 index 0000000..c605565 --- /dev/null +++ b/docs/Summary.org @@ -0,0 +1,44 @@ +#+TITLE: Práctica 1 +#+SUBTITLE: Recuperación de Información +#+AUTHOR: Amin Kasrou Aouam +#+DATE: 2020-10-25 +#+PANDOC_OPTIONS: template:~/.pandoc/templates/eisvogel.latex +#+PANDOC_OPTIONS: listings:t +#+PANDOC_OPTIONS: toc:t +#+PANDOC_METADATA: lang=es +#+PANDOC_METADATA: titlepage:t +#+PANDOC_METADATA: listings-no-page-break:t +#+PANDOC_METADATA: toc-own-page:t +#+PANDOC_METADATA: table-use-row-colors:t +#+PANDOC_METADATA: logo:/home/coolneng/Photos/Logos/UGR.png +* Práctica 1 + +En esta práctica, vamos a obtener información de una serie de documentos usando /Apache Tika/. + +** Ejecución + +Implementamos la práctica usando /Java/ como lenguaje de programación, y /Maven/ como herramienta de gestión del proyecto. + +En el caso que deseemos utilizar /Maven/, debemos ejecutar los siguientes comandos: + +1. Compilar el proyecto + +#+BEGIN_SRC shell +mvn compile +#+END_SRC + +2. Ejecutar el proyecto + +#+BEGIN_SRC shell +mvn exec:java -Dexec.mainClass="org.RI.P1.AnalyzeDirectory" -Dexec.args="data metadata" +#+END_SRC + +Debemos modificar el argumento *metadata* según la salida que deseemos: + +- metadata: obtenemos la información de los archivos (nombre, codificación, tipo) +- links: obtenemos la lista de enlaces de cada archivo +- frequency: se guarda la frecuencia de las palabras de cada documento en un archivo (se encuentran en la carpeta output). + +** Implementación + +Lamentablemente, no hemos podido implementar la funcionalidad del gráfico para comprobar si se cumple la ley de Zipf. Además de ello, nuestro /tokenizer/ no funciona demasiado bien debido al uso de una expresión regular que no toma en cuenta todos los casos. diff --git a/docs/Summary.pdf b/docs/Summary.pdf new file mode 100644 index 0000000..184c4e2 Binary files /dev/null and b/docs/Summary.pdf differ