2.5 KiB

Raw Blame History

Práctica 1

Práctica 1

Práctica 1

En esta práctica, vamos a obtener información de una serie de documentos usando Apache Tika:

Obtener los metadatos (nombre , tipo, codificación e idioma)
Extraer todos los enlaces que aparecen
Generar un fichero con las ocurrencias de cada término, ordenados de forma descendente
Generar una gráfica con los términos y su ocurrencia

Instalación

Implementamos la práctica usando Java como lenguaje de programación, y Maven como herramienta de gestión del proyecto. No es necesario utilizar esta herramienta, pero nos ofrece una mayor reproducibilidad del proyecto.

En el caso de que deseemos instalar fácilmente todas las dependencias, podemos instalar el gestor de paquetes Nix (compatible con Linux, MacOS y WSL)

Usando Nix

Instalamos Nix:

sh <(curl -L https://nixos.org/nix/install) --daemon

Cambiamos la ruta al directorio del proyecto:

cd P1

Entramos en el entorno de desarrollo reproducible y aislado:

nix-shell

Nix se encargará de resolver las dependencias, podemos dirigirnos directamente a la sección de ejecución.

Sin Nix

En el caso de que no deseemos usar Nix, deberemos instalar las siguientes dependencias en nuestro sistema:

\clearpage

OpenJDK (> 8.0)
Maven
Gnuplot

Ejecución

En el caso que deseemos utilizar Maven, debemos ejecutar los siguientes comandos:

Compilar el proyecto

mvn compile

Ejecutar el proyecto

mvn exec:java -Dexec.mainClass="org.RI.P1.AnalyzeDirectory" -Dexec.args="data metadata"

Debemos modificar el argumento metadata según la salida que deseemos:

metadata: obtenemos la información de los archivos (nombre, codificación, tipo)
links: obtenemos la lista de enlaces de cada archivo
frequency: se guarda la frecuencia de las palabras de cada documento en un archivo (se encuentran en la carpeta output).

2.5 KiB Raw Blame History

Práctica 1

Práctica 1

Instalación

Usando Nix

Sin Nix

Ejecución

Desarrollo

2.5 KiB

Raw Blame History