Commit 26159465 authored by Dr. Daniel Diaz Sánchez's avatar Dr. Daniel Diaz Sánchez
Browse files

Update README.md

parent 98f922c0
......@@ -2,9 +2,7 @@
### Prerequisitos
**Variables de entorno**
Asegúrate de que tienes montado el sistema de la [práctica anterior](https://gitlab.pervasive.it.uc3m.es/distributed-computing-assignements/1-bigdata-hadoop-single-node).
Si lo necesitas, puedes recurrir a la [práctica anterior](https://gitlab.pervasive.it.uc3m.es/distributed-computing-assignements/1-bigdata-hadoop-single-node) para desplegar hadoop. Si guardaste la configuración en tu cuenta, no deberías tardar mucho.
## Análisis del código de WordCount
......@@ -34,10 +32,10 @@ En nuestro caso, recibiremos un `KEYIN` que nos proporciona hadoop, un identific
La ruta del fichero HDFS se lo pasamos al programa vía línea de comandos:
```
bin/hadoop jar wordcount.jar cdist.WordCount /user/cdist/wordcount/texto.txt /user/cdist/wordcount/output
./bin/hadoop jar wordcount.jar cdist.WordCount /user-input/wordcount/texto.txt /user-output
```
Siendo `/user/cdist/wordcount/texto.txt` el fichero de entrada y `/user/cdist/wordcount/output` la ruta donde depositar la salida.
Siendo `/user-input/wordcount/texto.txt` el fichero de entrada y `/user-output` la ruta donde depositar la salida.
La entrada al sistema Hadoop es de tipo
......@@ -313,12 +311,10 @@ En este enlace http://www.gutenberg.org/ebooks/search/?sort_order=downloads pued
Guárdalos en HDFS. Para ello, se procede como antes:
```
bin/hdfs dfs -put AliceInWonderLand.txt /user/cdist/wordcount/AliceInWonderLand.txt
bin/hdfs dfs -ls /user/cdist/wordcount
Found 3 items
-rw-r--r-- 1 cdistuser supergroup 167546 2014-11-05 16:49 /user/cdist/wordcount/AliceInWonderLand.txt
drwxr-xr-x - cdistuser supergroup 0 2014-11-05 16:38 /user/cdist/wordcount/output
-rw-r--r-- 1 cdistuser supergroup 15 2014-11-05 16:36 /user/cdist/wordcount/texto.txt
bin/hdfs dfs -put AliceInWonderLand.txt /user-input/AliceInWonderLand.txt
bin/hdfs dfs -ls /user-input/wordcount/
```
Guárdalos todos de esa forma
......@@ -327,30 +323,29 @@ Guárdalos todos de esa forma
Prueba a contar las palabras de Alice in Wonderland de la siguiente manera:
```
bin/hadoop jar wordcount.jar cdist.WordCount /user/cdist/wordcount/AliceInWonderLand.txt /user/cdist/wordcount/AIWLOutput
bin/hdfs dfs -cat /user/cdist/wordcount/AIWLOutput/*
bin/hadoop jar wordcount.jar cdist.WordCount /user-input/wordcount/AliceInWonderLand.txt /user-output/AIWLOutput
bin/hdfs dfs -cat /user-output/AIWLOutput/*
bin/hdfs dfs -ls /user/cdist/wordcount/AIWLOutput/
Found 2 items
-rw-r--r-- 1 cdistuser supergroup 0 2014-11-05 16:51 /user/cdist/wordcount/AIWLOutput/_SUCCESS
-rw-r--r-- 1 cdistuser supergroup 58593 2014-11-05 16:51 /user/cdist/wordcount/AIWLOutput/part-r-00000
...
bin/hdfs dfs -get /user/cdist/wordcount/AIWLOutput/part-r-00000 alice_output.txt
bin/hdfs dfs -get /user-output/AIWLOutput/part-r-00000 alice_output.txt
```
Comprueba que funciona correctamente
### Cuenta las palabras de todos a la vez
Para ello, guarda todos los libros en un directorio de HDFS común, por ejemplo /user/cdist/wordcount/books
Para ello, guarda todos los libros en un directorio de HDFS común, por ejemplo `/user-input/wordcount/books
O bien, descarga un libro muy grande como http://norvig.com/big.txt (varios libros del proyecto guttemberg unidos)
Para ejecutarlo sobre todos prueba (es posible que en shells como tcsh no funcione bien del todo el segundo comando):
```
bin/hadoop jar wordcount.jar cdist.WordCount /user/cdist/wordcount/books /user/cdist/wordcount/totalOutput
bin/hdfs dfs -cat /user/cdist/wordcount/totalOutput/*
```
bin/hadoop jar wordcount.jar cdist.WordCount /user-input/wordcount/books /user-output/totalOutput
```
Comprueba que funciona correctamente
## Mejoras y análisis de la ejecución
......@@ -369,4 +364,4 @@ word_st.replaceAll("\\p{P}", "");
```
A continuación coloca entre el código trazas de log (usando System.out.println) para ver qué se recibe y qué se hace
Recuerda que cada vez que cambies algo en el código deberás exportar de nuevo el jar.
\ No newline at end of file
Recuerda que cada vez que cambies algo en el código deberás exportar de nuevo el jar.
Supports Markdown
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment