... | @@ -97,4 +97,12 @@ En el fichero etc/hadoop/hdfs-site.xml sustituye la configuración (vacía) por |
... | @@ -97,4 +97,12 @@ En el fichero etc/hadoop/hdfs-site.xml sustituye la configuración (vacía) por |
|
## Principio de funcionamiento
|
|
## Principio de funcionamiento
|
|
--------------------------------
|
|
--------------------------------
|
|
|
|
|
|
Para el desarrollo del proyecto, podemos establecer |
|
Para el desarrollo del proyecto, podemos establecer tres partes bien diferenciadas:
|
|
\ No newline at end of file |
|
|
|
|
|
1. Descarga de tweets: Se encarga de recoger el user timeline de las cuentas de twitter que se encuentren en un fichero que le indiquemos y guardar dichos tweets en la base de datos MongoDB. Finalmente, se exportan los tweets en formato .csv para su posterior funcionamiento.
|
|
|
|
2. Procesamiento de datos: Una vez que tenemos el fichero .csv con el nombre del usuario que publicó el tweet junto con su mensaje, indicaremos las palabras que queremos encontrar dentro de los tweets relacionadas con las empresas y en el momento que se produzca una concidencia se sumarán tantos puntos como valoración tenga el usuario según otro fichero donde se indique. Si el usuario no se encuentra en dicho fichero, se le asignará una puntuación de 1 por defecto.
|
|
|
|
3. Presentación de resultados: Una vez que Hadoop consiga procesar los tweets y obtener todos los puntos en el bloque anterior, se generará un fichero de salida que se procesará para generar un fichero HTML con los resultados que será el que se muestre en pantalla.
|
|
|
|
|
|
|
|
Además, para la ejecución del proyecto se han desarrollado scripts que automatizan el proceso.
|
|
|
|
|
|
|
|
 |