lunes, 23 de junio de 2014

Analizando datos con Splunk

Una vez instalado Splunk, y cargado el fichero CSV con los datos de creación de empresas del mes de mayo, podemos empezar a analizar resultados, utilizando la función de búsqueda:.


Una búsqueda por "construcci*" nos da 1852 resultados, y pulsando sobre una de las categorizaciones sugeridas, 'codprov', obtenemos las provincias donde se han creado más constructoras:


Estas provincias son, de mayor a menor: Barcelona, Madrid, Málaga, Alicante, Sevilla y Baleares



Pulsando sobre uno de los códigos, filtramos aún más, en el ejemplo, Constructoras creadas en Toledo


Vamos a empezar una nueva búsqueda

Aquí estamos buscando 'restaurantes'. Según vamos escribiendo, Splunk nos propone términos, con el número de ocurrencias de cada uno , y en el lado derecho, una chuleta con los operadores más habituales.
Asi podemos darnos cuenta que no es lo mismo 'restaurante' que 'restaurante.' (acabado con un punto), y que entonces es mejor buscar 'restaurante*' (donde * representa cualquier caracter o caracteres que sigan).


Podemos ver entonces que hay 379 'eventos'  (registros que se corresponden con la búsqueda) y en la parte inferior izquierda, nos sugiere las categorizaciones.


Seleccionamos 'codprov' (código de provincia) y obtenemos esta tabla


En la tabla podemos ver que 1 de cada 4 restaurantes se abren en la provincia de Madrid. Le siguen Baleares, Barcelona, Alicante, Málaga , Las Palmas, Santa Cruz de Tenerife y Valencia (en general sitios turísticos, como es lógico puesto que se acerca el verano).

Seleccionando uno de los códigos provinciales, obtenemos el detalle de las fichas:


Después de estos primeros resultados,  se pueden obtener las primeras conclusiones sobre las ventajas de usar una herramienta como Splunk para analizar los datos:

  • a la hora de buscar, nos va sugiriendo los términos, junto con el número de ocurrencias, lo que facilita mucho la selección
  • nos propone las posibles categorías, indicando también cuántas instancias de cada una, facilita la también clasificación de la información. algunas categorías tienen una sola instancia, otras más de 100, ambos casos son directamente descartables porque no aportan información ninguna.
  • se puede navegar entre los resultados y las categorías utilizando hipervínculos

En resumen obtenemos datos cuantificados, clasificados y ordenados, sin necesidad de saber programación en SQL. Sé que para obtener estos resultados, bastarían un par que queries muy sencillitos, pero la gracia de la herramienta consiste en que a priori no se le ha indicado qué campos son los estructurados, y el análisis realizado permite determinarlos. Y además no todo el mundo sabe programar SQL.

A pesar de las ventajas de utilizar Splunk, todavía no he conseguido la respuesta a mi pregunta: ¿A qué se dedican las empresas que se están creando en España? Es posible que para responder a esta pregunta hagan falta otras herramientas de análisis de datos, como Weka o RapidMiner. Otra opción es utilizar una herramienta que directamente cuente palabras o grupos de palabras encontradas en la actividad, como Terrier o KEA, o incluso una rutina escrita pot mi mismo.
Publicar un comentario