domingo, 27 de julio de 2014

Visualizar datos de Splunk con Google Maps

Una de las características más interesantes de Splunk es la posibilidad de instalar módulos, o Apps en terminología Splunk. Estos módulos están desarrollados por terceros y amplían las funcionalidades de Splunk.

Entre los módulos más interesantes, he seleccionado el que permite visualizar datos de Splunk utilizando Google Maps.

Google Maps app for Splunk

Este módulo está desarrollado por Siegfried Puchbauer, con una licencia Creative Commons BY-NC-SA.

miércoles, 23 de julio de 2014

Empresas creadas en junio de 2014

Ya está disponible la lista de empresas creadas en junio de 2014 en España. Se trata de un fichero CSV (directamente importable a hoja de cálculo o base de datos) con fecha de publicación, número de borme, razón social, fecha de constitución, descripción de la actividad, dirección postal y código de provincia, de 7.875 empresas de toda España, incluyendo 1.673 de la provincia de Madrid y 1.045 de la provincia de Barcelona.



El directorio de nuevas empresas también se puede consultar online, a través del Buscador móvil de nuevas empresas. Esta aplicación está diseñada para utilizarse en un smartphone o una tablet, y permite realizar búsquedas por nombre de la empresa, descripción de la actividad  o/y dirección postal, y muestra un mapa con la ubicación de cada empresa, mediante Google Maps. Es especialmente útil cuando te encuentras en la calle y quieres saber qué nuevas empresas hay a tu alrededor, dónde están y a qué se dedican.

La lista de nuevas empresas está disponible sin coste, pero para conseguirla tienes que registrarte en la lista de correo, que puedes ver en la columna de la derecha. Los usuarios suscritos a la lista reciben un correo mensual con el enlace para poder descargarse el fichero y un resumen de las entradas publicadas en el último mes.

lunes, 23 de junio de 2014

Analizando datos con Splunk

Una vez instalado Splunk, y cargado el fichero CSV con los datos de creación de empresas del mes de mayo, podemos empezar a analizar resultados, utilizando la función de búsqueda:.


Una búsqueda por "construcci*" nos da 1852 resultados, y pulsando sobre una de las categorizaciones sugeridas, 'codprov', obtenemos las provincias donde se han creado más constructoras:


Estas provincias son, de mayor a menor: Barcelona, Madrid, Málaga, Alicante, Sevilla y Baleares

Pulsando sobre uno de los códigos, filtramos aún más, en el ejemplo, Constructoras creadas en Toledo


Vamos a empezar una nueva búsqueda

Aquí estamos buscando 'restaurantes'. Según vamos escribiendo, Splunk nos propone términos, con el número de ocurrencias de cada uno , y en el lado derecho, una chuleta con los operadores más habituales.
Asi podemos darnos cuenta que no es lo mismo 'restaurante' que 'restaurante.' (acabado con un punto), y que entonces es mejor buscar 'restaurante*' (donde * representa cualquier caracter o caracteres que sigan).


Podemos ver entonces que hay 379 'eventos'  (registros que se corresponden con la búsqueda) y en la parte inferior izquierda, nos sugiere las categorizaciones.


Seleccionamos 'codprov' (código de provincia) y obtenemos esta tabla


En la tabla podemos ver que 1 de cada 4 restaurantes se abren en la provincia de Madrid. Le siguen Baleares, Barcelona, Alicante, Málaga , Las Palmas, Santa Cruz de Tenerife y Valencia (en general sitios turísticos, como es lógico puesto que se acerca el verano).

Seleccionando uno de los códigos provinciales, obtenemos el detalle de las fichas:


Después de estos primeros resultados,  se pueden obtener las primeras conclusiones sobre las ventajas de usar una herramienta como Splunk para analizar los datos:

  • a la hora de buscar, nos va sugiriendo los términos, junto con el número de ocurrencias, lo que facilita mucho la selección
  • nos propone las posibles categorías, indicando también cuántas instancias de cada una, facilita la también clasificación de la información. algunas categorías tienen una sola instancia, otras más de 100, ambos casos son directamente descartables porque no aportan información ninguna.
  • se puede navegar entre los resultados y las categorías utilizando hipervínculos

En resumen obtenemos datos cuantificados, clasificados y ordenados, sin necesidad de saber programación en SQL. Sé que para obtener estos resultados, bastarían un par que queries muy sencillitos, pero la gracia de la herramienta consiste en que a priori no se le ha indicado qué campos son los estructurados, y el análisis realizado permite determinarlos. Y además no todo el mundo sabe programar SQL.

A pesar de las ventajas de utilizar Splunk, todavía no he conseguido la respuesta a mi pregunta: ¿A qué se dedican las empresas que se están creando en España? Es posible que para responder a esta pregunta hagan falta otras herramientas de análisis de datos, como Weka o RapidMiner. Otra opción es utilizar una herramienta que directamente cuente palabras o grupos de palabras encontradas en la actividad, como Terrier o KEA, o incluso una rutina escrita pot mi mismo.

sábado, 21 de junio de 2014

Instalando Splunk en Windows XP

Como comentaba el otro día, estoy explorando aplicaciones de BigData utilizando Splunk.Para instalar Splunk, basta ir a la página web y buscar la descarga, está disponible para múltiples sistemas operativos, desde Windows Vista a Solaris, pasando por Linux y OS X. Aunque entre los sistemas operativos Windows que soporta no figura Windows XP, se puede elegir el paquete de Windows de 32-bit e instalar  través del fichero MSI:


jueves, 19 de junio de 2014

Explorando Big Data con Splunk

Si trabajas en infraestructuras de informática, probablemente utilizas o has oído hablar de Splunk, una aplicación que analiza los ficheros log para detectar eventos, encontrar patrones, disparar alarmas y descubrir tendencias. Pero el uso de Splunk puede ir mucho más allá de analizar los logs de los servidores,y utilizarse como una herramienta para explorar Big Data.Incluso hay un producto llamado Hunk que enlaza Splunk con la herramienta de Big Data más popular, Hadoop, con el fin de facilitar el análisis de los datos.

domingo, 15 de junio de 2014

Empresas creadas en mayo de 2014

Ya está disponible la lista de empresas creadas en mayo de 2014 en España. Esta lista de nuevas empresas se suministra como un fichero CSV con fecha de publicación, número de borme, razón social, fecha de constitución, descripción de la actividad, dirección postal y código de provincia, de 8.117 empresas de toda España, incluyendo 1.624 de la provincia de Madrid y 1.212 de la provincia de Barcelona.

El directorio de nuevas empresas se puede consultar online, a través del Buscador móvil de nuevas empresas. Esta aplicación está pensada para ser utilizada desde un smartphone o una tablet, y permite realizar búsquedas por nombre de la empresa, descripción de la actividad  o/y dirección postal, y muestra un mapa con la ubicación de cada empresa, mediante Google Maps.

Para poder descargarte la lista de nuevas empresas tienes que registrarte en la lista de correo, que puedes ver en la columna de la derecha. Los usuarios suscritos a la lista reciben un correo mensual con el enlace para poder descargarse el fichero

domingo, 25 de mayo de 2014

Servicio de normalización de direcciones

Como comentaba en una entrada anterior, es frecuente encontrar direcciones que los navegadores, como Google Maps, no interpretan correctamente. En algunas ocasiones, encontraremos un mensaje de dirección no encontrada, en otros casos directamente nos indicarán una dirección errónea.

Basándome en el trabajo realizado para mejorar la calidad de las direcciones de empresas publicadas en el BORME, he decidido ofrecer un servicio de normalización y enriquecimiento de direcciones.

Prueba gratuita de normalización de direcciones postales

Si quieres probar este servicio, envíame un fichero de texto, con hasta 100 direcciones, con la siguiente estructura:

         calle número (localidad)

El fichero de vuelta contendrá la siguiente estructura:

  • dirección original
  • dirección normalizada
  • distrito postal
  • longitud y latitud
  • calidad de la dirección


Un ejemplo. Me envías un fichero con este contenido:

"Doctor Esquerdo 6 (Madrid)"
"C/ PORTA DE LA MAR 4 (GANDIA)"

Te devuelvo un fichero con este otro contenido:

"Doctor Esquerdo 6 (Madrid)","Calle Doctor Esquerdo, 6, 28028 Madrid, Spain", "28028","40.4267152,-3.6688094", "1"
"C/ PORTA DE LA MAR 4 (GANDIA)","Carrer de la Porta de la Mar, 4, 46701 Gandía, Valencia, Spain", "46701","38.975847,-0.1730542", "1"

Ventajas de la normalización de direcciones

Las ventajas de este servicio:

  • dirección normalizada, incluyendo nomenclatura de la vía (Calle, Avenida, Carrer, etc.), menor índice de correspondencia devuelto
  • código postal identificado, posibilidad de realizar análisis geográfico
  • obtención de coordenadas geográficas, localización para GPS y para optimizadores de rutas
  • calidad de dirección (si no se ha identificado exactamente, se indica). Mi experiencia es que un 75% de las direcciones se identifica con suficiente calidad. A veces hay dificultades con ciertas direcciones, como polígonos, urbanizaciones, carreteras, etc.


Notas:

  • Si no puedes enviarme el formato indicado, envíamelo como lo tengas y veré qué puedo hacer
  • Sólo se admiten direcciones de España
  • En ningún caso usare los datos que me envíes para otro fin que devolverte un fichero con direcciones normalizadas y obtener estadísticas de calidad de direcciones.


¿Quieres probarlo? Envíame tu fichero en formato texto (ASCII, CSV) a normalizacion at gvsoft.com, y en un plazo de 72 horas te devolveré las direcciones normalizadas.