2015-04-29

Este mes de abril se ha celebrabado en Madrid la primera edición del Big Data Science Fighters, un evento destinado a cubrir varios aspectos del creciente campo del Big Data, y DBi estuvo allí para recoger todos los insights que sus conferenciantes pudieran ofrecernos.

Hoy os traemos un resumen completo del evento.

Inteligencia Artificial como compañero en el análisis

Jaime Requejo (IBM) vino a presentarnos un nuevo enfoque a la analítica descriptiva y predictiva: los sistemas cognitivos aplicados al Big Data. Software capaz de responder a preguntas formuladas por un humano buscando en los datos a los que tiene acceso, planteando alternativas de interés para el analista sobre aquello que estemos explorando, nuevos filtros sobre los que profundizar en el dato estudiado e incluso posibles visualizaciones de esos datos requeridos. En definitiva, un compañero en la exploración de los datos, capaz de ofrecer respuestas, alternativas e incluso analizar los datos allí mostrados (por medio de algoritmos de Machine Learning) y representarlo del modo más conveniente posible.

Esa es la premisa de Watson Analytics, el nuevo sistema de IBM que nos presentó Jaime Requejo; un sistema cognitivo dedicado al análisis de datos, con un claro enfoque al análisis explorativo, visual y directo para el usuario que debe tomar decisiones, sin necesidad de conocer toda la tecnología y la algoritmia subyacente a este proceso. Una propuesta muy interesante, desde luego.

Deja que el dato influencie en la toma de decisiones

Una reflexión sobre el rol del Data Scientist en la obtención de conclusiones para influir en la toma de decisiones. Según Daniel Rodríguez (Teradata), el Data Scientist debe ser capaz de escuchar a las personas, pero fiarse de los datos, entender el dominio y saber extraer las conclusiones pertinentes a la vez que las comunica a modo de historia, del modo más claro posible.

Daniel Rodríguez nos planteó varios ejemplos sobre este proceso, en el que los datos influencian a las personas. Cómo la segmentación de usuarios permitió detectar aquellos más propensos a conversión, optimizando así un Call Center. Cómo la geolocalización y el tiempo de esa medida nos permite calcular la velocidad de desplazamiento de un usuario, e inferir de este modo qué usuarios toman el avión más frecuentemente, segmentándolos de este modo como “viajeros frecuentes”. Cómo, mediante a la geolocalización, de nuevo, podríamos lograr una visualización de la propagación del ébola, y paliar de este modo sus efectos. Entre otros muchos ejemplos.

En definitiva, una muestra del poder del dato, del Big Data y del Data Science para extraer verdadero conocimiento en múltiples ámbitos, desde la empresa hasta nuestra salud.

Cada problema conlleva unos requisitos, que deben condicionar qué arquitectura utilizar para la solución planteada

El Big Data conlleva una serie de problemas en cuanto a procesamiento del dato, y cada caso nos lleva a distintas arquitecturas que pretenden darle solución. Rubén Casado (Treelogic) nos plantea tres de estos problemas

Volumen: la cantidad de datos a tratar puede ser inmensa.

Velocidad: en ocasiones la velocidad de generación del dato provoca la necesidad de un sistema que sepa procesarlo en un tiempo razonable, o incluso ofrecer respuestas en real-time.

Variedad: el conjunto de fuentes de datos con las que trabajamos pueden suponer, y es así en múltiples casos, una heterogeneidad en el dato que hace aún más compleja la tarea.

Frente a la heterogeneidad del dato, se ofrece la posibilidad de las bases de datos NoSQL, pero los otros dos problemas plantean dos arquitecturas (y una híbrida) que pretenden darles solución.

Por una parte, el Batch Processing; procesar grandes volúmenes de información sin implicación del usuario. Basada en la programación distribuida para optimizar el tiempo de procesamiento. ¿El problema? Esta arquitectura está concebida como procesamiento offline, de alta latencia, y por ello no es útil para el real-time. Casado nos muestra varias tecnologías entorno a esta arquitectura, pero destaca, obviamente, a Hadoop como la estrella del Batch Processing.

Por otra parte, el Streaming Processing busca lo contrario, el procesamiento de datos online, en tiempo real, aunque ello conlleve un análisis más superficial. Este paradigma surge como una necesidad en los últimos tiempos, dada la velocidad a la que se crean datos en esta era moderna, y la idea principal es que tanto la recepción como el procesamiento de la información se efectúa de forma continua, en un stream, de modo que podamos obtener resultados con rapidez, o incluso en tiempo real. En esta ocasión, la tecnología estrella para esta arquitectura es Spark, de desarrollo más reciente, pero ya con cierta madurez.

Finalmente, Rubén Casado nos mostró el Hybrid Processing, un nuevo paradigma que busca unir ambas arquitecturas bajo un mismo paradigma de programación, aprovechando lo mejor de cada parte al mismo tiempo. Actualmente, destacan las arquitecturas Lambda y Kappa, aunque son relativamente jóvenes.

El dato nos debe llevar a un nuevo modelo donde cliente y negocio se beneficien mutuamente

Josep Curto (Delfos Research) nos invitó a una reflexión más que interesante sobre la naturaleza de los negocios analíticos: cuales pueden ser sus actividades, cual nuestra propuesta de valor, en qué tipo de cliente centrarnos… Una charla con mucha sustancia y muchas reflexiones interesantes.

Comenzaba advirtiendo sobre los peligros de basar nuestro negocio en datos de terceros, pues estaríamos dejando nuestro principal activo en manos de un ente ajeno, y con ello podríamos poner en riesgo la estabilidad de nuestro negocio. Afirmaba, además, que la ventaja competitiva basada en datos de terceros es siempre replicable y temporal.

Su propuesta era trabajar el dato, enriquecerlo, de modo que el mismo modelo de negocio ya aporte un valor sobre el mismo y hacerlo, de este modo, propiedad nuestra. Además, recomienda aprovechar la posesión del dato para mejorar el servicio sobre el de la competencia, ganando de este modo ventaja competitiva. Esta ventaja, no obstante, debe partir de un modelo vivo, no estático, porque de otro modo los competidores acabarían replicándolo.

Planteó lo siguiente: ¿cómo generar valor con el dato? Ante esta pregunta surgen dos posibilidades: optimizar el negocio con la información obtenida o bien tratar de innovar, replantearte las bases del negocio, ver cómo tu producto afecta a los consumidores (basándonos, obviamente, en los datos) y generar con ello nuevos productos, o modificaciones del existente, que beneficien al consumidor. Buscar, en definitiva, un carácter más experimental para el negocio.
Para Josep Curto, es muy importante que el cliente quiera utilizar ese producto, conceder sus datos y su comportamiento a cambio de un mejor servicio. Pone de ejemplo las pulseras o camisetas con sensores biométricos para optimizar nuestro entrenamiento físico y nuestros hábitos, en busca de un estilo de vida saludable. Es decir, la creación de valor para el cliente a cambio de concedernos ese dato, no quedarnos simplemente en la monitorización. En resumen, buscar una relación negocio-cliente de beneficio mutuo a través del dato.

La charla acabó con un breve resumen de un estudio actual de Cambridge sobre los modelos de negocio analítico: A Taxonomy of Data-Drive Business Models used by Start-up Firms.

Una visión general de todas las innovaciones en torno al dato de los últimos tiempos

Una mastodóntica presentación del estado actual de los sensores, la robótica, el movimiento Maker, Internet de las cosas y el Big Data. Una visión divulgativa sobre todos estos aspectos, presentando varias empresas, muchos hitos logrados y las personas relevantes (varios españoles) de cada sector.

Según Soraya Paniagua (periodista independiente), el reciente auge del Big Data surge como consecuencia de la confluencia de revoluciones en torno al dato y el Open Source que ha generado un estallido de innovaciones. Esto se ha producido, en su opinión, debido a la bajada de precios, a los dispositivos móviles y a la tecnología en la nube.

Nos habló de sensores, de cómo el abaratamiento de los mismos y la gran innovación en torno a ellos ha provocado un gran auge en su uso, generando con ello inmensas cantidades de datos.

Nos presentó Arduino, el principal causante de la explosión del Hardware Libre. Un microcontrolador con un entorno de desarrollo de libre acceso y muy económico que ha permitido su uso por el ciudadano de a pie para crear todo tipo de innovaciones, generando, asimismo, el movimiento Maker en el proceso.

Nos habló de cómo estos desarrollos libres, que han permitido el uso y su expansión con total libertad, han logrado grandes innovaciones: impresoras 3D (el proyecto Rep Rap), Raspberry Pi (microcontroladores programados con Python), el proyecto Ara de Google (smartphones construibles y modificables por módulos) y un larguísimo etcétera.

La verdad, una lástima que no hubiera tenido más tiempo, puesto que nos traía muchísimo contenido y sólo pudimos echarle un rapidísimo vistazo. Recomiendo echar un ojo a su trabajo.

La visualización es una herramienta esencial de todo proceso de análisis

Carlos Gámez (20Minutos) nos trajo una breve exposición de la necesidad de la visualización para comunicar las conclusiones del dato, o para explorar la información escondida en él. Hoy día tenemos demasiada información, y para ello necesitamos la visualización, para compactarla y explicarla mejor. A fin de cuentas, está demostrado que la información que recibe el ser humano por medio visual nos lleva a un mejor entendimiento e interiorización.
La charla estaba dirigida por varios ejemplos de visualización, y os incluyo aquí algunos de ellos.

Una de las primeras, era una representación del número de unidades del ejército de Napoleón que marcharon a la conquista de Rusia para visualizar las pérdidas humanas en cada etapa del viaje y cuantos, finalmente, llegaron a París en retirada. Un referente en el mundo de la visualización del francés Charles Minard.

Una de las obras de arte del mundillo: muertes por bala en Estados Unidos en 2010 y tiempo de vida esperado perdido por dicha muerte: infografía.

O una clara demostración de la visualización como generación de historias en torno al dato para hacer más entendible la información: vídeo.

Utilicemos el dato para responder a preguntas de negocio

Marcelo Soria (BBVA) nos trajo una presentación destinada a mostrar cómo el dato, bien analizado, puede darnos verdadera información que nos ayude a tomar decisiones. Afirma que este nuevo mundo digital nos trae formas más fáciles, baratas y eficientes de obtener datos, y son una fuente de información que no podemos obviar.
Nos mostró el ejemplo de cómo trackeando el uso de la tarjeta de crédito de los clientes (de forma anónima) podemos obtener métricas e insights sobre el correcto funcionamiento de un negocio y la viabilidad de la financiación del mismo por parte de un banco.

También nos trajo un ejemplo de visualización de este mismo dato: el mapa de Madrid, con los puntos donde se aceptan tarjetas y líneas con el uso de las mismas a lo largo de la ciudad, pintadas de un color u otro en función de la edad del usuario. Esto nos permite, por ejemplo, analizar las zonas más visitadas por cada grupo, y podríamos replicar este esquema a cualquier otra ciudad.

Nuevo ejemplo: visualización del mapa de España y el uso de la tarjeta en función del tipo de transacción (gasolinera, restaurante…) durante los días de Semana Santa. Una clara muestra de los comportamientos de la población durante los distintos días de vacaciones, de las comunidades con mayor afluencia y de los desplazamientos efectuados entre los centros de población.

En definitiva, Marcelo Soria ve la visualización como una herramienta para el análisis, y el análisis como una herramienta destinada a responder preguntas del negocio.

Terminó la charla anunciando la apertura de una API de datos agrupados y anonimizados del uso de la tarjeta de sus clientes, para España y México, y de uso libre. Una nueva fuente de datos de gran interés para muchos proyectos, y que desde luego merece un buen vistazo.

Hasta aquí la crónica del del primer Big Data Science Fighters.

La entrada Big Data Science Fighters [Crónica] aparece primero en DBI.

Web-analytics.es

Big Data Science Fighters [Crónica]