IMAGEN: Ilustración de correlación espuria, mostrando la distribución de los coeficientes máximos de correlación muestra absoluta entre el primero y el cuatro del resto de 800 (en rojo) y 6400 …
Haga clic aquí para obtener más información.
Big Data presenta a los científicos con despliegue de oportunidades, incluyendo, por ejemplo, la posibilidad de descubrir las características heterogéneas de la población que conduce al desarrollo de tratamientos personalizados y servicios altamente individualizados. Pero los conjuntos de datos en constante expansión introducen nuevos desafíos en términos de análisis estadístico, sesgar el muestreo, los costes computacionales, la acumulación de ruido, correlaciones espurias, y los errores de medición.
La era del Big Data – marcado por una explosión del Big Bang-como de información sobre todo, desde patrones de uso de la World Wide Web a los genomas individuales – está siendo impulsado por grandes cantidades de datos de muy alta dimensión o no estructurados, producido y almacenado de forma continua a un costo decreciente.
“En la genómica hemos visto una dramática caída en el precio de la secuenciación del genoma,” Jianqing Fan estado y Han Liu, científicos de la Universidad de Princeton, y Fang Han en la Universidad Johns Hopkins. “Esto también es cierto en otras áreas como el análisis de los medios sociales, imágenes biomédicas, las finanzas de alta frecuencia, análisis de videos de vigilancia y ventas al por menor”, señalan en un artículo titulado “Los retos de análisis Big Data”, publicado en el Beijing- basa journalNational Science Review.
Con el ritmo acelerado de la recolección y análisis de datos, añaden, “los avances científicos son cada vez más impulsado por los datos y los investigadores cada vez más pensar en sí mismos como consumidores de datos.”
Cada vez más conjuntos de datos complejos están surgiendo en las ciencias. En el campo de la genómica, más de 500 000 microarrays ahora están a disposición del público, con cada matriz que contiene decenas de miles de valores de expresión de las moléculas; en ingeniería biomédica, decenas de miles de terabytes de imágenes de resonancia magnética funcional han sido producidos, con cada imagen que contiene más de 50 000 valores de voxel. Masivo de datos y alta dimensión también se están recopilando de los medios de comunicación social, el comercio electrónico, y los videos de vigilancia.
Ampliación de las corrientes de datos de la red social están siendo canalizados y recogidos por Twitter, Facebook, LinkedIn y YouTube. Estos datos, a su vez, está siendo utilizado para predecir las epidemias de gripe, las tendencias del mercado de valores, y los ingresos de taquilla para las películas particulares.
Los medios de comunicación social y de Internet contienen floreciente información sobre las preferencias de los consumidores, los principales indicadores económicos, los ciclos económicos, y los estados económicos y sociales de una sociedad.
“Se prevé que los datos de la red social seguirán explotar y ser explotados para muchas aplicaciones nuevas,” predecir los co-autores del estudio. Las nuevas aplicaciones incluyen servicios de ultra individualizada.
Y en el ámbito de la seguridad en Internet, añaden, “Cuando un ataque a través de la red se lleva a cabo, los datos históricos sobre el tráfico de red puede permitir identificar de manera eficiente el origen y los objetivos del ataque.”
Con Big Data emergiendo de muchas fronteras de la investigación científica y los avances tecnológicos, los investigadores se han centrado en el desarrollo de nuevas infraestructuras y de almacenamiento de datos, métodos computacionales de algoritmos rápidos que son escalables a datos masivos con alta dimensionalidad.
“Esto establece la fertilización cruzada entre diferentes campos, incluyendo estadísticas, optimización y matemáticas aplicadas,” los científicos añaden.
Los tamaños enormes muestras que dan lugar a los grandes datos fundamentalmente desafían la infraestructura informática tradicional.
“En muchas aplicaciones, es necesario analizar los datos a escala de Internet que contienen miles de millones o incluso miles de millones de puntos de datos, lo que hace incluso un pase lineal de todo el conjunto de datos inasequibles”, señalan los investigadores.
El enfoque básico para almacenar y procesar tales datos es dividir y conquistar. La idea es dividir un gran problema en sub-problemas más manejables e independientes. Cada problema sub es abordado en paralelo por diferentes unidades de procesamiento. A pequeña escala, esta estrategia de divide y vencerás se puede aplicar mediante la computación multi-core o grid computing.
En una escala mayor, la manipulación enormes matrices de datos requiere una nueva infraestructura de computación que soporta el almacenamiento de datos y el procesamiento paralelo masivo.
Los investigadores presentes Hadoop como un ejemplo de un software y programación de la infraestructura básica para el procesamiento de grandes volúmenes de datos. Junto con el sistema de archivos distribuido de Hadoop, revisan MapReduce, un modelo de programación para el procesamiento de grandes conjuntos de datos de una manera paralela, el cloud computing, optimización convexa, y algoritmos de proyección al azar, que están diseñados específicamente para satisfacer los retos computacionales de Big Data.
Hadoop es un marco de software basado en Java para la gestión y procesamiento de datos distribuidos. Contiene un conjunto de bibliotecas de código abierto para computación distribuida utilizando el modelo de programación MapReduce y su propio sistema de archivos distribuido llamado HDFS. Hadoop facilita automáticamente la escalabilidad y toma cuidados de la detección y manejo de fallas.
HDFS está diseñado para alojar y proporcionar un acceso de alto rendimiento para grandes conjuntos de datos que se almacenan de forma redundante a través de múltiples máquinas. Se asegura la supervivencia de los grandes datos y alta disponibilidad para las aplicaciones paralelas.
En términos de análisis estadístico, Big Data presenta otra serie de nuevos desafíos. Los investigadores tienden a acumular la mayor cantidad de características de las muestras como sea posible; Como resultado, estas muestras son comúnmente heterogéneo y de alta dimensional.
Alta dimensionalidad trae nuevos problemas, como la acumulación de ruido, correlación espuria, y endogeneidad incidental. Por ejemplo, alta dimensionalidad da lugar a una correlación espuria. En el estudio de la asociación entre cáncer y ciertos factores genómicos y clínicos, podría ser posible que el cáncer de próstata está altamente correlacionado a un gen no relacionado. Sin embargo, una alta correlación podría explicarse por la alta dimensionalidad: En los estudios que incluyen muchas características, que van desde la información genómica para la altura, el peso y el sexo de los alimentos y deportes favoritos, algunas correlaciones altas surgen simplemente por casualidad.