Ideas principales de la lectura del libro: “Big Data, análisis de grandes volúmenes”. Capítulo 10 (Joyanes, Luis, 2013).
1
Big Data, análisis de grandes volúmenes
El análisis de datos tiene como objetivo fundamental el estudio de los datos de una
organización con la finalidad de extraer conocimiento de dichos datos y tomar
decisiones correctas y eficientes en beneficio de la mencionada organización.
La analítica de datos (data analytics), según ISACA, “implica los procesos y actividades
diseñados para obtener y evaluar datos para extraer información útil”.
La analítica de Big Data permite los usuarios analizar los datos masivos de las
organizaciones con tamaños desde terabytes hasta petabytes de modo rápido y
económico.
4
Software analítica de datos
Existe una gran variedad de herramientas de software que se utilizan en analítica de
datos. Las técnicas más utilizadas son: realización de consultas e informes (quering y
reporting), visualización, minería de datos, análisis de datos predictivos, lógica difusa,
optimización, streaming de audio, video o fotografía, etcétera.
El análisis de datos se realiza con herramientas de software tradicionales dentro de las
técnicas de analítica avanzada tales como la minería de datos, OLAP, o el análisis
predictivo.
El tratamiento de los grandes volúmenes de datos requiere de las siguientes etapas: adquisiciónorganización de la informaciónanálisis y toma de decisiones.
7
Categorías en análisis de datos
En la era de los grandes volúmenes, podemos considerar cuatro grandes categorías en
análisis de datos: Analítica de datos (analytics) en organizaciones y empresas que analizan datos
tradicionales: transaccionales y operacionales.Analítica Web o analítica del tráfico de datos en un sitio Web. Analítica social o análisis de datos de los medios sociales (blogs, wikis, redes sociales,
RSS…). Analítica móvil en dispositivos móviles con el objeto de analizar los datos que envían,
reciben o transitan en dichos dispositivos.Analítica de Big Data o analítica de los grandes volúmenes de datos.
Los tipos de datos que hoy día manejan las organizaciones son: EstructuradosNo estructuradosSemiestructurados
9
Proveedores de analítica
Proveedores y herramientas de analítica de big data propietarias son: Oracle,
HP Vertica, IBM, Microsoft, Sybase, SAP, SAS, Teradata, Tableau Software,
Kognitio, EMC Greenplum, Google Big Query. Herramientas de software
abierto: Hadoop, R, Apache HBase, Pentaho y Jaspersoft.
10
Infraestructura Big Data
Una solución es desarrollar un sistema completo de código abierto utilizando
el marco de trabajo Hadoop (HDFS y MapReduce), y herramientas tales
Zookeeper, Solr, Sqoop, Hive, HBase, Nagios y Cacti.
Otra solución sería
desarrollar un sistema utilizando herramientas propietarias e inyectores a
Hadoop como puede ser el caso de IBM con las herramientas InfoSphere,
BigInsights e IBM Netezza.
Además de las plataformas anteriores,
proveedores como SAP con su producto HANA, Oracle con Exadata y Exalytics,
entre otros proveedores que ofrecen plataformas muy completas.
13
Almacenamiento de datos
El almacenamiento de datos es un factor enorme y puede requerir que use diversas
tecnologías. En el sistema de Hadoop, se encuentra HBase. Pero algunas compañías utilizan
Cassandra, Neo4j, Netezza, HDFS y otras tecnologías, dependiendo de lo que se necesite.
El sistema de gestión de bases de datos puede considerar a HBase o Cassandra cuando
desee utilizar un sistema de código abierto para analítica de Big Data. En lo que se refiere a
plataformas de almacenes de datos, Netezza es una de las principales tecnologías en la
industria de la analítica y la BI.
La interfaz gráfica de usuario (GUI) se puede realizar con herramientas tales como SPSS
Statistics de IBM, o el lenguaje R de estadísticas o herramientas de minería de datos,
modelado predictivo, aprendizaje de máquina (tales como Apache Mahout) y desarrollo de
algoritmos y modelos complejos, con lenguaje de consulta estructurado tal como Apache
Hive.
La importancia de la Big Data radica en que no sólo permite almacenar y procesar muchos datos, si no que gracias a ella recibir es información es mucho más sencilla.Siempre me asombra mucho como la tecnología va en incremento y lo interesante de ver de que antes se procesaban datos en papel y ahora viajan datos que ni siquiera podemos ver.
|