Mostrando entradas con la etiqueta #bigdata #iot. Mostrar todas las entradas
Mostrando entradas con la etiqueta #bigdata #iot. Mostrar todas las entradas

19 febrero 2018

No hay mejor andar que no parar, HADOOP 3.0

Aprovechando la jornada de trabajo con Felipe Haynes y Raú Marín de Hortonworks y  David Olmos y Gustavo Fernández de Zylk. Os dejamos un pequeño articulo sobre la nueva versión de Hadoop 3.0 .
Recordar que Zylk y Hortonworks realizan el próximo 15 de marzo en el Hotel NH Collection Villa de Bilbao un evento con conferencias, networking y casos de éxito de la utilización del Big Data 




Principales diferencias entre  HADOOP 2.0 y 3.0 :

CARACTERÍSTICA
HADOOP 2.x
HADOOP 3.x
Versión Java mínima soportada
java 7
java 8
Esquema de almacenamiento
Usa un esquema de replica que multiplica x3 el espacio de almacenamiento.
Soporta erasure coding(1) en HDFS reduciendo el espacio de almacenamiento.
Tolerancia a fallos
Puede manejarse mediante la replicación (que es un desperdicio de espacio).
Puede manejarse mediante erasure coding ofreciendo el mismo nivel de tolerancia a fallos pero con una considerable reducción de espacio de almacenamiento.
Storage Overhead
(Sobrecarga del espacio de almacenamiento)
HDFS tiene una sobrecarga del 200% en el espacio de almacenamiento, ya que hace copias al 100% de los datos (el factor de réplica mínimo y por defecto en Hadoop 2 es de 3) los cuáles, en la mayoría de las ocasiones, no son usados . Por ejemplo: Si hay 6 bloques, habrá 18 bloques ocupados debido al esquema de replicación.
Con el  erasure coding   en Hadoop 3, si hay 6 bloques de datos, ocupará un espacio de 9 bloques - 6 bloques de datos y 3 para la paridad - lo que conlleva una menor sobrecarga de almacenamiento. El resultado final: en lugar de necesitar multiplicar por 3 el almacenamiento, el método de almacenamiento de erasure coding tendrá una sobrecarga de 1.5x, manteniendo el mismo nivel de recuperación de datos. Reduce a la mitad el costo de almacenamiento de HDFS a la vez que conserva la durabilidad de los datos. La sobrecarga de almacenamiento se puede reducir de 200% a 50%. Además, se beneficia de un ahorro de costes en infraestructuras.
YARN Timeline Service
Utiliza un viejo timeline service que tiene problemas de escalabilidad.
Mejora el timeline service v2 y mejora la escalabilidad y la confiabilidad del mismo.
Rango de puertos por defecto
En Hadoop 2.0, algunos puertos predeterminados son del rango de puertos efímeros(2) de Linux (32768-61000). Por lo tanto, en el momento de la puesta en marcha, pueden  fallar al conectarse al entrar en conflicto con otras aplicaciones.
En Hadoop 3.0 estos puertos se han movido fuera del rango efímero.
Sistemas de ficheros compatibles
  • HDFS (Sistema de ficheros por defecto)
  • Sistema de archivos FTP: almacena todos sus datos en servidores FTP accesibles remotamente
  • Sistema de archivos Amazon S3 (Simple Storage Service)
  • Sistema de archivos Windows Azure Storage Blobs (WASB).
Es compatible con todos los anteriores, así como con el sistema de archivos Microsoft Azure Data Lake y Aliyun Object Storage System .
Escalabilidad
  • Podemos escalar hasta 10,000 nodos por clúster.
  • Hadoop 2 y Hadoop 1 solo usan un único NameNode para administrar todos los Namespaces.
  • En Hadoop 2 hay  solamente un NameNode en standby
  • Se pueden escalar más de 10.000 nodos por cluster.
  • Hadoop 3 tiene múltiples Namenodes para múltiples Namespaces debido al uso de  NameNode Federation que mejora la escalabilidad.
  • Hadoop 3 soporta múltiples NameNodes en stanby.
Nuevos casos de uso
Hadoop 2 no soporta GPUs (Graphics Processing Unit)
Hadoop 3 permite la programación de recursos adicionales, tales como discos y tarjetas gráficas para una mejor integración. Por ejemplo, el administrador del clúster podría definir recursos como GPU, licencias de software o almacenamiento conectado localmente. Las tareas de YARN se pueden programar según la disponibilidad de estos recursos. Esta característica proporciona la base para admitir GPU en clústeres de Hadoop, lo que mejora un rendimiento de los cálculos necesarios para los casos de uso de Ciencia de datos e Inteligencia Artificial.
Nuevos componentes
El uso de Erasure Coding incluye nuevos componentes en la arquitectura:

  • Namenode Extension (ECManager): reside en el Namenode y coordina toda la tarea de codificación y decodificación.

  • Client Extension (ECClient):es la extensión del cliente HDFS que notifica al ECManager los bloques que faltan y lee los datos reconstruidos por el ECWorker.

  • Datanode Extension (ECWorker): ubicados en los Datanode. Cada vez que se decodifica o codifica un bloque, el ECWorker del Datanode lleva a cabo su cálculo siguiendo las instrucciones enviadas por el ECManager quién le suministra el esquema de codificación.

(1) La funcionalidad HDFS Erasure Coding usa RAID (Redundant Array of Inexpensive Disks). RAID implementa EC utilizando stripping, es decir, almacena los ficheros de manera lógica en forma de bloque (unidad pequeña) y almacena cada bloque en discos diferente. Para cada bloque (celda) se calculará y almacenará la paridad. Esto se llama codificación. Se almacena 1 bloque de paridad por cada 2 bloques de datos. Lo que implica tener un 50% de sobrecarga del espacio de almacenamiento frente al 200% que supone el antiguo replicado con factor 3 del 100% de los datos en Hadoop 2.

(2) Los puertos efímeros son puertos temporales asignados por la pila de IP de una máquina y se asignan dentro de un rango designado de puertos para este propósito. Cuando la conexión finaliza, el puerto efímero está disponible para su reutilización, aunque la mayoría de las pilas IP no reutilizarán ese número de puerto hasta que se haya utilizado todo el conjunto de puertos efímeros. Por lo tanto, si el programa cliente se vuelve a conectar, se le asignará un número de puerto efímero diferente para su lado de la nueva conexión.)


Para más información se puede consultar:


·        How Apache Hadoop 3 Adds Value Over Apache Hadoop 2

·        Apache Hadoop 3.0.0

·        Comparison Between Hadoop 2.x vs Hadoop 3.x 1

·        What’s New in Hadoop 3.0 – Enhancements in Apache Hadoop 3

·        What's new in hadoop 3.0

·        Getting to Know Hadoop 3.0 -Features and Enhancements. Why Hadoop 3.0? What’s New in Hadoop 3.0? Difference between Hadoop 2.x vs. Hadoop 3.x

·        Hadoop 3.0 - Revolution or evolution?



08 mayo 2017

Laboratorio de Analítica Avanzada de Datos - Big Data e inteligencia de negocio.

Dentro del ámbito del laboratorio de Big Data de Bilbomática, hoy os dejamos algunas de las áreas en las que nos encontramos trabajando:

Infraestructuras: Trabajando con clusters y con las configuraciones del servidor Ambari y la integración de NIFI y balanceo de carga con Nginx

SYSLOG:   de Syslog a NIFI y con persistencia en HBase,  Recopilación y Envió  de datos con MiNiFi y balanceo de carga como alternativa a Nginx, mensajería con Kafka, consumo de topics desde Flink y persistencia de datos en HBase desde Flink

HBASE: Trabajando con tablas HBase
desde el Shell y desde aplicaciones Java.

HIVE: desarrolo de Hive en cluster, la persistencia de datos en Hive y el desarrollo de aplicaciones Java para trabajar contra tablas de Hive mediante peticiones REST

Sin olvidarnos de Apache Zeppelin, de la que os dejamos una interesante entrada del Blog Dataminded Apache Zeppelin: Big data prototyping and visualization in no-time :

"Apache Zeppelin: Big data prototyping and visualization in no-time

Lately the name Zeppelin crossed our minds several times. Keeping in mind the daily release of a new big data tool and the mostly disappointing impression you get when diving into those tools, we silently ignored Zeppelin for the time being. After the ongoing encouragement of several colleagues we finally decided to take a look at Apache's latest flying machine: Can it make us fly?



What is Apache Zeppelin?



So what is Apache Zeppelin? Users of IPython notebooks are already familiar with the concept of an interactive web-based computational environment. Apache Zeppelin provides a web-based notebook that enables interactive data analytics. The main focus of Zeppelin strikes data ingestion, discovery, analytics, visualization and collaboration. Though IPython notebooks can also be used to provide data-analytics with Spark, they do not provide the out-of-the box data optimizations that are built into Zeppelin. 

.....

Conclusions

Apache Zeppelin certainly convinced us as a prototyping tool voor (big) data analysis. Besides the on-the-fly available Spark and SqlContext and the ability to mix and match between Scala and Python, the querying features with automatic visualizations are a great pro for instant data exploration. There are still some minor bugs but we believe Zeppelin could become a de facto standard for big data analysis in the near feature. We are certainly curious about your feedback regarding this blog and the tool, have fun with Zeppelin!




" Ofrecemos servicios en Business intelligence y Big Data que permiten alinear las estrategias de los clientes con las tecnologías que las implementan"

23 septiembre 2016

LibreCon 2016. Business and Open Technologies Conference #LibreCon #Bigdata #iot

Hoy recogemos el libreCon 2016, el mayor encuentro internacional promovido por el sector de las tecnologías libres, que se celebrará en el Palacio Euskalduna de Bilbao los días 22 y 23 de noviembre. orientado a aportar soluciones TICs Open Source a los nuevos retos de la Industria 4.0 y el Sector Financiero, contando entre sus organizadores a Zylk.net.

El encuentro es organizado por la Federación Nacional de Empresas de Software Libre, ASOLIF y la Asociación de Empresas de Tecnologías Libres y Conocimiento Abierto de Euskadi, ESLE, se pretende dar visibilidad a las nuevas oportunidades que ofrecen dichas tecnologías en campos como el cloud computing, el análisis del ‘Big Data’ e Internet de las Cosas (IoT), donde las soluciones Open Source suponen un valor diferencial. En total, está previsto que en los dos días del congreso se expongan hasta 120 ponencias y casos de éxito relacionadas con el software libre y el conocimiento abierto en estos campos.

Os dejamos el acceso al programa de las dos jornadas de conferencias, tecnologías abiertas y business case.

"LibreCon 2016 es el punto de encuentro para estar al día con las soluciones tecnológicas más actuales y los servicios más novedosos a través de los case studies de algunas de las empresas más innovadoras en ofrecer soluciones open source.

Una empresa de la talla de BMW apuesta por incorporar tecnología opensource a la inteligencia de sus vehículos. Su cultura empresarial empapa a un sector que mejora sus cifras año tras año

La asiática Samsung es el protagonista mundial del empuje tecnológico en el campo de las TV, smartphones y ecosistema IoT y pioneros en la liberación de open source.

Irizar quiere liderar el futuro del mundo de los autocares y ello pasa por la innovación tecnológica, la servitización y las soluciones integrales para la gestión del transporte. De la mano de Datik, nos presentan su software de seguimiento de flotas de transporte.

A la vanguardia de la transformación digital del sector financiero, el BBVA está apostando por el open banking como manera de innovar y de abrirse a terceros.

Fintonic: Nos acercamos a los nuevos modelos de negocio en el sector financiero a través de la aplicación de referencia en gestión de banca doméstica.

Paypal: La pasarela de pago líder mundial en transacciones es ejemplo de utilización de tecnologías opensource en el nuevo modelo de banca abierta

Ponentes:

Ex-Director General de Innovación de Banco Santander Jose María Fuster CEO de Ecosistemas de Innovación Digitales

CDO de Telefónica Chema Alonso (*) .

Content Project Manager de Samsung Miguel Ángel Peces

CTO de Nimble Payments de BBVA Carmen Cuesta

CEO & Founder de Cripto-Pay Víctor García

CEO de Erle Robotics Carlos Uraga

Co-Founder & CTO de Datik Iñigo Etxabe

CEO & Founder de Fintonic Sergio Chalbaud

--------------------------------------
(*) CDO (Chief Data Officer) In this role Chema Alonso is leading the Big Data, Advertising and Fourth Platform strategy in Telefonica. As part of the work in defining the fourth platform, is also leading the Personal Data Bank team and is the chief internal sponsor for the Data Transparency Lab effort. Also, is responsible for global cyber and data security, creating the new Global Security Unit with the Information Security Global Business in B2B & B2C and Eleven Paths.
--------------------------------------

La 4ª Plataforma:

Telefónica proyecta dar al usuario el control sobre sus datos personales

Unas palabras sobre la "4ª Plataforma" y el negocio de los datos #BigData #Privacidad #Telefonica



--------------------------------------