Mostrando entradas con la etiqueta BIGDATA. Mostrar todas las entradas
Mostrando entradas con la etiqueta BIGDATA. Mostrar todas las entradas

12 septiembre 2017

Bilbomática GIS y BigData. Analítica avanzada

Dentro del ámbito del Big Data y de los sistemas GISBilbomática trabaja para el ECDC Centro Europeo para la Prevención y el Control de las Enfermedades , sumando conocimiento en las lineas estrategia de la compañía.

Bilbomática presente en el mundo GIS desde hace mas de 15 años, refuerza el valor añadido que aporta a los clientes, con la unidad de Big Data. Permitiendo utilizar los datos existentes en las empresas y organizaciones, para una mejor toma de decisiones empresariales y de negocio.

Los Servicios que Bilbomática cubre para el Centro Europeo para la Prevención y el Control de las Enfermedades, son:

+ Surveillance Data Manager:


- Support collections of surveillance data from the EU/EEA Member States, and neighboring countries when applicable;

- Perform data validations and support the process of data quality management;

- Define and produce the required outputs based on the collected data together with in house disease experts that support the production of high profile external and internal surveillance  reports and outputs

- Define and execute transformations of historical surveillance data to the TESSy format

- Provide high quality user support for the +/-1000 external TESSy users

- Support the development of Metadata defining new/updated surveillance data collections

- Support the data cleaning process by working with stakeholders on requirements, implementing the cleaning and validation rules and ensuring the best quality for surveillance outputs preparation

+ GIS Data Analyst: 

- Support the process of analysing the user GIS requirements for revision of online surveillance outputs, use specific tools and methods to capture the inputs for the functional GIS requirements

- Analyse and support implementation of mapping components and propose GIS solutions for in-house web applications

- Collect, process and manage the geospatial data as content of the Central Geospatial Repository within the ECDC GIS Infrastructure based on agreed standards and procedures

- Support the design of geospatial databases, implementation and maintenance of their content

- Perform quality control on geospatial data (currency, accuracy, usefulness, quality and completeness)

- Perform SQL Geo database operations, spatial query design and optimization

- Assist in establishing data preparation standards and procedures

- Prepare and update metadata and other technical documentation to support the processing of geospatial data 

- Perform visual exploratory analysis on disease data using web enabled GIS applications, ArcGIS Server and ArcGIS Desktop 

- Perform geospatial analysis using ArcGIS Server and Desktop in order to provide a valuable input for disease monitoring 

- Production of maps to support disease experts with their data analysis and decision-making process 

- Support GIS staff in providing an professional opinion on establishing and applying stable geographic information systems and best practices

+ SAP BO Data Manager:

- Create new universes needed for analyzing surveillance data on several disease or on several areas

- Update and maintain the existing universes, according to new requirements or new data available

- Create reports and outputs using SAP Business Objects BI Suite 4.1 to support the needs of ECDC surveillance activities

- Create reports to be used for data validation and data quality analysis, to support the data cleaning process

- Support improvements in organizing the SAP Business Objects BI Suite 4.1 portal to be used for collaborative analysis, and support ECDC in defining governance associated to the use of this BI solution

- Support the configuration and tunning of SAP Business Objects BI Suite 4.1 tool at ECDC

- Define best practices to be applied for the internal use of SAP Business Objects BI Suite 4.1.

- Ensure a “learning by doing” phase at ECDC, by working closely with other data managers and internal experts, sharing knowledge and ensuring the best use of this BI tool

- Possibly analyze STATA scripts used by internal stakeholders to perform data analysis, and use them to create similar data analysis with this BI tool

- Support and participate in the execution of data validations and data quality checks

- Support the production of expected outputs for our stakeholders

- Support the pilot phase of using the SAP Business Objects BI Suite 4.1 at ECDC; provide feedback on the use of this solution, the added value and possible improvements in regards to the results expected by ECDC

Complementando el ambito de los GIS, con el desarrollo realizado del E3 GEOPORTAL, El European Envornmental Epidemiology (E3) geoportal es una aplicación web de búsqueda y presentación de información geoespacial y no geoespacial incluyendo noticias, proyectos, datos, mapas, etc.



08 mayo 2017

Laboratorio de Analítica Avanzada de Datos - Big Data e inteligencia de negocio.

Dentro del ámbito del laboratorio de Big Data de Bilbomática, hoy os dejamos algunas de las áreas en las que nos encontramos trabajando:

Infraestructuras: Trabajando con clusters y con las configuraciones del servidor Ambari y la integración de NIFI y balanceo de carga con Nginx

SYSLOG:   de Syslog a NIFI y con persistencia en HBase,  Recopilación y Envió  de datos con MiNiFi y balanceo de carga como alternativa a Nginx, mensajería con Kafka, consumo de topics desde Flink y persistencia de datos en HBase desde Flink

HBASE: Trabajando con tablas HBase
desde el Shell y desde aplicaciones Java.

HIVE: desarrolo de Hive en cluster, la persistencia de datos en Hive y el desarrollo de aplicaciones Java para trabajar contra tablas de Hive mediante peticiones REST

Sin olvidarnos de Apache Zeppelin, de la que os dejamos una interesante entrada del Blog Dataminded Apache Zeppelin: Big data prototyping and visualization in no-time :

"Apache Zeppelin: Big data prototyping and visualization in no-time

Lately the name Zeppelin crossed our minds several times. Keeping in mind the daily release of a new big data tool and the mostly disappointing impression you get when diving into those tools, we silently ignored Zeppelin for the time being. After the ongoing encouragement of several colleagues we finally decided to take a look at Apache's latest flying machine: Can it make us fly?



What is Apache Zeppelin?



So what is Apache Zeppelin? Users of IPython notebooks are already familiar with the concept of an interactive web-based computational environment. Apache Zeppelin provides a web-based notebook that enables interactive data analytics. The main focus of Zeppelin strikes data ingestion, discovery, analytics, visualization and collaboration. Though IPython notebooks can also be used to provide data-analytics with Spark, they do not provide the out-of-the box data optimizations that are built into Zeppelin. 

.....

Conclusions

Apache Zeppelin certainly convinced us as a prototyping tool voor (big) data analysis. Besides the on-the-fly available Spark and SqlContext and the ability to mix and match between Scala and Python, the querying features with automatic visualizations are a great pro for instant data exploration. There are still some minor bugs but we believe Zeppelin could become a de facto standard for big data analysis in the near feature. We are certainly curious about your feedback regarding this blog and the tool, have fun with Zeppelin!




" Ofrecemos servicios en Business intelligence y Big Data que permiten alinear las estrategias de los clientes con las tecnologías que las implementan"

24 abril 2017

Las oportunidades de la Cuarta Revolución Industrial - Industria 4.0 -

Hoy recogemos la jornada del pasado 15 de Marzo para conocer las oportunidades de la Cuarta Revolución Industrial - Industria 4.0 -, organizadas por el Centro de Enseñanzas Profesionales Meatze ,  Bilbomatica participo en la Mesa redonda. Emprendizaje, formación y empleo en el sector TIC, con Agustin Teijido, gerente de Goyte Services, Leonardo Portal, responsable Agencia de Colocación y MTZ Developer de Meatze y Luis Alvarez, director de operaciones y responsable RRHH y Calidad de Bilbomática. Coordinador del Grupo de Trabajo de Formación-Captación en GAIAOs dejamos las reseñas a las noticias del evento:

DEIA
"EL coqueto edificio Ilgner de BIC Bizkaia Ezkerraldea fue sede ayer de una Jornada sobre Industria 4.0 organizada por el Centro de de Enseñanzas Profesionales Meatze. Profundizar sobre robótica, desarrollo de videojuegos, la gestión de nuevas tecnologías, la seguridad informática y big data era el objetivo. Tras el agotamiento de las vetas de hierro y la transformación de los altos hornos, la riqueza reside en la minería de datos, la explotación de las galerías del ciberespacio y los pozos virtuales. ...."

Barakaldo Digital
"JORNADA SOBRE LA INDUSTRIA 4.0
Además del congreso Aero Innovation Event 2017, Barakaldo acogió ayer día 15 una jornada titulada ‘Industria 4.0, innovación y empleabilidad’ organizada por el Centro de Enseñanzas profesionales Meatze, con la colaboración de la agencia de desarrollo del Ayuntamiento de Barakaldo, Inguralde, entre otras instituciones.

La jornada mostró, de la mano de expertas y expertos, los retos de la aplicación de las nuevas tecnologías en la industria, así como las necesidades de mano de obra que ya están demandando las empresas para cubrir una nueva tipología de puestos de trabajo ligados a la robótica, la ciberseguridad informática, el desarrollo de videojuegos y la gestión de nuevas tecnologías...."




07 diciembre 2016

Big Data LibreCon 2016 - Zylk Industry 4.0 - Compartiendo la experiencia de proyectos de Big Data

Aprovechando la participación Iñigo Sánchez Méndez de Zylk Industry 4.0 en el Librecon 2016 , donde nos explica junto a Angel Barrio de Euskaltel cómo darle valor a los datos recogidos en tiempo real y apoyándose en herramientas open source. Os dejamos la ponencia "Inteligencia del dato aplicada al negocio de las telecomunicaciones" :





Hemos aprovechado para realizar una entrevista a Gustavo Fernandez  Director Técnico en zylk.net :

En los proyectos de Big Data que has participado, que aspecto reseñarías como importante en el ámbito organizativo (implicación del cliente, infraestructuras, visión tecnológica a medio plazo,...)

Es necesario disponer de un caso de uso que aporte valor en un tiempo corto y que a su vez sea tractor del cambio cultural necesario que estos proyectos deben motivar en la organización. No hay que olvidar que este tipo de proyectos deberían ser algo más que artefactos tecnológicos, ya que conllevan un cambio organizativo y un cambio en los paradigma relacionado con el desarrollo IT. De la mano de estos proyectos de Big Data podría hacerse un plan a largo plazo para introducir el desarrollo ágil el devops etc.. si esto no se hace es probable que esta tipología de proyectos, a medio plazo, no puedan ser gestionados en las organizaciones de tamaño medio/grande. Por esa razón en el equipo de zylk hemos añadido ese tipo de perfiles, que facilitan la incorporación de estas nueva formas de hacer a las organizaciones. Por ejemplo es necesario que las organizaciones, a medio plazo, se planteen la necesidad de la figura del CDO.



Como ves actualmente, el posicionamiento y madurez de las soluciones basadas  en Software Libre para dar respuestas a los nuevos paradigmas en Big Data.


En el mundo de las soluciones de este tipo en la actualidad "o se es software libre o no se es". Es algo que en general ya está pasando con casi todo el software pero que en el mundo del Big Data reside en su propia génesis. O se es software libre o no se es. Son casos claros de este cambio todos los proyectos del ecosistema apache hadoop, o la empresa Hortonworks. Recientemente parte del equipo de zylk se desplazó a la apache europe Big Data (http://events.linuxfoundation.org/events/apache-big-data-europe) y en estas conferencias se podía ver claramente que todos "IBM, Microsoft incluso google" apuestan por los modelos de desarrollo abiertos y con licencias open. Allí también pudimos ver que los grandes consumidores, que a su vez son los grandes contributors, de estas tecnologías también usan las soluciones abiertas. Trivago, Linkedin, Soptify etc...

Todo esto se explica de manera bastante natural si entendemos que los desarrolladores que están contribuyendo al desarrollo de estas tecnologías, no las desarrollan con la finalidad última de desarrollar un software, como hacían las empresas de software privativo, sino que las desarrollan porque el core de sus negocios las necesita. Por esa razón son, y no pude ser de otra manera, desarrollos open en comunidad. Han visto la clara ventaja competitiva que supone el software abierto. Un ejemplo de este fenómeno, aunque no pertenece al mundo de apache, son los desarrollos open de Netflix. Casi todas las empresas que en la actualidad juegan un papel fundamental dentro "internet" liberan código y desarrollan en modelos abiertos. AirBnB, Netflix, Facebook, Twitter etc..  Para ser una empresa cool, antes tenías que tener futbolín (google rules), ahora hay que desarrollar proyectos open. Para mi todo se enmarca dentro de una suerte de, responsabilidad social corporativa, de las empresas que dan forma a internet; y no podría, ni debería, ser de otra manera.

En la Analítica de datos, hasta llegar a obtener las beneficios que para las organizaciones tiene el disponer de modelos predictivos de su negocio, por que fases consideras que hay que pasar?  "El reto de pasar del dato y de la información al modelado del negocio, para ser proactivos "

Bueno, creo que hay que pasar por varias fases, y estas cambian dependiendo de la fase de madurez en la que la organización se encuentre. En cualquier caso, desde zylk creemos que la única forma de afrontar proyectos es siguiendo metodologías ágiles. Hay que definir proyectos que resuelvan problemas de negocio y tiene que estar en producción desde el primer día. Un proyecto que no llega a producción, se marchita, y se queda obsoleto en muy poco tiempo. Esto en cuanto a la visión metodológica. También hay una visión técnica y una visión filosófica de todo esto. Hace poco me leí el libro La salvación de lo bello en el que, en una de sus partes, se reflexiona sobre el concepto de conocimiento, verdad e información (http://www.zylk.net/es/web-2-0/blog/-/blogs/la-salvacion-de-lo-bello). Y por último, desde el punto de vista técnico, creemos que hay que empezar por capturar los datos y disponer de un sistema de procesado en tiempo real y luego ir subiendo hacia las capas de Analítica avanzada y Machine Learning. En cualquier caso todo dependerá del proyecto y de la organización.



Entrando en la parte técnica, y comenzando por la ingesta d información de diferentes fuentes, que definición y característica seleccionarías de Apache Nifi?

Hay varias cosas que destacaría de Apache Nifi, la primera es que para una persona versada en BI clásico los conceptos que maneja son sencillos de aprehender. Por otro lado es una herramienta muy versátil que implementa la mayoría de los patrones necesarios a la hora de implementar un sistema de ingesta omnichannel. Backpresure, circuit break etc... Además dispone de un modelo para despliegue en dispositivos propios de lo que se conoce como IoT (https://nifi.apache.org/minifi/), esto es fundamental para poder desarrollar proyectos Big Data alineados con el "Internet de las cosas"


Habéis implementado Microservicios, que buenas practicas recomendarías:

Hemos usado microservicios siguiendo las buenas prácticas definidas Martin Fowler http://www.martinfowler.com/articles/microservices.html. Las características principales que en nuestro caso nos interesaban eran, la elasticidad, resiliencia, autodiscover y la integración dentro de una plataforma de gestión de recursos. En nuestro caso lo que hemos hecho ha sido usar AVRO IPC + YARN para poder desplegar y desarrollar los microservicios dentro de un cluster típico de hadoop. Lo hemos hecho así para no tener que desplegar un sistema de containers basados Docker con Kubernetes o Mesos o cualquiera de estas soluciones. Lo hemos hecho así porque los microservicios que desarrollamos son necesarios para el tratamiento de los datos y por tanto creíamos que lo mejor era definir una arquitectura de los mismos consistente con la tipología de cluster que desplegamos.


Que planteamiento técnico habéis utilizado para el dimensionamiento y monitorizacion de la carga de los procesos en tiempo real?

Principalmente no perder datos. La idea es que el sistema va a fallar en algún momento, las cosas no siempre funciona y lo principal es evitar el efecto bola de nieve. Por tanto siempre montamos sistemas desacoplados y las llamadas entre los sistemas desacoplados usa el patrón Circuit Breaker (http://martinfowler.com/bliki/CircuitBreaker.html)

Para la monitorización lo que hacemos es integrar los desarrollos realizados con el sistema de monitorización del gestor del cluster, en la mayoría de nuestras implantaciones Ambari (https://ambari.apache.org/)

---------------------------------------------------------------------------

Agradecer a Gustavo Fernandez, a Iñigo Sánchez Méndez  y  Angel Barrio por compartir su experiencia en Big Data.




7M9A0107

23 septiembre 2016

LibreCon 2016. Business and Open Technologies Conference #LibreCon #Bigdata #iot

Hoy recogemos el libreCon 2016, el mayor encuentro internacional promovido por el sector de las tecnologías libres, que se celebrará en el Palacio Euskalduna de Bilbao los días 22 y 23 de noviembre. orientado a aportar soluciones TICs Open Source a los nuevos retos de la Industria 4.0 y el Sector Financiero, contando entre sus organizadores a Zylk.net.

El encuentro es organizado por la Federación Nacional de Empresas de Software Libre, ASOLIF y la Asociación de Empresas de Tecnologías Libres y Conocimiento Abierto de Euskadi, ESLE, se pretende dar visibilidad a las nuevas oportunidades que ofrecen dichas tecnologías en campos como el cloud computing, el análisis del ‘Big Data’ e Internet de las Cosas (IoT), donde las soluciones Open Source suponen un valor diferencial. En total, está previsto que en los dos días del congreso se expongan hasta 120 ponencias y casos de éxito relacionadas con el software libre y el conocimiento abierto en estos campos.

Os dejamos el acceso al programa de las dos jornadas de conferencias, tecnologías abiertas y business case.

"LibreCon 2016 es el punto de encuentro para estar al día con las soluciones tecnológicas más actuales y los servicios más novedosos a través de los case studies de algunas de las empresas más innovadoras en ofrecer soluciones open source.

Una empresa de la talla de BMW apuesta por incorporar tecnología opensource a la inteligencia de sus vehículos. Su cultura empresarial empapa a un sector que mejora sus cifras año tras año

La asiática Samsung es el protagonista mundial del empuje tecnológico en el campo de las TV, smartphones y ecosistema IoT y pioneros en la liberación de open source.

Irizar quiere liderar el futuro del mundo de los autocares y ello pasa por la innovación tecnológica, la servitización y las soluciones integrales para la gestión del transporte. De la mano de Datik, nos presentan su software de seguimiento de flotas de transporte.

A la vanguardia de la transformación digital del sector financiero, el BBVA está apostando por el open banking como manera de innovar y de abrirse a terceros.

Fintonic: Nos acercamos a los nuevos modelos de negocio en el sector financiero a través de la aplicación de referencia en gestión de banca doméstica.

Paypal: La pasarela de pago líder mundial en transacciones es ejemplo de utilización de tecnologías opensource en el nuevo modelo de banca abierta

Ponentes:

Ex-Director General de Innovación de Banco Santander Jose María Fuster CEO de Ecosistemas de Innovación Digitales

CDO de Telefónica Chema Alonso (*) .

Content Project Manager de Samsung Miguel Ángel Peces

CTO de Nimble Payments de BBVA Carmen Cuesta

CEO & Founder de Cripto-Pay Víctor García

CEO de Erle Robotics Carlos Uraga

Co-Founder & CTO de Datik Iñigo Etxabe

CEO & Founder de Fintonic Sergio Chalbaud

--------------------------------------
(*) CDO (Chief Data Officer) In this role Chema Alonso is leading the Big Data, Advertising and Fourth Platform strategy in Telefonica. As part of the work in defining the fourth platform, is also leading the Personal Data Bank team and is the chief internal sponsor for the Data Transparency Lab effort. Also, is responsible for global cyber and data security, creating the new Global Security Unit with the Information Security Global Business in B2B & B2C and Eleven Paths.
--------------------------------------

La 4ª Plataforma:

Telefónica proyecta dar al usuario el control sobre sus datos personales

Unas palabras sobre la "4ª Plataforma" y el negocio de los datos #BigData #Privacidad #Telefonica



--------------------------------------