Hadoop et le traitement des Big Data

Le traitement et l’analyse des données représentent un enjeu important pour les entreprises, d’autant que leur nombre (et par conséquent leur volume) ne cesse d’augmenter. Des solutions existent aujourd’hui, comme les solutions ETL pour le chargement des données et les outils de BI reporting pour l’analyse, mais elles trouvent rapidement leurs limites car elles s’adaptent mal aux données non structurées  et ne permettent pas simplement de gérer de grosses volumétries.

Alors, pourquoi Hadoop ?

De nouvelles solutions émergent, plus adaptées à ce type de données et à des recherches éloignées du traitement standard et linéaire que l’on trouve dans SQL. NoSQL, les solutions de traitement « in-memory » ou encore Hadoop sont des pistes de recherche de ces nouvelles solutions qui peuvent être utilisées ensemble pour des traitements différenciés. Elles répondent à des enjeux business très concrets comme par exemple les propositions d’affinités.

big-data

Dans ce contexte, un focus particulier sur Hadoop est donc important.

Hadoop est actuellement utilisé par de nombreux acteurs : Microsoft et son offre Windows Azure ou encore Facebook, qui possède à ce jour le plus grand cluster connu de l’ordre de 40 Pétaoctets. Oracle l’intègre dans son offre « Big Data Appliance ». On peut également citer Yahoo, Amazon, IBM, EMC, Ebay,… Mais elle n’est pas une solution ciblant uniquement les entreprises de grande envergure. Les clients à qui elle s’adresse ont des ressources de calcul disponibles et un besoin important de traitement de données de type Big Data, ce traitement pouvant être différé ; on peut donc citer tous les e-commerçants dont le volume d’affaire est important.

Hadoop est un framework  Java considéré par les acteurs du milieu comme le meilleur outil pour le traitement et l’analyse Big Data à grande échelle et en différé.  Conçue en 2004, open source et gérée par Apache, cette solution s’inspire fortement des produits Google GFS, MapReduce et BigTable. Hadoop comporte deux modules principaux : HDFS pour le stockage et MapReduce pour le traitement des données.

hadoop

Une fois stockées dans un cluster Hadoop, les données non structurées vont pouvoir être recherchées via MapReduce de façon distribuée. Tout l’intérêt de cette solution réside dans sa capacité à être évolutive en termes de stockage et de capacité de recherche en fonction du nombre de nœuds déployés.

Ce framework, en constant développement, profite d’une communauté très active mais comporte encore quelques inconvénients. Son intégration reste assez difficile, et son administration complexe – Hadoop possède son propre langage. D’autres sont en cours de traitement comme le risque d’engorgement au niveau d’un composant d’Hadoop, les risques lors du déploiement car peu ou pas de mécanismes de sécurité. Enfin, il n’y a pas d’outil de BI Reporting identifié pour cette solution et Hadoop ne permet pas le traitement de données en temps réel. Des solutions complémentaires sont donc en cours de développement pour pallier ces faiblesses

Les distributeurs principaux sont Cloudera et Hortonworks.  De nouveaux acteurs arrivent également sur ce marché comme MapR, EMC Greenplum ou DataSax mais peu sont présents en France. D’autres technologies ou produits  de stockage Big Data existent mais la plupart s’appuient sur Hadoop.

Ainsi, Hadoop est une solution émergente, en cours de perfectionnement, mais qui mérite de se faire connaître car elle répond aux problématiques liées à l’émergence des BigData et au besoin sans cesse croissant de leur traitement.

Et aussi

  • 5 novembre 2013 Revue de l’actualité Telecom, IT & Lean Repenser les modes de travail How can we get people more engaged, more productive, and happier at work? Is technology part of the problem – and could it also be part of the solution?  RSA Animate Les limites du télé-travail - Phil Simon Why Face-To-Face Meetings Are Overrated - Jason Fried interview by Inc Visio WebRTC, premières plateformes publiques -  LifeSize, […]
  • 2 juin 2013 Illusion #3 : le programme qui gère la fenêtre s’exécute sur mon PC Avec les deux dernières techniques de déploiement, l’utilisateur ne le sait peut-être pas mais la fenêtre ou le bureau de son PC sont mis à jour par un programme qui tourne en central sur un serveur. Remote Desktop Historiquement la solution traditionnelle consiste à se rappeler que Windows NT (sur lequel sont basés toutes les versions depuis Windows 2000) est un OS […]
  • 20 décembre 2013 Où l’on parle de Dropbox, d’accès Internet… Au fil des réunions, je note dans mon cahier des citations marquantes ou qui interpellent, selon l’expression consacrée. Deux exemples récents.   « on recherche une sorte de Dropbox pour l’entreprise… » C’est la troisième fois en peu de temps que j’entends cette expression dans la bouche d’un DSI ou d’un responsable de solutions de collaboration chez des grands comptes. Force […]