Definitiver Rundumschlag um das Hadoop-Ökosystem

Das Hadoop-Ökosystem ist im Laufe der Zeit erheblich gewachsen. “Hadoop: The Definitive Guide” bietet einen Überblick über die wichtigsten Themen und Projekte des Frameworks.

Neben einer Erläuterung der Grundlagen von Hadoop, insbesondere HDFS, YARN und MapReduce, werden Erweiterungen, wie z. B. HBase, Spark, Zookeeper, Avro uvwm. ausführlich behandelt.

Hadoop: The Definitive Guide

Um dieses Buch allerdings mit Gewinn lesen zu können, sollte man das MapReduce-Paradigma schon kennen und auch mit Hadoop erste Erfahrungen gesammelt haben. Es ist kein Einsteigerbuch. Es ist allerdings auch kein endgültiges Profibuch, da oft nicht genügend in die Tiefe gegangen wird.

Was ich persönlich vermisse, ist ein Abschnitt “Hadoop in Practice”, in dem über Erfahrungen aus der Praxis berichtet wird. Hier sollten Tipps und “Best Practices” für Betrieb und Entwicklung behandelt werden. Wie sehen übliche Einsatzszenerien aus? Welche Probleme gibt es da? Wie verhalten sich unkomprimierte Dateien in der Regel bei der Performance? Welche Änderungen gibt es, wenn ich Komprimierung verwende? usw.

Denn das Buch liest sich stellenweise wie eine sehr lange Dokumentation. Auch gibt es viele überflüssige Tabellen, wie z. B. die Tabelle aller primitiven Datentypen von Hive. Als Entwickler benutze ich das Buch doch nicht als Referenz, dass kann ich schneller googlen als es im Buch nachzugucken.

Schade finde ich, dass das maschinelle Lernen, z. B. mit Mahout, gar nicht im Buch behandelt wird. Auch das Monitoring von Hadoop wird nur gestreift, hier wäre interessant, wie das z. B. mit Nagios, Ganglia, Puppet, Chef oder Ambari genutzt werden kann. Und heutzutage sollte Containerisierung mit Docker natürlich auch nicht fehlen.

Aber alles in allem ist es ein sehr umfangreiches Buch und mir haben die meisten Stellen gut gefallen, wie z. B. die Behandlung fehlerhafter Daten, Debugging und Profiling in Kapitel 6 oder die genaue Beschreibung des Aufrufs von MapReduce-Jobs in Kapitel 7.

Ich kann das Buch jedem mit den o.g. Grundkenntnissen empfehlen.

  • Tom White
  • Hadoop: The Definitive Guide, 4th ed.
  • O’Reilly
  • 2015

Siehe auch die Renzension bei Amazon.

Anmerkung: Dieser Artikel wurde im November 2016 an das neue Blog-Format angepasst.

 "Using Elasticsearch with Spring Boot - Analyzing the emails with Kibana" "Sehr gute Einführung in Scala"