Einfach ausgedrückt, kann man sich unter "Hadoop" eine Kollektion von Open Source Programmen und Prozessen vorstellen. Open Source bedeutet in diesem Zusammenhang, dass diese Programme für jeden frei erhältlich und modifizierbar sind (bis auf einige Ausnahmen) und die jeder prinzipiell als Grundgerüst für die Auswertung großer Datenströme einsetzen kann.
Modularität bildet das Grundgerüst von Hadoop. Jedes dieser Module erfüllt hierbei bestimmte Teilaufgaben der Big Data Analyse.
Das "Distributed Filesystem" von Hadoop, erlaubt die Speicherung der Daten in einem einfach zuzugreifenden Datenformat über eine große Anzahl von unterschiedlichen Speichergeräten. Hiervon profitiert später das Modul "MapReduce", welches die grundlegenden Funktionen beinhaltet um auf diese Daten / Datenbanken gleich zugreifen und auswerten zu können. Unter dem Begriff "Dateisystem / Filesystem" versteht man die Datenorganisation die ein Computer-System verwendet um Daten speichern, auf diese zugreifen oder diese Nutzen zu können. Üblicherweise regelt dies das jeweilige Betriebssystem wie Windwos (NTFS) oder Linux (Reiser FS oder ext). Bei einem Hadoop System, welches über ein eigenes Dateisystemi verfügt, ist die hierarchische Anordnung anders. Hierbei sitzt die "Organisationshoheit" der Daten über der des Betriebssystems auf dem Hadoop ausgeführt wird. Hierdurch lässt sich Hadoop auf jedem Computer ausführen, bei dem das Betriebssystem seitens Hadoop unterstützt wird.
MapReduce wurde nach zwei Haupteigenschaften benannt, die das Modul in sich trägt. Das Auslesen von Daten aus Datenbanken sowie die Anordnung von Daten in ein strukturiertes Format zur Datenanalyse, auch "Map oder Mapping" genannt. Eine weitere Aufgabe des Moduls ist die Ausführung von mathematischen Operationen wie z.B. zählen von bestimmten Datenfeldern innerhalb einer Datenbank.
Hadoop Common, liefert die entsprechenden benutzerseitigen Java-Tools die erforderlich sind um die gespeicherten Daten innerhalb des Hadoop-Dateisystems darstellen zu können.
Beim 4. Modul handelt es sich um "YARN", welches für das Management und die Ressourcenverteilung bei verteilten Datenspeichern und der Analyse und Auswertung dieser zuständig ist.
Es gibt noch eine Vielzahl an weiteren Prozessen, Programm-Bibliotheken oder zustätzlichen Funktionen innerhalb des Hadoop-Frameworks. Bei diesen hier vorgestellten vier Modulen handelt es sich jedoch um die Varianten, die sich im Zuge der Zeit als die Basis-Module etabliert haben.
Die Entwicklung von Hadoop wurde durch Software-Entwickler angestossen die eine Plattform schaffen wollten um Daten innerhalb verteilter Datenbanken auf verteilten Speichersystemen speichern und auswerten zu können. Und dies in einer ähnlichen Art und Weise wie man es von einem einzelnen Datenträger, z.B. einer externen Festplatte her kennt.
Diese Notwendigkeit beruht auf einem Paradigmenwechsel bei der generellen Speicherung von Daten. Zwar wurden physikalische Datenspeicher wie Festplatten im Zuge der Entwicklung immer größer, die Datenzugriffszeit blieb hierbei jedoch größtenteils unverändert. Die Folge hieraus ist die Entwicklung zur verteilten Speicherung von Daten, da die Zugriffszeit bei großen Datenmengen auf verteilten Speichersystemen kürzer ist, als der Zugriff auf die gleiche Datenmenge aus nur einer Datenquelle.
Hadoop wurde im Jahr 2005 seitens der Apache Software Foundation erstmals vorgestellt. Der Name "Apache" basiert hierbei auf einem Spielzeugelefanten des Sohnes einer der Firmengründer.
Der flexible Architektur von Hadoop bedeutet für Unternehmen, dass sie Ihre Datensysteme frei skalieren können, je nach Anforderungen und nach unternehmerischen Bedürfnissen.
Heutzutage ist es gängige Praxis unterschiedliche Systeme zur Datenspeicherung von unterschiedlichen Herstellern einzusetzen und diese Systeme untereinander zu verbinden. Im Gegensatz zu teuren maßgeschneiderten System lassen sich hierdurch deutliche wirtschaftliche Vorteile erzielen.
Dennoch ist Hadoop keine "Out of the box" Softwarelösung die alle Anforderungen und Bedingungen auf Knopfdruck erfüllt. Hadoop ist ein komplexes System, selbst für IT-Cracks, denn es ist erforderlich das Hadoop Framework auf die jeweiligen Gegebenheiten für den jeweiligen Einsatzzweck und deren spezifischen Bedingungen und Abhängigkeiten optimal einzustellen, abfragetechnisch und analytisch. Aus diesem Grund gibt es viele kommerzielle Lösungen die die jeweiligen Anforderungen des Kunden adressieren. In Falle von KUERT sind dies unsere Lösungen LogDrill und PetaPylon, die beide auf dem Hadoop Framework beruhen, bei denen wir jedoch bspw. spezifische Programmkomponenten des Frameworks, mittels CUBE und inMemory Technologie auf eine wesentlich höheren Analysegeschwindigkeit optimiert haben.
Interessiert, wie wir auch Ihr Unternehmen sicherer und effektiver gestalten können ? Wir beraten Sie gerne telefonisch unter :
Tel. 0234 - 962 90 390.
Oder stellen Sie uns einfach hier direkt Ihre Frage: