Big Data - Analyse großer Datenmengen in Echtzeit
"Big Data" ist für viele deutsche Unternehmen ein Begriff geworden. Unklarheit herrscht für viele jedoch noch darüber was und wie sich große Datenmengen hierbei analysieren und auswerten lassen. Generierte Datenmengen in großen Maßstäben sind hierbei nicht relativ zur jeweiligen Unternehmensgröße zu betrachten. Die Frage stellt sich eher nach den Vorteilen die eine solche Applikation interessierten Unternehmen bieten kann. Die Analyse großer Datenmengen sollte somit interessant für Unternehmen sein die:
- Große Datenmengen erzeugen
- Komplexe Datenmengen generieren
- Dynamische Datenmengen erstellen
und bei denen die Daten analysiert, ausgewertet oder verarbeitet werden sollen. So betrachtet beschäftigt sich "Big Data" mit den Technologien zur Analyse großer strukturierte und unstrukturierter Datenmengen.
Wie können Unternehmen von Big Data profitieren ?
Überall wo wir uns bewegen hinterlassen wir digitale Spuren. Diese Tatsache entsteht schon allein aus der Tatsache, dass überall dort wo wir uns bewegen, das Smartphone in der Regel nicht weit von uns entfernt ist. Somit hinterlassen wir bereits Standortinformationen und viele weitere digitale Spuren, die allesamt über die Server der jeweiligen Netzbetreiber laufen unabhängig davon, ob wir dies wollen oder nicht und selbst dann, wenn wir das Smartphone überhaupt nicht aktiv nutzen. Aus der Sicht des Mobilfunkproviders kann eine Analyse und Auswertung dieser zweifelsohne großen Datenmengen zweckdienlich sein, wenn es darum geht, die Servicequalität zu erhöhen, z. B. um eine bessere Netzverfügbarkeit zu gewährleisten. Die Analyse und Auswertung großer Datenmengen befähigt ein Unternehmen dazu komplexe Größen in Relation setzen und liefert somit die Antworten und Schlussfolgerungen auf entsprechende unternehmerische Fragestellungen, die sich durch eine manuelle Analyse aufgrund des hohen zeitlichen Aufwands nicht beantworten ließen.
Deswegen sollte eine entsprechende Big Data Analysesoftware auch über geeignete Schnittstellen zur Visualisierung in den gängigsten Business-Intelligence oder CRM & ERP Anwendungen verfügen.
Big Data im Unternehmen
Große Datenmengen sind relativ. Sie werden in Einzel-Dateien und Gruppen von Dateien erzeugt. Auch entstehen große Dateimengen nicht ausschließlich nur in Großunternehmen. Auch in kleinen- und mittelständischen Unternehmen können große Datenmengen anfallen. Das Dateivolumen beginnt bei:
Datenmengen > 100 Mio. Einträgen oder > 100 GB Datenvolumen
Folgt man unserem zu Beginn skizzierten Beispiel vom Mobilfunkbetreiber und projiziert man dieses auf einen produzierenden mittelständischen Betrieb, so ergeben sich zahllose Datenquellen im Big-Data Bereich, von deren Analyse ein Unternehmen profitieren kann. Dies beginnt schon bei der Zeiterfassung beim Zugriff des Unternehmens durch die automatisierte Analyse der Protokolldaten. Protokolldaten, bzw. Log-Protokolle fallen generell an zahllosen Stellen im Unternehmen an.
In erster Linie entstehen sie primär im Server- und Clientbereich, jedoch entstehen Log-Protokolle auch an Telefonen oder Telefonanlagen, webbasierten Unternehmensanwendungen sowie jeglicher Form von sensorischen Systemen, wie RFID in der Lagerwirtschaft, durch Kameras, Mikrofone, usw. Große Datenmengen fallen in unterschiedlichsten Branchen an, sei es im Medizin- oder Gesundheitswesen, der Wissenschaft, Finanzwesen oder innerhalb des Ingenieurswesens. Spricht man von Big Data, so spricht man zwangsläufig auch von der Industrie 4.0. Die Analyse großer Datenmengen bildet hierbei die Basis für die Echtzeit-Analyse und Kontrolle von komplexen Produktionsabläufen.
Die Potentiale sind jedoch noch weitreichender. Zwei der größten Datenquellen in Unternehmen sind Transaktionsdaten. Im Bankenumfeld zählen hierzu z. B. alle anfallenden Daten wie Aktienkurse, Händlerdaten- und Transaktionshistorien und natürlich Sensordaten. Viele dieser Daten stammen hierbei von Geräten die wir zum "Internet der Dinge" (IoT) zählen. Zu diesen Sensordaten kann alles gehören, beginnend von Messdaten die aus Produktionsstraßen unter Verwendung von Robotik stammen, bis hin zu Lokationsdaten von Smartphones oder GPS-Daten, auch die Nutzungsdaten zum Verbrauch von Energie oder Boarding Informationen von Passagieren fallen in diese Kategorie der Sensordaten.
Indem man diese Daten ausliest und anlysiert, lassen sich Trends und Entwicklungen frühzeitig erkennen und entsprechend adressieren. Unternehmen bieten sich hierdurch die Chance, durch die Sammlung und Auswertung dieser Daten, mehr kundenspezifische Dienstleistungen und höhere Effizientpotenziale zu generieren.
Strukturiert oder unstrukturiert ? Daten haben Charakter !
Daten- oder Datensätze gibt es sowohl in unstrukturierter, wie auch strukturierter Form. Was sich zunächst einmal wenig dramatisch anhört, stellt jedoch viele Analyseprogramme und deren Anwender vor Probleme, denn für gewöhnlich sind die meisten Analyseprogramme nicht in der Lage mit unstrukturierten Daten umgehen zu können. Unstrukturierte Daten lassen sich häufig in exportierten Logs- und Protokollen wiederfinden. Zur ordentlichen Analyse müssen diese unstrukturierten Daten eine "Normalisierung" erfahren, da eine automatisierte Analyse andernfalls nicht durchgeführt werden kann. Beispiel für unstrukturierte Daten anhand eines Apache Web-Server Log-Eintrags:
2011-01-10 10:05:03 H0 0.0.0.1 GET
Durch den Normalisierungsprozesses werden die unstrukturierten Daten, in ein strukturiertes und verständliches Format gebracht:
Date
|
Time
|
Host name
|
IP
|
method
|
2011-01-10 |
10:05:03 |
H0 |
0.0.0.1 |
GET |
Unsere Analysesoftware "LogDrill" bewerkstelligt dies mit einer Geschwindigkeit von derzeit 130.000 Zeilen pro Sekunden / CPU-Knoten und filtert danach entsprechende ähnliche Log-Einträge heraus (Je nach Abfrage z.B. identische Hostnamen, Ip-Adressen, etc.). Hierfür ist keine zusätzliche Hardwareanschaffung erforderlich, ein Notebook mit Netzwerkanschluß genügt. 5 Billionen dieser Einträge entsprechen einer Größe von ca. 1 TB und lassen sich durch LogDrill innerhalb einer Sekunde abfragen. Die getätigten Abfragen wiederum lassen sich in der Praxis wie eine Matrix, auf bestimmte wiederkehrende Muster- und Prozesse innerhalb eines Unternehmens legen. Diese wiederkehrenden Prozesse können somit automatisch überwacht und analysiert werden, so z.B. bei Fehllogons oder Netzwerkzugriffen durch Dritte. Sie eignen sich somit nicht nur zur Analyse, sondern auch zum Echtzeit-Monitoring für bestimmte Anwendungsgebiete innerhalb der IT-Sicherheit.
Big Data Analyse mit LogDrill und PetaPylon
Für die Analyse von unstrukturierten und strukturierten Daten bieten wir unseren Kunden zwei Lösungen:
LogDrill Schnellste und Ressourceneffiziente Analyse unstrukturierter Daten & Normalisierung |
PetaPylon Big Data Warehouse |
|
|