Big Data - Analyse großer Datenmengen in Echtzeit

"Big Data" ist für viele deutsche Unternehmen ein Begriff geworden. Unklarheit herrscht für viele jedoch noch darüber was und wie sich große Datenmengen hierbei analysieren und auswerten lassen. Generierte Datenmengen im großen Maßstäben sind hierbei nicht relativ zur jeweiligen Unternehmensgröße zu betrachten. Die Frage stellt sich eher nach den Vorteilen die eine Big Data Applikation interessierten Unternehmen bieten kann. Big Data sollte somit interessant für Unternehmen sein die:

  • Große Datenmengen erzeugen
  • Komplexe Datenmengen generieren
  • Dynamische Datenmengen erstellen

und bei denen die Daten analysiert, ausgewertet oder verarbeitet werden sollen. So betrachtet beschäftigt sich "Big Data" mit den Technologien zur Analyse großer strukturierte und unstrukturierter Datenmengen.

Wie können Unternehmen von Big Data profitieren ?

Überall wo wir uns bewegen hinterlassen wir digitale Spuren. Diese Tatsache entsteht schon allein aus der Tatsache, dass überall dort wo wir uns bewegen, das Smartphone in der Regel nicht weit von uns entfernt ist. Somit hinterlassen wir bereits Standortinformationen und viele weitere digitale Spuren, die allesamt über die Server der jeweiligen Netzbetreiber laufen unabhängig davon ob wir dies wollen oder nicht und selbst dann, wenn wir das Smartphone überhaupt nicht aktiv nutzen. Aus der Sicht des Mobilfunk-Providers kann eine Analyse und Auswertung dieser zweifelsohne großen Datenmengen zweckdienlich sein, wenn es darum geht die Servicequlität zu erhöhen, z.B. um eine bessere Netzverfügbarkeit zu gewährleisten. Die Analyse und Auswertung großer Datenmengen befähigt ein Unternehmen dazu komplexe Größen in Relation setzen und liefert somit die Antworten und Schlußfolgerungen auf entsprechende unternehmerische Fragestellungen, die sich durch eine manuelle Analyse aufgrund des hohen zeitlichen Aufwands nicht beantworten ließen.

Deswegen sollte eine entsprechende Big Data Analysesoftware auch über geeignete Schnittstellen zur Visualisierung in den gängigsten Business-Intelligence oder CRM & ERP Anwendungen verfügen.

Big Data im Unternehmen

Große Datenmengen sind relativ. Sie werden in Einzel-Dateien und Gruppen von Dateien erzeugt. Auch entstehen große Dateimengen nicht ausschließlich nur in Großunternehmen. Auch in kleinen- und mittelständischen Unternehmen können große Datenmengen bis hinein in den Big-Data Bereich anfallen. Das Dateivolumen, ab dem man von "Big Data" spricht, beginnt bei:

Datenmengen > 100 Mio. Einträgen oder > 100 GB Datenvolumen

Folgt man unserem zu beginn skizzierten Beispiel vom Mobilfunkbetreiber und projiziert man dieses auf einen produzierenden mittelständischen Betrieb, so ergeben sich zahllose Datenquellen im Big-Data Bereich, von deren Analyse ein Unternehmen profitieren kann. Dies beginnt schon bei der Zeiterfassung beim Zugriff des Unternehmens durch die automatisierte Analyse der Protokolldaten. Protokolldaten, bzw. Log-Protokolle fallen generell an zahllosen Stellen im Unternehmen an. In erster Linie entstehen sie primär im Server- und Clientbereich, jedoch entstehen Log-Protokolle auch an Telefonen oder Telefonanlagen, webbasierten Unternehmensanwendungen sowie jeglicher Form von sensorischen Systemen, wie RFID in der Lagerwirtschaft, durch Kameras, Mikrofone, usw. Große Datenmengen fallen in unterschiedlichsten Branchen an, sei es im Medizin- oder Gesundheitswesen, der Wissenschaft, Finanzwesen oder innerhalb des Ingenieurswesens. Spricht man von Big Data, so spricht man zwangsläufig auch von der Industrie 4.0. Big Data bildet hierbei die Basis für die Echtzeit-Analyse und Kontrolle von komplexen Produktionsabläufen

Strukturiert oder unstrukturiert ? Daten haben Charakter !

Daten- oder Datensätze gibt es sowohl in unstrukturierter, wie auch strukturierter Form. Was sich zunächst einmal wenig dramatisch anhört, stellt jedoch viele Big Data Analyseprogramme und deren Anwender vor Probleme, denn für gewöhnlich sind die meisten Analyseprogramme nicht in der Lage mit unstrukturierten Daten umgehen zu können. Unstrukturierte Daten lassen sich häufig in exportierten Logs- und Protokollen wiederfinden. Zur ordentlichen Analyse müssen diese unstrukturierten Daten eine "Normalisierung" erfahren, da eine automatisierte Analyse andernfalls nicht durchgeführt werden kann. Beispiel für unstrukturierte Daten anhand eines Apache Web-Server Log-Eintrags:

2011-01-10 10:05:03 H0 0.0.0.1 GET

Durch den Normalisierungsprozesses werden die unstrukturierten Daten, in ein strukturiertes und verständliches Format gebracht:

Date
Time
Host name
IP
method

2011-01-10

10:05:03

H0

0.0.0.1

GET

Unsere Analysesoftware LogDrill bewerkstelligt dies mit einer Geschwindigkeit von derzeit 130.000 Zeilen pro Sekunden / CPU-Knoten und filtert danach entsprechende ähnliche Log-Einträge heraus (Je nach Abfrage z.B. identische Hostnamen, Ip-Adressen, etc.). Hierfür ist keine zusätzliche Hardwareanschaffung erforderlich, ein Notebook mit Netzwerkanschluß genügt. 5 Billionen dieser Einträge entsprechen einer Größe von ca. 1 TB und lassen sich durch LogDrill innerhalb einer Sekunde abfragen. Die getätigten Abfragen wiederum lassen sich in der Praxis wie eine Matrix, auf bestimmte wiederkehrende Muster- und Prozesse innerhalb eines Unternehmens legen. Diese wiederkehrenden Prozesse können somit automatisch überwacht und analysiert werden, so z.B. bei Fehllogons oder Netzwerkzugriffen durch Dritte. Sie eignen sich somit nicht nur zur Analyse, sondern auch zum Echtzeit-Monitoring für bestimmte Anwendungsgebiete innerhalb der IT-Sicherheit.

Big Data Analyse mit LogDrill und PetaPylon

Für die Analyse von unstrukturierten und strukturierten Daten bieten wir unseren Kunden zwei Lösungen:

Big Data Echtzeit Analyse von Log-Protokollen - Abbildung des LogDrill Logos

PetaPylon Big Data Warehouse Appliance - Abbildung des PetaPylon Logos

LogDrill

Schnellste und Ressourceneffiziente Analyse unstrukturierter Daten & Normalisierung

PetaPylon

Big Data Warehouse

  • MOLAP Technologie
  • Spezielles und schnelles Text-Processing
  • Cube-basierende Abfragemethodik
  • Abfragen-Export via:
    • CSV, PDF, HTML, DOCX, ZIP oder TXT.
  • Benutzer-Administration
    • Hinzufügen von Benutzern und Rollen
  • Konfigurierbares Dashboard
  • Einfache Bedienung, intuitive Benutzeroberfläche, Drag´n Drop Funktionalität
  • Schnell, sicher und konfigurierbar, sowie preiswert.
  • Hadoop-Technologie
  • Skalierbar, zuverlässig und preiswert
  • Daten-Managementlösung f. ERP, CRM, Business Intelligence
  • SQL-Schnittstelle
  • Analyse von TeraByte-Daten innerhalb weniger Sekunden
    • ETL Engine erlaubt Zugriff auf die aktuellsten Daten mit nur wenigen Sekunden Latenz
  • Big Log Management
  • Sammeln, normalisieren und auswerten im TB/Tag-Bereich
  • Interaktive ad-hoc Analyse & Reporting