Viele Trends wie z. B. RFID, Mobile Services oder Social Networks, die sich inden vergangen Jahren am Markt durchsetzen konnten, produzieren in atem-beraubender Geschwindigkeit Datenmassen, die gespeichert und analysiertwerden müssen. Bereits heute werden täglich mehr als 2,5 Terabyte Datengeneriert; dabei zeigt die steil ansteigende Kurve des Datenwachstums,dass 90 Prozent der Daten jünger als zwei Jahre sind. Bestehende Hardwarekonzepte stoßen bei der Datenanalyse an ihre Leistungsgrenzen. Softwareseitig fehlt die Flexibilität, die Unternehmen für die Analyse ihrer Datenbenötigen. Eine Lösung für den Umgang mit diesen Datenvolumina wirddringend benötigt.Dieser Beitrag beleuchtet den Trend Big Data und beschäftigt sich mit denunterschiedlichen Techniken zur Lösungsfindung.
Die Erfassung, Speicherung, Analyse und Visualisierung großer Datenmengen ist mit Hilfevon Standarddatenbanken und Daten-Management-Tools nur noch unzureichend möglich.Nach aktuellen Statistiken verzehnfachen sich die Datenmengen alle fünf Jahre, so dassmittlerweile von einem Datenvolumen in Zettabyte Größe gesprochen wird (Zacher, 2012).Viele Anwender stehen vor der Herausforderung, die wachsenden Datenmengen fortwäh-rend schneller, für immer kompliziertere Abfragen, einer größer werdenden Anzahl vonNutzern bereitzustellen. Der Umgang mit diesen Daten, wie z. B. die Synchronisation mitanderen strukturierten Daten aus Transaktionssystemen, wie ERP-, CRM- oder Datenbankenoder die Ableitung relevanter Informationen in Echtzeit, ist die Aufgabe von Big Data.Ziel dieses Beitrages ist es aufzuzeigen, welchen Problemen entgegen zu wirken ist und welcheMöglichkeiten sich mit dem Einsatz von Big Data eröffnen. Des Weiteren sollen Hard- und Soft-warelösungen aufgezeigt werden, anhand derer Unternehmen die Datenflut bewältigen wollen.Einleitend wird definiert, was man unter Big Data versteht und welche Probleme sichdadurch lösen lassen. Folgend sind Lösungsansätze aufgeführt. Auch Einsatzbereiche undMarktverteilungen von Big Data werden dargestellt. Zum Schluss folgen ein Fazit und Aus-blick in die Zukunft für den Einsatz von Big Data.
Big Data ist eine Spezialisierung aus den Bereichen BI (Business Intelligence) und DW (Data Ware-house); Big Data bietet Methoden und Technologien für die Erfassung, Speicherung und Analysesowohl strukturierter als auch unstrukturierter Daten genau dort, wo klassische analytische Infor-mationssysteme heute an ihre Grenzen stoßen (Keil, 2011), (Bange, 2012). Viele Hardwareanbieterhaben vorhandene Produkte wie Speichersysteme oder Server bereits mit dem Begriff Big Dataversehen (Keil, 2011). Dazu wurden die Verarbeitungsalgorithmen zwecks Erhöhung der Verarbei-tungsgeschwindigkeit und zur Erweiterung der Abfragemöglichkeiten optimiert.
Klassische relationale Datenbanksysteme, sowie Statistik- und Visualisierungstools sind oftnicht in der Lage, derart große Datenmengen zu verarbeiten. Für Big Data kommt dahereine neue Art von Software zum Einsatz, die parallel auf bis zu Tausenden von Prozessorenbeziehungsweise Servern arbeitet (Zacher, 2012).Auf dem Markt finden sich zahlreiche Techniken und Lösungen, mit denen die Informations-flut gehandhabt werden kann. Einige Firmen setzen auf neue Datenbanktechniken, andere ver-suchen die Bearbeitungszeiten mit leistungsstärkerer Hardware zu senken (Zacher, 2012). „Ne-ben klassischem High Performance Computing erweitert der Einsatz von Servern auf Basis vonIndustriestandards und weiteren standardisierten Komponenten sowie ausreichend Bandbreitedas Einsatzpotenzial für die Nutzung großer Datenmengen.“ (Zacher, 2012) Rechenleistung istheute günstig, die Kosten für Arbeitsspeicher fallen und Standardsoftware lässt sich relativ ein-fach in Server-Cluster einbinden. Es existieren aber auch Unternehmen, die beide Techniken kom-binieren, um den größtmöglichen Nutzen zu erzielen; ein Beispiel ist SAP HANA.
Die Entwicklung von Software für die Verarbeitung von Big Data befindet sich noch in einerfrühen Phase. Bekannt ist bereits der MapReduce Ansatz, der in der Open Source SoftwareHadoop, sowie in einigen kommerziellen Produkten wie Aster Data und Greenplum zumEinsatz kommt (Team, 2012). Diese Software hat den Vorteil einer hierfür spezialisiertenDatenbank; sie kann Daten schneller aufnehmen und verarbeiten. Daraus ergibt sich derNachteil, dass sich bestehende relationale Datenbanken allenfalls mit hohem Aufwand indie neue Lösung integrieren lassen.Der Hardwareansatz hat den Vorteil, dass bereits vorhandene Hardware teilweise weiterver-wendet werden kann; hier wird besonders viel Arbeitsspeicher und Rechenleistung benötigt(Zacher, 2012). Die höchste Leistungssteigerung erzielt bei Big Data jedoch die Kombinationaus verteilten Datenbanken- und In-Memory-Systemen.
Auch sehr teure und komplexe Hardwaresysteme kommen nicht ohne eine strukturierendeSoftware aus (Zacher, 2012). Ob Hadoop-Systeme oder NoSQL-Datenbanken, Big Data be-nötigt eine Softwarelösung für eine stringente Verarbeitung der verteilten Daten.Hadoop ist ein in Java entwickeltes Software-Framework, mit dessen Hilfe sich rechen-intensive Prozesse mit großen Datenmengen auf Server-Clustern abarbeiten lassen. Appli-kationen können mit Hadoop komplexe Computing-Aufgaben auf vielen Rechnerknotenverteilen und Datenvolumina im Petabyte-Bereich verarbeiten.NoSQL hingegen ist ein Datenbank-Typus, der von der herkömmlichen relationalenDatenbankstruktur abweicht und auf kein festes Datenbankschema setzt. Somit werdenTabellenverknüpfungen, die viel Rechenzeit beanspruchen, vermieden.
Im Moment ist vielen Unternehmen und Organisationen noch nicht klar, welches Potenzial inBig Data steckt. Studien und Befragungen verdeutlichen dies (Zacher, 2012). Eine Studie vonMcKinsey (Manyika, et al., 2011) zeigt die Möglichkeiten weiterer Einsparungen z. B. in Markt-forschung, Verwaltung und Produktentwicklung. Prognosen zufolge lassen sich mit Big DataLösungen schon innerhalb der ersten Jahre branchenweit Milliarden einsparen (Manyika, et al.,2011).
Aktuell ist Big Data für viele Unternehmen noch ein Schlagwort ohne große Relevanz. Zwarsieht die IT Abteilung die Datenmengen wachsen und gibt ihr Bestes, alle Daten zu spei-chern sowie bereitzustellen. Von der Analyse großer Datenmengen oder der Auswertungaller Daten sind viele aber noch weit entfernt. Wünschenswert und notwendig ist eineStrukturierung des Marktes, da sie Anwendern wie auch Anbietern die Orientierung undPositionierung von Big Data erleichtert. Besondere Potenziale für Big Data sieht McKinsey infolgenden Bereichen: Gesundheitswesen (USA), öffentliche Verwaltung (EU), Einzelhandel(USA), Produktion (weltweit), persönliche Standortdaten (weltweit) (Manyika, et al., 2011).Die ersten Bereiche, die schnell handeln müssen, da die Datenvolumina derzeit signi-fikant ansteigen, sind das Finanzwesen und Social Media (Zacher, 2012).
McKinsey (Manyika, et al., 2011) zeigt in seiner Studie auf, dass sich Big Data fast in je-dem Bereich einsetzen lässt. Statistische Berechnungen lassen sich schneller durchführen, dieMarktforschungsabteilungen können auf die Nachfrage und das Kaufverhalten schneller re-agieren und so eine hohe Überproduktion mit entsprechenden Kosten verhindern. Aber nichtnur die Geschwindigkeit ist ein Argument für Big Data. Ohne Big Data ist eine Auswertungvon Daten nicht möglich, da die Verteilung der Datenmengen auf mehrere und unterschied-liche Datenbanksysteme eine systemübergreifende Analyse nahezu unmöglich macht.
Derzeit kristallisiert sich noch keine marktübergreifende und richtungsweisende Lösung heraus.Vielmehr wird deutlich, dass eine Kombination aus Software und Hardware den besten Lösungs-weg bietet. Durch Einsatz von In-Memory und verteiltes Rechnen werden hardwareseitig Leistungs-sprünge erreicht; neue Softwarelösungen liefern Optimierungen und die benötigte Flexibilität.
Versäumen Unternehmen es, sich frühzeitig genug um Big Data zu kümmern, drohen ihnenhohe Migrationsaufwände, da die neue Technik eine andere Art der Datenstrukturierungerfordert und die entsprechende Überführung mit hohen Aufwänden verbunden ist.Ein weiteres Problem hängt vom Einsatzgebiet des Unternehmens ab. In Branchen, die schnellauf die Marktsituation reagieren müssen oder ad hoc umfangreiche Auswertungen benötigen,kann Big Data entscheidend sein. Bereiche wie z. B. e-Governance oder Logistik können – durcheinen geringeren Personalaufwand und kürzere Bearbeitungszeiten der anfallenden Daten – hoheSummen einsparen und einen Mehrwert für Kunden und Unternehmen schaffen (Zacher, 2012).
„Die größten Argumente aus der Sicht der Anwender gegen den Einsatz von Big Data sindSicherheits- und Datenschutzbedenken.“ (Zacher, 2012) Big Data ermöglicht durch die ein-facher gewordene Analyse von Daten z. B. tiefe Einblicke in Soziale Netzwerke oder das Kon-sumverhalten. Die Auswertung systemübergreifender Daten lässt die Anwender und Konsu-menten gläsern werden. Aber auch technische Herausforderungen wie z. B. Integration oderSchnittstellen, sowie operative Risiken werden als Vorbehalt angegeben (Zacher, 2012).
Fest steht, dass stetig wachsende Datenmengen für immer komplexere Abfragen traditionelleDW- und BI-Lösungen überfordern. Hinzu kommt die Forderung von Unternehmen, auch un-strukturierte Daten, etwa aus der eigenen Web-Präsenz sowie in Social Networks, zu analysie-ren und mit weiteren Daten zu verknüpfen. Big Data ist daher eines der Trendthemen 2012.Durch die immer größer werdenden Datenmengen führt in Zukunft kein Weg an Big Datavorbei. Ob es die Lösung aller Probleme bei der Ausschöpfung von Businessdaten ist, werden Zeitund Erfahrung zeigen. Doch schon jetzt ist die Akzeptanz dieser Systeme deutlich zu merken.Studien von SAS und IDC zeigen, dass heute die größte Akzeptanz in den IT- und Finanz-Abtei-lungen auftritt (Zacher, 2012). Voraussichtlich ist Big Data erst der Anfang. Die Lösungen werdenweiter strukturiert und die Systeme auch den Anwendungsgrößen angepasst. Big Data wird vor-aussichtlich einen ähnlichen Erfolg wie BI- und DW-Systeme erleben (Briody, 2011).
Bange, C. (2012). Big Data – BI der nächsten Generation. Abgerufen am 12. Mai 2012 von Computerwoche: http://www.computerwoche.de/software/bi-ecm/2505617/ Briody, D. (2011). Big data - Harnessing a game-changing asset. USA: Economist Intelligence Unit Limited 2011. Brust, A. (2012). Big Data: Defining its definition. USA: Zdnet. Goodnight, J. (2011). In-Memory Analytics for Big Data. NC 27513-2414, USA: SAS Institute Inc. Jacobsen, A. (2012). Die Macht von Big-Data (http://it-republik.de/jaxenter/artikel/Die-Macht-von-Big-Data-4288.html). 60598 Frankfurt, Deutschland: Software & Support Media GmbH. Keil, D. T. (2011). Anwendungsbereiche für Big Data & Analytics. 69118 Heidelberg, Deutschland: SAS Institute GmbH. Manyika, J., Chui, M., Brown, B., Bughin, J., Dobbs, R., Roxburgh, C., et al. (2011). Big data: The next frontier for innovation, competition, and productivity. USA: McKinsey Global Institute. Martin, W. (2012). Big Data erfordert Big Data Management . BeyeNetwork. Patterson, B. K. (2012). Ethics of Big Data. Sebastopol, CA 95472, USA: O’Reilly Media, Inc. Rogers, S. (2011). Facts are Sacred: The power of data (Guardian Shorts). Amazon. Schulte, I. H. (2012). Big Data – Wie aus Daten ein Wettbewerbsvorteil wird. Deutschland: Handelsbaltt. Taylor, P. (2012). Big Data und die neuen Trends. SAP AG, 69190 Walldorf: SAP. info, SAP AG. Team, O. R. (2012). Big Data Now: Current Perspectives from. Sebastopol, CA 95472, USA: O‘Reilly Radar. Zacher, M. (2012). Whitepaper: Big Data Analytics in Deutschland 2012. Deutschland: IDC.
Eugen Martel
28 Jahre alt und studiert berufsbegleitend im awis Studiengang der FH Mainz. Hauptberuflich ist er bei der Dr.Oetker TKP KG Wittlich als IT Gruppenleiter tätig.
Benedikt Wagner25 Jahre alt und studiert berufsbegleitend im awis Studiengang der FH Mainz. Hauptberuflich ist er bei der BASF SE als Officer Application Engineer tätig.