Big Data

IT - Kurs / Seminar / Schulung / Workshop / Training

Big Data-Kurs/Schulung

Der Begriff wurde Anfang der 1990er Jahren eingeführt. BigData umfasst normalerweise Datensätze mit Größen, die über die Fähigkeit gängiger Datenbanken und Softwaretools hinausgehen um Daten innerhalb einer tolerierbaren Zeit zu verarbeiten. Die BigData-Philosophie umfasst strukturierte, halbstrukturierte und vor allem unstrukturierte Daten. BigData-Repositories gibt es in vielen Formen, die häufig von Unternehmen mit besonderen Bedürfnissen erstellt werden. Kommerzielle Anbieter realisierten ab den 1990er Jahren erste parallelisierte Datenbankverwaltungssysteme für BigData.

Datenbestände wachsen bis zu einem gewissen Grad schnell, da sie zunehmend von billigen und zahlreichen informationserfassenden IoT- Geräten wie Mobilgeräten, Radiofrequenz-Identifikation (RFID), Softwareprotokollen, Kameras, Mikrofonen, gefüllt werden. Die Größe der Datenmengen und damit die Skalierbarkeit der Clusterknoten ist aber nicht das relevanteste Merkmal, sondern die auf parallelität und skalierbarkeit ausgerichteten Analyse-Techniken müssen ebenfalls entsprechend dimensionierbar sein.

Die Bereitstellung von Informationen nahezu in Echtzeit, ohne Latenzen ist eines der bestimmenden Merkmale der BigData-Analyse. Neben einer Implementierung in Form eines Array-DBMS und einer parallelisierten Verarbeitungsarchitektur (ähnlich MapReduce) bietet ein solches BigData System üblicherweise noch:

  • Analyse-Techniken von Daten wie A/B-Tests, maschinelles Lernen usw.
  • BigData-Technologien wie Business Intelligence, Cloud-Computing und Vector- und Array-Datenbanken.
  • Dashboars, Visualisierung wie Diagramme, Grafiken und andere Anzeigen der Daten wie Grafana, Tableau oder Kibana.
Aus diesem Ansatz wurde eine Implementierung des MapReduce-Frameworks von einem Open-Source-Projekt namens Apache Hadoop übernommen. Das Datenanalyse Framework (Plattform) Apache Spark wurde als Reaktion auf Einschränkungen im MapReduce-Paradigma entwickelt und bietet die Möglichkeit viele parallele Vorgänge in einem Cluster Computing zu realisieren. Spark ist mehr ein Framework als eine Datenplattform hingegen ist Hadoop mehr eine Datenplattform und so können sich beide auch ergänzen. Andere übliche BigData-Plattformen mit denen Spark zusammenarbeitet sind AWS S3; HBase oder Apache Cassandra.

Diese Themen zur Big Data schulen wir mit projekterfahrenen Trainern entweder in offenen Kursen oder sie fragen uns nach Individualschulung (Firmenschulung), bei der wir die Inhalte mit Ihnen vorab besprechen und anpassen können


unverbindlich anfragen, Angebot einholen: