Informationen zur Technologie

Apache Spark ist aktuell ein Apache Top-Level-Projekt im Big Data Umfeld. Spark ist für schnelle Datenverarbeitung entwickelt worden. Daten müssen weder in einer bestimmten Form vorliegen, noch müssen diese in einer bestimmten Art und Weise verarbeitet werden, um Spark zu nutzen. Technologien, mit denen Spark kombiniert werden sind im Bereich Search Solr (Apache) und Elasticsearch. Spark ist integrierbar in das Hadoop-Ökosystem und ermöglicht in-memory Datenverarbeitung. Wesentliche Libraries von Apache Spark sind zum einen SQL und DataFrames für relationale Abfragen auf Daten, die ursprünglich unstrukturiert (Text-Dateien) oder semi-strukturiert (z.B. Log und Sensordaten) vorliegen. Mit MLLib stehen Algorthmen u.a. für Klassifikation, Clustering, lineare Regression und Recommendations für Machine Learning Aufgabenstellungen zur Verfügung. Mit Spark Streaming wird die konitinierliche Verarbeitung von Datenströmen z.B. von Sensordaten ermöglicht. Mit GraphX können Graphen verarbeitet werden und erlauben grafische Analysen. Einsatzfelder sind z.B. soziale Netzwerke und E-commerce Aufgabenstellungen.




Apache Spark: Datenverarbeitung, Streaming, relationale Abfragen auf unstrukturierte Daten und Machine Learning für Entwickler und Data Scientists - Schulung (3 Tage)

Kurzbeschreibung

Im Rahmen von Strategien zur digitalen Transformation, Industrie 4.0, Big Data werden neue Datenformen genutzt und neue datenintensive Produkte, Lösungen und Dienstleistungen zur Analyse, Diagnose, Planung, Prädiktion und Simulation entwickelt.

Zur Entwicklung dieser Systeme sind Kompetenzen gefragt, die heute unter dem Begriff "Data Science" subsumiert werden. Dieser Kurs unterstützt Data-Scientisten die Technologie und Analyseplattform Apache Spark im Kontext des Hadoop Ökosystem zu verstehen, einen Überblick über unterschiedlichen Einsatzmöglichkeiten kennenzulernen und diese an Hand von Beispielaufgaben einzuüben.

In dieser Schulung:
• lernen Sie die Möglichkeiten der schnelle Datenverarbeitung mit Apache Spark kennen
• lernen Sie wie Datensätze auf Basis paralleler Programmierung analysiert werden
• wie Datenströme auf Basis von Spark Streaming verarbeitet werden
• erhalten Sie einführendes Wissen zu Machine Learning und welche Algorithmen von SparkML auf spezifische Fragestellungen angewendet werden können


Voraussetzungen

Erfahrungen in der Softwareentwicklung


    Seminarinhalt

    Spark Grundlagen und Integration in das Hadoop-Ökosystem
    • Die Hadoop Architektur
    • Arbeiten mit Hadoop in virtuellen Maschinen (Einschließlich Übungen)
    • Einführung in Hive & Impala (einschließlich Übungen)
    • Gängige Datenformate (common file formats)

    Einführung in die funktionale Programmierung mit Scala
    • Überblick funktionale Programmierung
    • Grundlagen Scala: Datentypen, Programmfluss, Klassen, Interface, Objekte
    • Scala Collections API
    • Übungen

    Spark Architektur und Implementierung
    • Überblick über die Architektur von Spark
    • Spark über RDD API Schnittstelle (inkl. praktischen Übungen)
    • Spark über DataFrame API (mit praktischen Übungen)
    • Spark über SPark SQL (und praktische Übungen)
    • Verbindung zu JDBC Sources mit Spark (einschließlich praktische Übungen)
    • Partitionierung

    Spark Streaming
    • Überblick über Spark Streaming
    • Beispiel: Spark Streaming Texte
    • Andere Spark Streaming Operationen
    • Übungen

    Einführung in Machine Learning mit Spark
    • Überblick über Spark Machine Learning Algorithmen
    • iterative Algorithmen
    • Graph Analysen
    • Machine Learning
    • Übungen


    Zielgruppen

    • Data Scientist
    • Softwareentwickler
    • Business Analyst
    • BI Consultant


    Preise und Termine

    offene Schulung
    Eine offene Schulung findet in einem unserer Schulungszentren statt.
    Dauer:3 Tage
    Preis:1.690,00 € zzgl. USt. pro Teilnehmer (2.011,10€ inkl. USt.)
    Seminarstandorte:
    Starttermine:
    (ortsabhängig)


    Unterlagen:zzgl.
    Verpflegung:zzgl.
    Prüfung/Zertifizierung:zzgl.
    Firmenschulung
    Eine Firmenschlung kann sowohl bei Ihnen vor Ort als auch in einem unserer Schulungszentren stattfinden.
    Dauer:3 Tage
    Preis ab:1.690,00 € zzgl. USt. pro Tag (2.011,10€ inkl. USt.)
    Schulungszentren:
    • Hamburg
    • Berlin
    • Frankfurt
    • München
    • Nürnberg
    • Düsseldorf
    • Wien
    • Stuttgart
    • Hannover
    • Köln
    • Dortmund
    Starttermin:individuelle Vereinbarung
    Unterlagen:zzgl.
    Verpflegung:zzgl.
    Prüfung/Zertifizierung:zzgl.


    Seminarsprache

    die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.



    Verwandte Schulungen