Apache Spark für Data Scientists - Schulung (2 Tage)

Kurzbeschreibung

Sie erhalten in dieser Schulung mit der Einführung in Distributed Computing, Hadoop Map and Reduce, HDFS, Hive und Spark ein Grundverständnis über das Hadoop Ökosystem. Innerhalb einer virtuellen Mashine auf Basis von Cloudera lernen Sie mit den entsprechenden Werkzeugen umzugehen und Daten zu importieren. Sie nutzen diese Infrastruktur in diesem Seminar und lernen an Hand von verschiedenen Beispieldaten die Apache Spark Infrastruktur und deren Schnittstelle kennen. Sie erstellen Resilient Distributed Datasets, Laden Daten aud dem Hadoop File System, erstellen einfach Analysen und Aggregationen und speichern die Ergebnisse zurück im HDFS. Mit Spark DataFrame lernen Sie die vergleichsweise leicht zu erlernende und mittlerweile vorherrschende API zur flexiblen Datenanalyse kennen. Für Ansätze zum Machine Learning und künstlicher Intelligenz lernen Sie Spark MLlib, die entsprechende Architektur und beispielhaft die Möglichkeiten linearer Regressionsanalysen kennen. Zum Abschluss dieses Kurses bauen Sie einen Ablaufprozess für Machine Learning und data mining mit Apache Spark auf.

Der Aufbau der Schulung ist modular und kann auf Wunsch um weitere Themen ergänzt werden. Beispiele hierzu sind:
• Datenanalyse mit Python und Apache Spark (0,5 Tage)
• Datenverarbeitung und Datenanalyse mit Scala und Apache Spark (1 Tag)
• Auf Wunsch ist es auch möglich Seminare auf eigenen Datenbeständen durchzuführen. Fragen Sie nach einem individuellen Workshop und in House Seminare zu Apache Spark für Data Scientists.


Seminarinhalt

Einführung Hadoop Ecosystem
• Distributed Computing
• Hadoop Map/Reduce
• HDFS
• Hive
• Spark

Aufbau einer Apache Spark Umgebung
• Cloudera Quickstart VM
• Hadoop User Experience - Hue
• Installierung
• Apache Zeppelin
• Daten laden

Apache Spark Grundlagen
• Apache Spark Architektur
• "Hello World" in PySpark: Worte zählen

Beispiel Wortzählung (hands on training)
• Elemente einer Spark Applikation
• SparkContext
• Lokaler Betrieb oder Clusterbetrieb

Intorduction Park Rdd API (hands on training)
• Creating RDDs
• Loading Data from HDFS
• Extraktion & Transformation
• Joining, Grouping & Datenaggregation
• Caching
• Datenhaltung im HDFS, Hadoop File System
• Broadcast Variablen & Acculumators
• Web-Interfaces richtig verstehen

Apache Spark Implementation
• Shuffling
• Serialization
• Closures

Apache Spark DataFrame Architektur

Apache Spark DataFrame API (hands on training)
• Auslesen von Daten aus HDFS
• RDD <=> DataFrame
• DataFrame Operations (Joins, Selects, Grouping...)
• SparkSQL
• Daten speichern im HDFS
• Verarbeitung von Daten in Hive

Apache Spark ML Architektur

Aufbau von Spark ML Pipelines (hands on training)
• Funktionen
• Modelle
• Transformation
• Regression & Classification
• Pipelines
• Evaluationsmodell
• Parameter Selection / Cross Validation


Zielgruppen

Dieses Apache Spark Seminar richtet sich an die Zielgruppe Data Scientist, Daten Journalist, Big Data Analyst und alle, die sich mit der Datenanalyse von Daten und Big Data beschäftigen.


Preise und Termine

offene Schulung
Eine offene Schulung findet in einem unserer Schulungszentren statt.
Dauer:2 Tage
Preis:1.290,00 € zzgl. USt. pro Teilnehmer (1.535,10€ inkl. USt.)
Seminarstandorte:
Starttermine:
(ortsabhängig)


Unterlagen:zzgl.
Verpflegung:zzgl.
Prüfung/Zertifizierung:zzgl.
Firmenschulung
Eine Firmenschlung kann sowohl bei Ihnen vor Ort als auch in einem unserer Schulungszentren stattfinden.
Dauer:2 Tage
Preis ab:1.690,00 € zzgl. USt. pro Tag (2.011,10€ inkl. USt.)
Schulungszentren:
  • Hamburg
  • Berlin
  • Frankfurt
  • München
  • Nürnberg
  • Düsseldorf
  • Wien
  • Stuttgart
  • Hannover
  • Köln
  • Dortmund
Starttermin:individuelle Vereinbarung
Unterlagen:zzgl.
Verpflegung:zzgl.
Prüfung/Zertifizierung:zzgl.


Seminarsprache

die Seminarsprache ist deutsch, sofern keine andere Angabe. Englisch ist in aller Regel machbar, andere Seminarsprachen sind möglich, fragen Sie bitte an.