it innovations.de

Big Data, Data Analytics, Data Science und Knowledge Discovery Consulting

IT-Projekte / Consulting / Beratung / Support

Big Data beschreibt heutige Anforderungen nach technischen Lösungen um:

  1. große Datenmengen (Volume)
  2. unterschiedlicher Datenarten (Variety)
  3. in hoher Geschwindigkeit zu verarbeiten (Velocity)
  4. zu analysieren und neue Einsichten zu bekommen (Analytics)

Wir unterstützen Sie bei Ihren Ideen mit Methoden, Konzepten und Werkzeugen, um große Datenmengen besser und kostengünstiger zu nutzen. Mit unserem Wissen um Technologien zur Speicherung, Verarbeitung, Suche und Analyse Ihrer Daten helfen wir Ihnen Ihre Ideen erfolgreich technisch umzusetzen.

Beratung zu Big Data, Consulting, Projekte und Durchführung mit anschließendem Support führen wir remote und lokal bei Ihnen Vor-Ort durch. Nehmen Sie Kontakt auf und lassen sich beraten. 


Analytische Lösungen, Anwendungsbeispiele und Big Data Strategien

Big Data Lösungen sind wissensbasierte Programme, die durch das Zusammenführen großer Informationsmengen 360° Einblicke auf Sachverhalte ermöglichen. Big Data Anwendungen können dazu beitragen genauere und zeitnähere Antworten auf Fragestellungen zu liefern. Sachverhalte können Fragestellungen um Kunden, Lieferanten, Patienten, Prozesse, Systeme, Maschinen und Marktgegebenheiten sein. Die Vielzahl der Möglichkeiten verdeutlicht auch,  dass es kein generelles Konzept gibt, sondern je Fragestellung unterschiedliche Big Data Technologien und Architekturen zum Einsatz kommen. Typische Big Data Anwendungsbeispiele sind: 

Big Data im Handel und E-Commerce Projekte, Consulting, Beratung

Big Data Anwendungsbeispiele für Handel und e-commerce:

  • personalisierte Kundenansprache
  • Monitoring von Kaufverhalten / Webanalytics
  • verhaltensorientierte Kundensegmentierung
  • automatisierte Preissetzungen
  • Kündigeranalysen und Prognosen
  • automatisierte Abverkäufe
  • Steuerung von Vertriebskanälen
Big Data Anwendungen in Industrie und Dienstleistungsbranche Projekte, Consulting und Beratung.

Big Data Anwendungsbeispiele für Industrie und Dienstleistungsbranche:

  • Prognose von Serviceintervallen / predictive maintenance
  • Prognosemodelle zur Ersatzteilversorgung
  • Früherkennung von Produktionsausfällen
  • Vernetzung von Maschinen / Industrie 4.0 / Internet of Things
  • Energieeffizienzsysteme und Home Automation
Big Data Lösungen in der Gesundheitsbranche Projekte, Consulting und Beratung

Big Data Anwendungsbeispiele im Gesundheitsbereich

  • Automatisierung patientenzentrierter Kommunikation
  • Analyse und Vorhersagemodelle zur Versorgungsforschung
  • Planungsmodelle für proaktive Leistungsversorgung
  • Telemedizin / E-Health
Big Data Lösungen bei Banken und Versicherungen Projekte, Consulting und Beratung.

Big Data Anwendungsbeispiele im Banken und Versicherungsbereich:

  • Überwachung von Risiken und Compliance
  • Betrugserkennung
  • Echtzeit-Analysemodelle von Marktbedingungen

Big Data Technologien für analytische Lösungszenarien

Die Umsetzung von Big Data Lösungen erfordern den Einsatz unterschiedlicher Technologien. Relevante Technologiekomponenten für Big Data Anwendungen sind:

Datenhaltung insbesondere Apache Hadoop Distributed Filesystem (HDFS)

Parallele Datenhaltung / Distributed File Systeme:

Hadoop Distributed Filesystem: Java-basiertes verteiltes Dateisystem, das zuverlässige und persistente Speicherung sowie den schnellen Zugriff auf große Datenvolumina ermöglicht und auf großen Clustern aus Standardservern läuft.

Cassandra: Java basiertes verteiltes Datenbankverwaltungssystem für große strukturierte Datenbanksysteme und einem spaltenbasierten (Wide Column Store) NoSQL Datenmodell für optimierte Lastenverteilung. Im Einsatz bei Onlineplattformen wie Twitter, Netflix, Expedia und Digg.

HDInsight ist ein auf Hadoop basierendes verteiltes Dateisystem zur Durchführung von parallelen Berechnungen auf unstrukturierten und semistrukturierten Daten. HDInsigth ist ein cloudbasierter Dienst und Bestandteil der Microsoft Azure Plattform.

NoSQL Datenbanken / nicht relationale Datenbankmanagementsysteme für spezifische Anwendungsszenarien optimiert:

Mongo DB: Dokumentenorientierte Datenbank

DocumentDB ist eine dokumentenorientierte schemalose NoSQL Datenbank. Sie ist als reiner Cloudservice über die Microsoft Plattform Azure verfügbar und erlaubt die Speicherung JSON basierter Objekte.

Neo4j: GraphDB optimiert für Beziehungsgeflechte, Straßenkarten und Netzwerke

HBase: spaltenorientierte Datenbank, optimiert für Daten ohne hohe Änderungsrate aber häufigen Ergänzungen und im Einsatz u.a. bei Facebook.

Analytische DB / DWH

Microsoft SQL Server. Relationales Datenbankmanagementsystem und Dienste ermöglichen die Umsetzung von abfrageorientierten analytischen Datenbanken und Data Warehouses für strukturierte Daten.

Microsoft SQL Server ermöglicht im Rahmen seiner Produktkomponente SSAS auch eine Datenmodellierung in tabellarischer Form, genannt MS SSAS Tabular.

Weitere Systeme die relationale Datenbankmanagementsysteme beinhalten sind Oracle RDBMS, SAP Hana, SAP Sybase, MySQL, und IBM DB2.

In Memory Datenbanken

Im Microsoft SQL Server ist in der Produktkomponente SSAS Tabular ein in memory Specherkonzept integriert. Es heißt xVelocity (ehemals Vertipaque).

Microsoft SQL Server In-Memory OLTP (vorher: Hekaton): in Memory Technologie von Microsoft für relationale Datenmodelle.

Weitere in Memory Datenbanken im Big Data Umfeld sind: EXASolution von Exasol, IBM Informix, Oracle REBMS, Redis von VMWare, SAP Hana von SAP AG.

OLTP Datenbanken

MS SQL Server ist auch für den Einsatz als Anwendungsserver konzipiert. Er ermöglicht die Erfassung und Verarbeitung von Transaktionen / Geschäftsvorfällen ohne Zeitverzögerung (Real Time).

SQL Base von Microsoft Azure ist ein als Clouddienst bereitgestellte relationale Datenbank. Funktional ist SQL Base eine Teilmenge des SQL Servers. Das Management der Konfiguration, Überwachung, Patch und Updates sind Bestandteil des Dienstes.

Cloud Datenbanken

Die Microsoft Azure Cloud Platform ermöglicht es Softwareanwendungen ganz oder in Teilen in der Cloud auszuführen. Beliebige Kapazität kann ohne Vorab-Investitionen bereitgestellt werden. Die Abrechnung erfolgt Nutzungsabhängig.

Big Data Datenverarbeitung - Datenzugriff

Batch Processing

Effizientes diskontinuierliches Verfahren um auf große Datenmengen zuzugreifen, zu bearbeiten und Ergebnisse in Form von Batches / Chargen weiterzugeben.

Hadoop MapReduce ist ein chargenbasierendes Verfahren zur effizienten Verarbeitung großer Mengen unstrukturierter Daten die auf Hadoop Distributed Filesystem erfasst sind. Die Suchmaschine Google basiert auf diesem Verfahren.

Spark Apache ermöglicht die effiziente Verarbeitung von Informationen auf verteilten Systmen und basiert auf machine learning Algorithmen. Relationale Daten können über Spark SQLerfasst werden. Die Verarbeitung von Graphen erfolgt über GraphX. Spark ist im Einsatz bei Spotify, Alibaba und NASA. 

Apache Pig ist eine Hadoop Erweiterung und ermöglicht es schnell, einfach und zuverlässig große Datensätze abzufragen. Daten können unstrukturiert sein, d.h. sie müssen nicht in einem geordneten Schema vorliegen.

Microsoft SQL SSIS - Microsoft SQL Server Integration Services ist Bestandteil des Microsoft SQL Servers und ermöglicht eine stapelweise (=Batch) effiziente Verarbeitung großer Datenvolumen von strukturierten Datenmengen.

Streaming

Ermöglicht die kontinuierliche Verarbeitung von Datenströmen, d.h. Daten, die in Bewegung sind.

Spark Streaming ist ein Teil des Apache Spark Open Source Projektes und ermöglicht die kontinuierliche Verarbeitung von Datenströmen.

Microsoft Stream Analytics ermöglicht Rechenprozeduren auf Datenströmen basierend auf der SQL Abfragesprache. Stream Analytics ist ein cloudbasierter Dienst der Micrsoft Azure Plattform.

Search and Discovery - QA

Sind Suchmaschinen-Technologien zur (Volltext)-Suche und Auffinden von Informationen in meist unstrukturierten Datenbeständen. Kern dieser Technologien sind Text-Matching Algorithmen und der Aufbau von Indizes zur Verschlagwortung. Neben der genauen Antwort auf eine Fragestellung liefern diese Technologien auch verwandte Antworten.

Apache Lucene ist eine plattformunabhängige Technologie zur Volltextsuche, dem Indexieren von Dateien und das Ausgeben von Suchergebnissen auf Basis von unterschiedlichen Algorithmen. Lucene ist Open Source und ein Projekt der Apache Software Foundation.

Elasticsearch ist eine (Volltext-) Suchmaschine, die auf Apache Lucene basiert und einen Betrieb im Rechenverbund für Lastenverteilung und Hochverfügbarkeit ermöglicht. Es bestehen Auswertungsmöglichkeiten zur Analyse des Suchverhaltens mit Kibana.

Abfragen / Query

Programmiersprachen um Daten aus verschiedenen Formaten und Quellen zu kombinieren oder zu verdichten.

Pig Latin ist eine von Yahoo entwickelte Abfragesprache um Datensätze zu lokalisieren, verarbeiten, aufzubereiten und abzulegen. Daten können unstrukturiert sein, d.h. Sie können in einem nicht geordneten Schema vorliegen. Mit vergleichsweise wenig Aufwand ist es möglich komplexe Datenbankanfragen zu modellieren. Pig Latin ist Bestandteil der Java basierenden Apache Pig Plattform.

Spark SQL ist eine Komponente von Apache Spark und unterstützt relationale Rechenprozesse auf Basis bekannter SQL Abfrage Syntax.

SQL hat sich als Standard für Abfragen von strukturierten Daten aus Datenbanken etabliert.

Analysen

Analytische Verarbeitung von Video und Audiodateien

Technologische Lösungen zur Analyse multimedialer Daten, die Extraktion von Merkmalen und das Erkennen von Zusammenhängen.

Die Cortana Analytics Suite von Microsoft enthält technische Lösungen zur Umsetzung von Anwendungsszenarien mit Spracherkennung, Iris- und Gesichtserkennung und Texterkennung.

Geodaten, Geokoordinaten und geospatiale Analysen

Technische Anwendungen statistischer und mathematischer Verfahren auf Daten, die einen geografischen, räumlichen Bezug haben.

QGIS (ehemals Quantum GIS) ist ein Open Source basierendes geographisches Informationssystem zur Erstellung, Bearbeitung, Visualisierung und Analyse von räumlichen Informationen. QGIS ist eine Entwicklung des QGIS Development Teams.

Mit Power Map bietet Microsoft eine Excel Erweiterung an, mit der einfach anwendbar (Self-Service BI) geografische verortete Daten visuell und interaktiv dargestellt werden können.

Data Mining

Halb-automatisches Erkennen von nicht trivialen Beziehungen, Mustern und Anomalien in großen Datenmengen.

Microsoft SQL Server bietet über die Komponenten Analysis Services und Integration Services die Möglichkeit zur Durchführung von Data Mining Projekten. Visualisierung und Analyse der Ergebnisse ist über die Excel Erweiterung Microsoft SQL Server Data Mining Add-in möglich.

R Project for statistical computing: R ist eine mathematische Programmiersprache für statistisches Rechnungen und Auswertungen. Diese Sprache bietet eine Reihe von Möglichkeiten für das Organisieren von Daten, dem Erstellen von Kalkulationen, Data Mining und dem Visualisieren von Daten. Es liegen mehrere Tausend Pakete vor, um die Anwendungsmöglichkeiten von R zu erweitern. R bietet umfassende Schnittstellen zu anderen Programmiersprachen und ist integrierbar in andere Software. R ist Open Source.

Machine Learning und Predictive Analytics

Machine Learning (dt. Maschinelles Lernen) werden Konzepte, Algorithmen und technologische Anwendungen verstanden um Wissen automatisch zu vergrößern. Predictive Analytics sind Anwendungen für Zukunftsprognosen. Sie basieren auf statistischen und logischen Analysen um komplexe Zusammenhänge vorhersagen zu können.

Microsoft Azure Machine Learning Studio ist eine integrierte, grafische Entwicklungsumgebung zur einfachen Erstellung von Prognosemodellen. Per Drag and Drop können DataSets, Analysemodule in einem Arbeitsbereich zusammengestellt werden und ausgeführt werden. Machine Learning Studio ist ein Cloud-Dienst und Bestandteil der Microsoft Azure Plattform.

Die Programmiersprache R ist für das Thema Maschinelles Lernen und Zukunftsprognosen eines der zentralen Technologiebausteinen. Wie Microsoft implementieren auch andere große Technolgieunternehmen diesen Open Source Baustein in Ihre Technologielösungen. Neben den über 5000 integrierten Algorithmen existieren auch Ansätze für parallele Berechnungen (ParallelR).

OLAP - Multidimensionale Datenmodelle für Ad-Hoc Analysen

Microsoft SQL Server Analysis Services (SSAS) ist eine Business Intelligence Produktkomponenten des MS SQL Servers zur Erstellung von multidimensionalen Datenräumen für Ad-Hoc Analysen. Für mehr Informationen Siehe: Microsoft Business Intelligence

Visualisierung

Big Data Visualisierung greifen im wesentlichen auf die aus dem Business Intelligence bekannten Berichtsformen zurück. Die tabellarische Darstellung von Berichten in Form von Reports und Dashboards als kombinierte Darstellung von unterschiedlichen mehrschichtigen grafischen und tabellarischen Informationsbausteinen im Sinne einer Instrumententafel. Der Übergang zwischen Dashboards und Cockpits ist fließend und es ist häufig möglich die notwendigen Informationen in ähnlicher Form sowohl als Report als auch in Form von Dashboards darzustellen.

Microsoft bietet unterschiedliche Möglichkeiten der Erstellung von Reports und Dashboards mit Microsoft Excel, Microsoft SQL Server Reporting Services, Microsoft Power BI, Microsoft SharePoint und für mobile Endgeräte Datazen.

Datenintegration

Microsoft Event Hub ist eine Cloudbasierte Lösung zum Datenaustausch und Bestandteil der Microsoft Azure Plattform. Daten bzw. Datenströme werden von unterschiedlichen Quellen wie Webseiten, Apps, Sensorik aufgenommen und zwischengespeichert und können von einer oder mehreren Anwendungen abgeholt werden. 

Microsoft Biz Talk Server ist ein Enterprise Service Bus zum automatisierten Datenaustausch zwischen Anwendungen. Biz Talk Server ist eine on premise Lösung. 

Microsoft SQL Server Integration Services ist eine Plattform zur Unterstützung von Datenintegrationsprozessen, kurz ETL. Daten werden aus einem System extrahiert und entsprechend der Vorgaben des Zielsystems angepasst und dorthin geladen.


Entstehung des Begriffs Big Data

In 2008 paltzierte das Magazin "Nature" den Begriff auf seiner Titelseite und deutete erstmalig auf großen nicht beherrschbaren Datenzuwachs aus Experimenten hin. Im Laufe der Zeit hat sich das Verständnis weiterentwickelt und steht für ein technologisches Thema im Bereich Datenmanagement und Analyse.