Real-Time-Analytics mit Spark und Cassandra

Written by Thomas Mann

Real-Time-Analytics mit Spark und Cassandra

Tuesday, 04 August 2015 00:00

Beitrag von WidasConcepts beim 6. Open-Source-Business-Intelligence Workshop der Hochschule Offenburg
Abstract
Map & Reduce war gestern. Heutzutage kann mit Spark eine bis zu 100 mal schnellere Performance in der Batchverarbeitung erreicht werden, verglichen mit dem alten Map- und Reduce-Ansatz.

Basis dafür sind sogenannte „Resilient Distributed Datasets” (RDD) und die konsequente Nutzung von In-Memory-Ansätzen. Doch was bringt eine schnellere „Verarbeitung“ wenn auf der anderen Seite bei der Persistenz und dem Laden der Daten weiterhin auf das vergleichsweise langsame HDFS zurückgegriffen wird.
Zu Spark passt eine Real-Time-orientierte, verteilte, skalierbare, In-Memory-fähige als auch analytische Datenbank: Cassandra. Vorgestellt werden die Grundkonzepte von Spark und Cassandra sowie die Integration zwischen beiden Technologien. Es erfolgt auch ein Ausblick auf Spark Streaming, mit dem auch im Stream-basierten Ansatz Real-Time-Analytics möglich werden.

Referent: Thomas Mann, Teamleiter des Team Big Data Science bei WidasConcepts
Mein Fokus liegt in der Konzeption und Implementierung von kundenindividuellen Big Data Lösungen. Ich habe mich sehr über die hohe Teilnehmerzahl und die anregende Diskussion über das Potential von Real-Time-Analytics in diversen Branchen gefreut.