In Onlineshops laufen täglich mehrere Millionen Nutzerdaten zusammen. Doch wie können diese am effizientesten strukturiert, gespeichert und ausgewertet werden? Unser Kunde, einer der größten Online-Versandhändler, benötigte eine Datenbanklösung die all diese Anforderungen erfüllt – und noch dazu massiv die Betriebs- und Hardwarekosten senkt.
Case Study: Quick fraud detection

Die Aufgabe

Der Online-Shop eines großen Internet-Versandhändlers wird jeden Tag von mehreren Millionen Menschen besucht. All diese Menschen generieren Suchanfragen, Spuren ihrer Navigation und Kaufvorgänge. Die Informationen darüber legte unser Kunde bislang größtenteils in relationalen Datenbanken ab. Diese sind jedoch nicht auf solch große Menge unstrukturierter Rohdaten aus dem e commerce ausgelegt – und die Lizenzkosten der Datenbanken sind enorm hoch. Ziel unseres Kunden war es deshalb, eine Datenbanklösung zu konzipieren, die für diese Anwendung optimal geeignet ist.

Der Mehrwert

Durch die Umstellung auf die neue Hadoop Plattform können nun sehr große Mengen an Rohdaten ausfallsicher und performant-abfragbar gespeichert werden. Darüber wurden mit dieser Lösung die Betriebs- und Hardwarekosten der Datenhaltung massiv gesenkt.

Case Study: Quick fraud detection
Case Study: Quick fraud detection

Die Lösung

Im Fokus stand von vornherein eine kommerzielle Hadoop Distribution, da dieses System für Unternehmen mit enormen Datenaufkommen die beste Performance bietet. Mit der richtigen Version des Frameworks sicherten wir den Support bei Problemfällen im alltäglichen Betrieb, mittels eines geeigneten Abfragetools wurde den Nutzern der Umstieg auf das neue System leicht gemacht.

Auf Basis von Testdaten und Abfragen wurden die Distributionen und Tools von WidasConcepts miteinander verglichen und hinsichtlich Handling, Performance und Stabilität überprüft. Zusätzlich evaluierten wir das Dateiformat Parquet für das sinnvolle Speichern der Dateien. In Kooperation mit den Fachbereichen wurden schließlich alle Wünsche an die neue Plattform von uns ausgewertet und entsprechend der Zielsetzung berücksichtigt.

Die eingesetzten Technologien

Cloudera CDH, MapR Hadoop