27.02.2018

Daten sind leicht verfügbar

Die Verfügbarkeit von Daten bildet die Grundlage für Ad-hoc-Analysen. Doch nicht selten erkennen Sie als Datenwissenschaftler, dass einige Datensätze nicht existieren, nicht zugänglich sind oder gemeinsame Identifikatoren fehlen. Daher gilt es vor der Analyse zu klären, ob die zugrundeliegenden Daten überhaupt verfügbar sind.

Haben Sie herausgefunden, dass die Datensätze existieren und vollständig sind, haben Sie die erste Hürde gemeistert. Der nächste Schritt besteht darin, diese Daten in angemessener Zeit zugänglich zu machen. Oft liegen die benötigten Datensätze in verschiedenen Unternehmensabteilungen, bei externen Beratern oder Drittanbietern. Um Zugriff auf diese Daten zu erhalten, muss nicht selten dafür bezahlt werden. Besonders rechtliche, vertragliche oder finanzielle Beschränkungen erschweren den Zugang. Die Annahme Datensätze seien leicht verfügbar ist eine Fiktion. 

Konsistente und relevante Daten

Auch wenn Daten auf den ersten Blick konsistent aussehen, treten meist Fehler auf, wie vertrackte UTF-8-Zeichen oder unterschiedliche Datumsformate. Einen wirklich konsistenten Datensatz in einem gut strukturierten, selbstkonsistenten und wohldefinierten Format zu finden, ist eher der Einzelfall. Insbesondere, wenn der Daten-Feed nicht von einem Data Science-Spezialisten zusammengestellt wurde.

Nun stellen Sie fest, dass der Datensatz weder aktuell noch auf der Granularitätsebene ist. Doch beides wird für die Analyse benötigt. Um das webbezogene Nutzerverhalten zu analysieren, wird häufig Google Analytics genutzt. Doch hier gibt es ein Problem, eine detaillierte Analyse ist nicht möglich, denn ist es schwer den User zu identifizieren und Zahl der Seitenaufrufe ist eher eine Schätzung, statt ein tatsächlicher Wert. Aufgrund dessen liegen irrelevante Daten vor. Eine vernünftig klingende Anfrage aufgrund irrelevanter Daten wird so unmöglich gemacht. Wenn Sie beispielsweise gefragt werden, wie sich Kunden, die sich auf der Website X anmelden, Rückhalteraten prognostizieren, ist der Google Analytics-Datenfeed für sich allein so gut wie nutzlos.

Die Daten sind intuitiv verständlich

Sie haben sicherlich auch schon mal einen Datensatz erhalten, der nach der Entschlüsselung aussah wie eine Tontafel voller ägyptische Hieroglyphen. Domänenspezifische Codes, abgeschnittene Textfelder, fehlende Lookup-Tabellen und fehlende oder schlecht benannte Header-Felder tragen alle zu schlecht verständlichen Daten bei. Das strikte Arbeiten mit der Garbage-In / Garbage-Out-Richtlinie bedeutet, dass alle nicht entschlüsselbaren Daten im besten Fall in den Ausgaben ignoriert werden. Wenn es keine gut dokumentierte Beschreibung der Daten gibt, die im Rahmen einer Analyse bereitgestellt werden, wissen Sie nicht, ob Sie Äpfel oder Orangen analysieren.

Daten lassen sich verarbeiten und analysieren

Nun landen Sie an dem Punkt, an dem Sie eine 600MB-csv-Datei mit einer anderen per Excel-SVERWEIS zusammenbringen müssen. Datenwissenschaftler, die nach dem Studium in etablierten Konzernen einsteigen, sind oft überrascht, dass die Data-Science-Tools genauso behandelt werden, als wären sie Softwareanwendungen der IT-Domäne. Open-Source-Tools sind verpönt, Installationsberechtigungen nicht verfügbar oder Tools müssen mit falschen, nicht vorhandenen, IT-Sicherheitszertifizierungen arbeiten.

Neben technischen Problemen kann es bei der Verarbeitung von großen Datenmengen Probleme geben, dass IT-Regeln oder Vorschriften es unmöglich machen, die anstehende Analyse auszuführen. Beschränkte IT-Mittel führen zudem dazu, dass die Verarbeitung einzelner Datei mehrere Stunden in Anspruch nehmen kann, obwohl dies mit ein wenig Programmieraufwand und Parallelität in ein paar Minuten automatisch erledigt werden könnte.

Hin und wieder kommt es vor, dass der Kollege zu Ihnen kommt und bittet Sie beispielsweise Marketing-Daten in einer bereits durchgeführten Analyse zu aktualisieren. Dies ist vergleichbar mit einem Puzzlestück, dass Ihnen gegeben wird und sie sollen innerhalb kürzester Zeit das komplette Puzzle fertigstellen.

Sie müssen von Anfang die Datenquellen auf dem neuesten Stand halten und ausdrücklich eine Analyse für wiederholte Ausführungen einrichten. Ist dies nicht der Fall, besteht die Gefahr, dass Daten für eine aktualisierte Analyse erneuert importiert werden müssen. Heißt, Sie müssen erneuert eine komplette Analyse anlegen und alle Schritte durchlaufen. Achten Sie deshalb auf das richtige Einrichten, damit Aktualisierungen mit minimalem Aufwand durchgeführt werden können.

Verschlüsselung wird nicht benötigt

Die Analyse ist abgeschlossen, der Bericht geschrieben und eine Präsentation erstellt. Diese Daten müssen nur zur Überprüfung an weitere Verantwortliche gesendet werden. Fügen Sie die Daten mit allen Kundendaten im Klartext in eine E-Mail? Das birgt ein Risiko. Zu einem ist eine E-Mail schnell an die falsche Person geschickt oder die Kontaktdaten gehen irrtümlicherweise an die Konkurrenz. Die unverschlüsselten Daten werden auf dem Präsentierteller serviert. 

Bevor Sie also irgendetwas an irgendjemanden senden, sollten Sie den Zugriff auf die Rohdaten geeignet verschlüsseln. Arbeiten Sie mit einheitlichen Sicherheitsstandards arbeiten. Wenn nicht die Möglichkeit der Installation eines GPG-Client besteht, muss die Verschlüsselung über das Dateiformat erfolgen. Etwa über eine passwortgeschützte Excel- oder verschlüsselte ZIP-Datei. 

Legen Sie Mitarbeitern, Verantwortlichen oder Kunden die Analysen vor, wird es hin und wieder zu Fragen sowie zu Änderungswünschen kommen. Die Hauptaufgabe ist es, die Analyse in eine Sprache zu übersetzen, die auch weniger numerisch veranlagte Menschen verstehen.

Fazit

Die Hoffnung, das gewünschte Ziel eines Data Science-Projekts tatsächlich zu erreichen, in dem man verschiedene Wege mit ein paar Tools ausprobiert, stirbt zuletzt. Möchten Sie herausfinden, warum Ihre Klickrate auf der Website in diesem Monat gesunken ist oder welche Kunden Produkt X lieber als Produkt Y kaufen? Diese Fragen werden gestellt, da man ein spezielles Ergebnis erwartet, welches oft zu Lasten einer umfassenden wissenschaftlichen Untersuchung geht.

Um diese Irrtümer zu vermeiden, beraten Sie unsere Experten der TWT Business Solutions gerne. Sprechen Sie uns an.