Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

In einem kürzlich veröffentlichten Artikel hat Shopify seine Erfahrungen mit einem internen Machine-Learning-Prozess geteilt, der darauf abzielt, wertvolle Erkenntnisse aus Kundeninformationen zu gewinnen. Eine der Hauptherausforderungen für jedes Online-Geschäft besteht darin, praktische Informationen aus Daten zu extrahieren, um fundierte Entscheidungen treffen zu können. Shopify teilt seine Methodik und Erfahrung bei der Lösung dieses Problems durch die Clustering verschiedener Datensätze mithilfe eines einzigartigen Ansatzes, der Dimensionalitätsreduktion, Rekursion und überwachtes Machine Learning umfasst. Dieser Ansatz liefert starke Ergebnisse, liefert Erkenntnisse und hilft dabei, Phänomene zu erklären. Er unterstützt User-Forscher und Datenwissenschaftler dabei, Lösungen besser zu verstehen, zu verfeinern und effizient auf das gewünschte Ergebnis hinzuarbeiten. Zusätzlich integriert diese Methode eine Interpretationsebene, die die Validierung der Ergebnisse und die Kommunikation mit den Interessengruppen erleichtert.

Basierend auf diesem Text schlägt der Autor eine Methode vor, die aus 4 einfachen Schritten besteht:

1. Mache die Daten handhabbar.
2. Gruppiere die Daten.
3. Verstehe (und prognostiziere) die Daten.
4. Kommuniziere die Erkenntnisse.

Der erste Schritt in diesem Prozess besteht darin, eine Möglichkeit zu finden, die Daten besser zu verwalten. Die Hauptherausforderung besteht darin, dass wir es in der Praxis oft mit hochdimensionalen Daten zu tun haben. Eine praktische Herangehensweise besteht darin, Techniken zur Dimensionalitätsreduktion wie die Hauptkomponentenanalyse (PCA) zu verwenden. Allerdings kann PCA möglicherweise nicht alle Informationen in 2 Dimensionen darstellen. Der Artikel schlägt die Verwendung einer alternativen Technik namens Uniform Manifold Approximation and Projection (UMAP) vor. Der Hauptunterschied zwischen PCA und UMAP besteht darin, dass UMAP eine Projektionsmethode ist, die sowohl lokale als auch globale Ähnlichkeiten von Punkten in niedrigeren Dimensionen bewahrt und auch nichtlinear ist. Dadurch werden nichtlineare Beziehungen zwischen den Daten erfasst. Der Autor präsentiert Ergebnisse unter Verwendung des MNIST-Datensatzes (Modified National Institute of Standards and Technology) als Beispiel. MNIST besteht aus 784 Dimensionen, die handgeschriebene Ziffern von 0 bis 9 repräsentieren.

Nachdem die Daten visualisiert und ein erstes Verständnis gewonnen wurden, müssen signifikante Gruppierungen erstellt werden. Wie im Artikel erwähnt, sollten Gruppierungen die folgenden Eigenschaften für die Erklärung aufweisen:

1. Ein Punkt gehört nur zu einer Gruppierung, wenn die Gruppierung existiert.
2. Wenn Parameter für Gruppierungen benötigt werden, sollten sie intuitiv sein.
3. Gruppierungen sollten stabil bleiben, auch wenn sich die Reihenfolge der Daten oder die Anfangsbedingungen ändern.

Es gibt verschiedene Gruppierungsalgorithmen auf dem Gebiet, wie zum Beispiel K-Means und HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). HDBSCAN verwendet einen hierarchischen Ansatz, indem es Gruppierung und die DBSCAN-Methode kombiniert, was zu robusteren und aussagekräftigeren Gruppierungen führt. Umfangreiche Experimente bei Shopify haben gezeigt, dass HDBSCAN konsistente und wertvolle Ergebnisse liefert.

Um ein tieferes Verständnis für das Verhalten von Gruppierungen zu gewinnen, ist es notwendig, rekursiv Gruppierungstechniken anzuwenden. Dieser iterative Prozess ermöglicht ein besseres Verständnis der dynamischen Beziehungen zwischen den Gruppierungen. Sobald eine ausreichende Anzahl von Gruppierungen festgelegt ist, können überwachte Techniken, insbesondere die Klassifikation, angewendet werden. Häufig verwendete Klassifikationsmethoden wie XGBoost können als „Eins-gegen-Alle“ -Modelle für jede Gruppierung fungieren.

Zusätzlich verbessert die Integration von SHAP (Shapley Additive Explanations) die Interpretierbarkeit, indem sie die Hauptfaktoren aufdeckt, die jede Gruppierung beeinflussen. Durch die Kombination von HDBSCAN für die anfängliche Gruppierung, gefolgt von XGBoost für die Klassifikation und der Anwendung von SHAP für die Erklärung entsteht eine umfassende Methodik, die tiefgehende Einblicke in das Verhalten verschiedener Gruppierungen ermöglicht.

In der letzten Phase ist es erforderlich, die Ergebnisse den Datenforschern und anderen Interessengruppen zu kommunizieren und gegebenenfalls auf das ultimative Ziel hinzuarbeiten.

Ähnliche Methoden werden erfolgreich in anderen Bereichen angewendet, wie zum Beispiel bei der Anomalieerkennung in medizinischen Daten.

Viele Machine-Learning-Ingenieure sind von diesem Ansatz begeistert. Wie eine Person auf LinkedIn kommentierte: „Umap und Shap sind wahre Revolutionäre und bilden die Grundlage für fortschrittliche analytische Prozesse.“

FAQ:

Frage 1: Wie nutzt Shopify einen internen Machine-Learning-Prozess?
Antwort: Shopify verwendet einen internen Machine-Learning-Prozess, um wertvolle Erkenntnisse aus Kundeninformationen zu gewinnen.

Frage 2: Was sind die Hauptherausforderungen für Online-Geschäfte in Bezug auf Daten und Entscheidungsfindung?
Antwort: Die Hauptherausforderung für Online-Geschäfte besteht darin, praktische Informationen aus Daten zu extrahieren, um fundierte Entscheidungen treffen zu können.

Frage 3: Welche Methodik verwendet Shopify, um das Problem der Gruppierung verschiedener Datensätze zu lösen?
Antwort: Shopify verwendet eine Methodik, die auf Dimensionalitätsreduktion, Rekursion und überwachtem Machine Learning basiert.

Frage 4: Was sind die Vorteile der Verwendung von UMAP im Vergleich zu PCA?
Antwort: UMAP ermöglicht es, nichtlineare Beziehungen zwischen den Daten zu erfassen, was mit PCA nicht möglich ist.

Frage 5: Was sind die Eigenschaften von Gruppierungen, die erklärbar sein sollten?
Antwort: Eine Gruppierung sollte nur existieren, wenn Punkte dazu gehören, die Parameter der Gruppierungen sollten intuitiv sein und Gruppierungen sollten auch bei Änderungen der Anfangsbedingungen stabil bleiben.

Frage 6: Welche Klassifikationsmethoden können für jede Gruppierung verwendet werden?
Antwort: Häufig verwendete Klassifikationsmethoden wie XGBoost können als „Eins-gegen-Alle“-Modelle für jede Gruppierung verwendet werden.

Frage 7: Was sind die Vorteile der Integration von SHAP in die Gruppierungsmethodik?
Antwort: Die Integration von SHAP erhöht die Interpretierbarkeit, indem sie die Hauptfaktoren aufdeckt, die jede Gruppierung beeinflussen.

Frage 8: In welchen Bereichen können ähnliche Methoden angewendet werden?
Antwort: Ähnliche Methoden können erfolgreich in anderen Bereichen angewendet werden, wie zum Beispiel bei der Anomalieerkennung in medizinischen Daten.

Frage 9: Wie wird die im Artikel vorgestellte Methodik aufgenommen?
Antwort: Die im Artikel vorgestellte Methodik wird von vielen Machine-Learning-Ingenieuren positiv aufgenommen.

Frage 10: Was sind die Vorteile der Verwendung von UMAP und SHAP?
Antwort: Die Verwendung von UMAP und SHAP ermöglicht es, tiefgehende Einblicke in das Verhalten verschiedener Gruppierungen zu erhalten.

Glossar – Schlüsselbegriffe und Jargon:
1. Machine Learning – ein Gebiet der Informatik, das sich mit der Entwicklung und dem Studium von Algorithmen befasst, die es Computern ermöglichen, aus Daten und Erfahrungen zu „lernen“.
2. Dimensionalitätsreduktion – der Prozess der Reduzierung der Anzahl der Merkmale in einem Datensatz, ohne signifikante Informationen zu verlieren.
3. Hauptkomponentenanalyse (PCA) – eine Methode zur Dimensionalitätsreduktion, die hochdimensionale Daten in eine geringere Anzahl von Hauptkomponenten transformiert.
4. Uniform Manifold Approximation and Projection (UMAP) – eine moderne Methode zur Dimensionalitätsreduktion, die nichtlineare Beziehungen zwischen Datenpunkten erfasst.
5. Gruppierung – eine Technik zur Gruppierung von Objekten, wobei Objekte innerhalb derselben Gruppe ähnlich sind und es signifikante Unterschiede zwischen den Gruppen gibt.
6. K-Means – ein beliebter Gruppierungsalgorithmus, der Objekte in Gruppen einteilt, indem er die Summe der quadrierten Abstände zwischen Objekten in den Gruppen minimiert.
7. HDBSCAN – eine Gruppierungsmethode, die einen hierarchischen Ansatz verwendet, indem sie Gruppierung und die DBSCAN-Methode kombiniert.
8. DBSCAN – ein beliebter Gruppierungsalgorithmus, der Bereiche mit hoher Punktedichte in einem Datensatz identifiziert.
9. XGBoost – eine überwachte Lernalgorithmus

The source of the article is from the blog cheap-sound.com