Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

W niedawno opublikowanym artykule Shopify podzielił się swoimi doświadczeniami z wewnętrznym procesem uczenia maszynowego, którego celem jest uzyskanie wartościowych wniosków z sygnałów klientów. Jednym z głównych wyzwań dla każdego biznesu online jest wydobycie praktycznych informacji z danych, aby podejmować świadome decyzje. Shopify dzieli się swoją metodyką i doświadczeniem w rozwiązywaniu tego problemu przez grupowanie różnych zbiorów danych przy użyciu unikalnego podejścia, które obejmuje redukcję wymiarowości, rekursję i nadzorowane uczenie maszynowe. To podejście przynosi silne rezultaty, dostarcza wniosków i pomaga wyjaśniać zjawiska. Pomaga badaczom użytkowników i naukowcom danych w lepszym zrozumieniu, doskonaleniu rozwiązań i efektywnym iterowaniu w kierunku pożądanego rezultatu. Dodatkowo, ta metoda obejmuje warstwę interpretowalności, ułatwiając walidację wyników i komunikację z interesariuszami.

Na podstawie tego tekstu autor proponuje metodologię składającą się z 4 prostych kroków:

1. Uczynienie danych zarządzalnymi.
2. Grupowanie danych.
3. Zrozumienie (i przewidywanie) danych.
4. Komunikacja wniosków.

Pierwszym krokiem w tym procesie jest znalezienie sposobu wizualizacji danych w celu lepszego zarządzania nimi. Głównym wyzwaniem jest to, że w praktyce często mamy do czynienia z danymi o wysokim wymiarze. Praktyczne podejście to zastosowanie technik redukcji wymiarowości, takich jak analiza głównych składowych (PCA). Jednak PCA może nie być w stanie reprezentować wszystkich informacji w 2 wymiarach. Artykuł sugeruje zastosowanie alternatywnej techniki o nazwie Uniform Manifold Approximation and Projection (UMAP). Główną różnicą między PCA a UMAP jest to, że UMAP jest metodą projekcji zachowującą zarówno lokalne, jak i globalne podobieństwo punktów w niższych wymiarach, a ponadto jest nieliniowy. Pozwala to na uwiecznienie nieliniowych zależności między danymi. Autor przedstawia wyniki, korzystając z zestawu danych MNIST (Modified National Institute of Standards and Technology) jako przykładu. MNIST składa się z 784 wymiarów, które reprezentują ręcznie pisane cyfry od 0 do 9.

Po zwizualizowaniu danych i zdobyciu początkowego zrozumienia, należy utworzyć znaczące grupy danych. Jak wspomniano w artykule, grupowanie powinno mieć następujące właściwości do wyjaśnienia:

1. Punkty należą do grupy tylko wtedy, gdy grupa istnieje.
2. Jeśli potrzebujesz parametrów dla grup, powinny być one intuicyjne.
3. Grupy powinny być stabilne nawet gdy zmienia się kolejność danych lub warunki początkowe.

Istnieje wiele algorytmów grupowania w dziedzinie, takich jak K-średnich i HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). HDBSCAN wykorzystuje podejście hierarchiczne, łącząc grupowanie i metodę DBSCAN, co prowadzi do bardziej stabilnych i istotnych grup. Przeprowadzone w Shopify rozległe eksperymenty wykazały, że HDBSCAN konsekwentnie dostarcza bardziej wartościowych i stabilnych wyników.

Aby lepiej zrozumieć zachowanie grup, konieczne jest rekursywne stosowanie technik grupowania. Ten proces iteracyjny umożliwia lepsze zrozumienie dynamicznych relacji między grupami. Następnie, po ustaleniu wystarczającej liczby grup, można zastosować techniki nadzorowane, w szczególności klasyfikację. Powszechnie stosowane metody klasyfikacji, takie jak XGBoost, mogą działać jako modele “jeden kontra reszta” dla każdej grupy.

Dodatkowo, integracja SHAP (Shapley Additive Explanations) zwiększa interpretowalność, ujawniając główne czynniki wpływające na każdą grupę. Kombinacja HDBSCAN do początkowego grupowania, a następnie XGBoost do klasyfikacji i zastosowanie SHAP do wyjaśnienia tworzy kompleksową metodologię, która umożliwia dogłębne rozumienie zachowania różnych grup.

W ostatnim etapie konieczne jest przekazanie wyników badaczom danych i innym interesariuszom oraz iterowanie w kierunku ostatecznego rozwiązania, jeśli jest to konieczne.

Podobne metody są z powodzeniem stosowane w innych dziedzinach, takich jak wykrywanie anomali w danych medycznych.

Wielu inżynierów uczenia maszynowego entuzjastycznie podchodzi do tego podejścia. Jak napisał jeden z użytkowników LinkedIn: “Umap i Shap są prawdziwymi rewolucjonistami i stanowią podstawę zaawansowanych procesów analitycznych”.

FAQ:

Pytanie 1: Jak Shopify wykorzystuje wewnętrzny proces uczenia maszynowego?
Odpowiedź: Shopify korzysta z wewnętrznego procesu uczenia maszynowego, aby uzyskać wartościowe wnioski z sygnałów klientów.

Pytanie 2: Jakie są główne wyzwania dla biznesów online związane z danymi i podejmowaniem decyzji?
Odpowiedź: Główne wyzwanie dla biznesów online polega na wydobyciu praktycznych informacji z danych, aby podejmować świadome decyzje.

Pytanie 3: Jaką metodologię Shopify stosuje do rozwiązania problemu grupowania różnych zbiorów danych?
Odpowiedź: Shopify stosuje metodologię opartą na redukcji wymiarowości, rekursji i nadzorowanym uczeniu maszynowym.

Pytanie 4: Jakie są korzyści z wykorzystania UMAP w porównaniu do PCA?
Odpowiedź: UMAP pozwala uchwycić nieliniowe zależności między danymi, czego nie można osiągnąć przy użyciu PCA.

Pytanie 5: Jakie są właściwości grup, które powinny być możliwe do wyjaśnienia?
Odpowiedź: Grupa powinna istnieć tylko wtedy, gdy istnieją w niej punkty, parametry grup powinny być intuicyjne, a grupy powinny pozostawać stabilne nawet przy zmianach warunków początkowych.

Pytanie 6: Jakie metody klasyfikacji można zastosować dla każdej grupy?
Odpowiedź: Powszechnie stosowane metody klasyfikacji, takie jak XGBoost, mogą działać jako modele “jeden kontra reszta” dla każdej grupy.

Pytanie 7: Jakie są korzyści z integracji SHAP w metodologię grupowania?
Odpowiedź: Integracja SHAP zwiększa interpretowalność, ujawniając główne czynniki wpływające na każdą grupę.

Pytanie 8: W jakich dziedzinach można zastosować podobne metody?
Odpowiedź: Podobne metody mogą być skutecznie stosowane w innych dziedzinach, takich jak wykrywanie anomali w danych medycznych.

Pytanie 9: Jak odbierana jest metodologia przedstawiona w artykule?
Odpowiedź: Metodologia przedstawiona w artykule jest entuzjastycznie przyjmowana przez wielu inżynierów uczenia maszynowego.

Pytanie 10: Jakie są korzyści z wykorzystania UMAP i SHAP?
Odpowiedź: Wykorzystanie UMAP i SHAP pozwala na uzyskanie dogłębnych wniosków na temat zachowania różnych grup.

Glossariusz – Kluczowe pojęcia i żargon:
1. Uczenie maszynowe – dziedzina informatyki zajmująca się tworzeniem i badaniem algorytmów umożliwiających komputerom “uczenie się” na podstawie danych i doświadczeń.
2. Redukcja wymiarowości – proces zmniejszania liczby cech w zbiorze danych bez utraty istotnych informacji.
3. Analiza głównych składowych (PCA) – metoda redukcji wymiarowości, która transformuje dane o wysokim wymiarze do mniejszej liczby składowych głównych.
4. Uniform Manifold Approximation and Projection (UMAP) – nowoczesna metoda redukcji wymiarowości, która uwiecznia nieliniowe zależności między punktami danych.
5. Grupowanie – technika grupowania obiektów w taki sposób, że obiekty w tej samej grupie są podobne, a między grupami występują znaczące różnice.
6. K-średnich – popularny algorytm grupowania, który dzieli obiekty na grupy, minimalizując sumę odległości między obiektami w grupach.
7. HDBSCAN – metoda grupowania oparta na podejściu hierarchicznym, łącząca grupowanie i metodę DBSCAN.
8. DBSCAN – popularny algorytm grupowania, który identyfikuje obszary o dużej gęstości punktów w zbiorze danych.
9. XGBoost – metoda klasyfikacji wykorzystująca technikę gradient boosting, która może działać jako modele “jeden kontra reszta” dla każdej grupy.

The source of the article is from the blog elektrischnederland.nl