Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

In een recent gepubliceerd artikel deelde Shopify haar ervaringen met een intern machine learning proces dat tot doel heeft waardevollere inzichten uit klantensignalen te verkrijgen. Een van de belangrijkste uitdagingen voor elke online business is het extraheren van praktische informatie uit data om geïnformeerde beslissingen te kunnen nemen. Shopify deelt haar methodologie en ervaringen bij het oplossen van dit probleem door middel van het clusteren van diverse datasets met behulp van een unieke aanpak die dimensionaliteitsreductie, recursie en begeleid machine learning omvat. Deze aanpak levert sterke resultaten op, biedt inzichten en helpt bij het verklaren van fenomenen. Het helpt gebruikeronderzoekers en datawetenschappers om op een betere manier oplossingen te begrijpen, te verfijnen en efficiënt naar het gewenste resultaat toe te werken. Bovendien bevat deze methode een interpretatielaag die resultaatvalidatie en communicatie met belanghebbenden vergemakkelijkt.

Op basis van deze informatie stelt de auteur een methodologie voor die bestaat uit 4 eenvoudige stappen:

1. Maak data hanteerbaar.
2. Cluster de data.
3. Begrijp (en voorspel) de data.
4. Communiceer de inzichten.

De eerste stap in dit proces is het vinden van een manier om de data visueel weer te geven voor een beter beheer. De grootste uitdaging is dat we in de praktijk vaak te maken hebben met hoog-dimensionale data. Een praktische benadering is het gebruik van dimensionaliteitsreductietechnieken zoals Principal Component Analysis (PCA). Echter, PCA kan mogelijk niet alle informatie in 2 dimensies weergeven. Het artikel suggereert om in plaats daarvan een alternatieve techniek te gebruiken genaamd Uniform Manifold Approximation and Projection (UMAP). Het belangrijkste verschil tussen PCA en UMAP is dat UMAP een projectiemethode is die zowel lokale als globale overeenkomsten van punten in lagere dimensies behoudt, en het is ook niet-lineair. Dit maakt het mogelijk om niet-lineaire relaties tussen de data vast te leggen. De auteur presenteert resultaten met behulp van de MNIST-dataset (Modified National Institute of Standards and Technology) als voorbeeld. MNIST bestaat uit 784 dimensies die handgeschreven cijfers van 0 tot 9 vertegenwoordigen.

Nadat de data is gevisualiseerd en een eerste begrip is verkregen, moeten er significante clusters worden gecreëerd. Zoals vermeld in het artikel, moeten clusters de volgende eigenschappen hebben voor verklaring:

1. Een punt behoort alleen tot een cluster als het cluster bestaat.
2. Als er parameters nodig zijn voor clusters, moeten ze intuïtief zijn.
3. Clusters moeten stabiel blijven, zelfs als de volgorde van data of initiële omstandigheden verandert.

Er zijn verschillende clusteringalgoritmen in het vakgebied, zoals K-means en HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). HDBSCAN maakt gebruik van een hiërarchische benadering, waarbij clustering en de DBSCAN-methode worden gecombineerd, wat resulteert in robuustere en betekenisvollere clusters. Uitgebreide experimenten die bij Shopify zijn uitgevoerd, hebben aangetoond dat HDBSCAN consequent waardevollere en stabielere resultaten oplevert.

Om een dieper inzicht te krijgen in het gedrag van clusters, is het noodzakelijk om recursief clusteringtechnieken toe te passen. Met dit iteratieve proces kan een beter begrip van de dynamische relaties tussen clusters worden verkregen. Vervolgens, zodra een voldoende aantal clusters is bepaald, kunnen begeleidende technieken, met name classificatie, worden toegepast. Veelgebruikte classificatiemethoden zoals XGBoost kunnen fungeren als “one-vs-all” modellen voor elk cluster.

Bovendien verhoogt het integreren van SHAP (Shapley Additive Explanations) de interpreteerbaarheid door de belangrijkste factoren die elk cluster beïnvloeden te onthullen. Door HDBSCAN te combineren voor initiële clustering, gevolgd door XGBoost voor classificatie, en SHAP toe te passen voor verklaring, ontstaat er een uitgebreide methodologie die diepgaande inzichten biedt in het gedrag van diverse clusters.

In de laatste fase is het belangrijk om de resultaten te communiceren naar data-onderzoekers en andere belanghebbenden en waar nodig iteratief naar de uiteindelijke oplossing toe te werken.

Vergelijkbare methoden worden met succes toegepast in andere domeinen, zoals het detecteren van afwijkingen in medische data.

Veel machine learning engineers zijn enthousiast over deze aanpak. Zoals iemand op LinkedIn opmerkte: “Umap en Shap zijn echte revolutionairen en vormen de basis van geavanceerde analytische processen.”

Veelgestelde vragen:

Vraag 1: Hoe maakt Shopify gebruik van een intern machine learning proces?
Antwoord: Shopify gebruikt een intern machine learning proces om waardevolle inzichten uit klantensignalen te verkrijgen.

Vraag 2: Wat zijn de belangrijkste uitdagingen voor online bedrijven met betrekking tot data en besluitvorming?
Antwoord: De belangrijkste uitdaging voor online bedrijven is het extraheren van praktische informatie uit data om geïnformeerde beslissingen te kunnen nemen.

Vraag 3: Welke methodologie past Shopify toe om het probleem van het clusteren van diverse datasets op te lossen?
Antwoord: Shopify maakt gebruik van een methodologie gebaseerd op dimensionaliteitsreductie, recursie en begeleid machine learning.

Vraag 4: Wat zijn de voordelen van het gebruik van UMAP vergeleken met PCA?
Antwoord: UMAP maakt het mogelijk om niet-lineaire relaties tussen de data vast te leggen, wat niet mogelijk is met PCA.

Vraag 5: Wat zijn de eigenschappen van clusters die verklaarbaar moeten zijn?
Antwoord: Een cluster moet alleen bestaan als er punten toe behoren, de parameters van clusters moeten intuïtief zijn en clusters moeten stabiel blijven, zelfs bij veranderingen in initiële omstandigheden.

Vraag 6: Welke classificatiemethoden kunnen worden gebruikt voor elk cluster?
Antwoord: Veelgebruikte classificatiemethoden zoals XGBoost kunnen fungeren als “one-vs-all” modellen voor elk cluster.

Vraag 7: Wat zijn de voordelen van het integreren van SHAP in de clusteringmethodologie?
Antwoord: Het integreren van SHAP verhoogt de interpreteerbaarheid door de belangrijkste factoren die elk cluster beïnvloeden te onthullen.

Vraag 8: In welke domeinen kunnen soortgelijke methoden worden toegepast?
Antwoord: Soortgelijke methoden kunnen met succes worden toegepast in andere domeinen, zoals het detecteren van afwijkingen in medische data.

Vraag 9: Hoe wordt de methodologie gepresenteerd in het artikel ontvangen?
Antwoord: De methodologie gepresenteerd in het artikel wordt warm verwelkomd door veel machine learning engineers.

Vraag 10: Wat zijn de voordelen van het gebruik van UMAP en SHAP?
Antwoord: Het gebruik van UMAP en SHAP maakt het mogelijk om diepgaande inzichten te verkrijgen in het gedrag van diverse clusters.

Woordenlijst – Belangrijke termen en jargon:
1. Machine Learning – een vakgebied van de informatica dat zich bezighoudt met het creëren en bestuderen van algoritmen die computers in staat stellen te “leren” van data en ervaringen.
2. Dimensionaliteitsreductie – het proces van het verminderen van het aantal kenmerken in een dataset zonder significante informatie te verliezen.
3. Principal Component Analysis (PCA) – een methode voor dimensionaliteitsreductie die hoge-dimensionale data transformeert naar een lager aantal hoofdcomponenten.
4. Uniform Manifold Approximation and Projection (UMAP) – een moderne methode voor dimensionaliteitsreductie die niet-lineaire relaties tussen datapunten vastlegt.
5. Clustering – een techniek voor het groeperen van objecten waarbij objecten binnen dezelfde groep vergelijkbaar zijn en er significante verschillen zijn tussen groepen.
6. K-means – een populair clusteringalgoritme dat objecten indeelt in groepen door het minimaliseren van de som van gekwadrateerde afstanden tussen objecten in de groepen.
7. HDBSCAN – een clusteringmethode op basis van een hiërarchische benadering die clustering en de DBSCAN-methode combineert.
8. DBSCAN – een populair clusteringalgoritme dat gebieden met hoge puntdichtheid in een dataset identificeert.
9. XGBoost – een machine learning framework dat bekend staat om zijn prestatie en flexibiliteit bij het oplossen van gegevensgestuurde problemen.

The source of the article is from the blog cheap-sound.com