Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

Dans un article récemment publié, Shopify partage ses expériences liées à un processus interne d’apprentissage automatique visant à obtenir des informations plus précieuses à partir des signaux des clients. L’un des principaux défis pour toute entreprise en ligne est d’extraire des informations pratiques des données pour prendre des décisions éclairées. Shopify partage sa méthodologie et son expérience dans la résolution de ce problème grâce au regroupement de divers ensembles de données en utilisant une approche unique impliquant la réduction de la dimensionnalité, la récursion et l’apprentissage automatique supervisé. Cette approche permet d’obtenir de bons résultats, fournit des informations et contribue à expliquer les phénomènes. Elle aide les chercheurs utilisateurs et les data scientists à mieux comprendre, à affiner les solutions et à itérer efficacement vers le résultat souhaité. De plus, cette méthode intègre une couche d’interprétation, facilitant ainsi la validation des résultats et la communication avec les parties prenantes.

D’après ce texte, l’auteur propose une méthodologie composée de 4 étapes simples :
1. Rendre les données gérables.
2. Regrouper les données.
3. Comprendre (et prédire) les données.
4. Communiquer les informations.

La première étape de ce processus consiste à trouver un moyen de visualiser les données pour une meilleure gestion. Le principal défi est que, dans la pratique, nous traitons souvent des données de grande dimensionnalité. Une approche pratique consiste à utiliser des techniques de réduction de la dimensionnalité telles que l’analyse en composantes principales (PCA). Cependant, PCA peut ne pas être en mesure de représenter toutes les informations en 2 dimensions. L’article suggère d’utiliser une technique alternative appelée Uniform Manifold Approximation and Projection (UMAP). La principale différence entre PCA et UMAP est que UMAP est une méthode de projection qui préserve à la fois les similarités locales et globales des points dans des dimensions inférieures, et qui est également non linéaire. Cela permet de capturer les relations non linéaires entre les données. L’auteur présente des résultats en utilisant l’ensemble de données MNIST (Modified National Institute of Standards and Technology) comme exemple. MNIST se compose de 784 dimensions représentant des chiffres manuscrits de 0 à 9.

Après avoir visualisé les données et acquis une compréhension initiale, il est nécessaire de créer des clusters significatifs. Comme mentionné dans l’article, le regroupement doit avoir les propriétés suivantes pour être explicatif :
1. Un point appartient à un cluster uniquement si le cluster existe.
2. Si vous avez besoin de paramètres pour les clusters, ils doivent être intuitifs.
3. Les clusters doivent être stables même lorsque l’ordre des données ou les conditions initiales changent.

Il existe différents algorithmes de regroupement dans le domaine, tels que K-means et HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). HDBSCAN utilise une approche hiérarchique, combinant le regroupement et la méthode DBSCAN, ce qui permet d’obtenir des clusters plus robustes et significatifs. Des expériences approfondies menées chez Shopify ont montré que HDBSCAN fournit de manière constante des résultats plus précieux et stables.

Pour mieux comprendre le comportement des clusters, il est nécessaire d’appliquer de manière récursive des techniques de regroupement. Ce processus itératif permet de mieux comprendre les relations dynamiques entre les clusters. Ensuite, une fois un nombre suffisant de clusters déterminés, des techniques supervisées, en particulier la classification, peuvent être appliquées. Les méthodes de classification couramment utilisées comme XGBoost peuvent agir comme des modèles « un contre tous » pour chaque cluster.

De plus, l’intégration de SHAP (Shapley Additive Explanations) améliore l’interprétabilité en révélant les principaux facteurs influençant chaque cluster. En combinant HDBSCAN pour le regroupement initial, suivi de XGBoost pour la classification, et en appliquant SHAP pour l’explication, on obtient une méthodologie complète qui permet d’obtenir des informations approfondies sur le comportement des clusters divers.

Dans la dernière étape, il est nécessaire de communiquer les résultats aux chercheurs de données et aux autres parties prenantes et d’itérer vers la solution ultime, si nécessaire.

Des méthodes similaires sont appliquées avec succès dans d’autres domaines, tels que la détection d’anomalies dans les données médicales.

De nombreux ingénieurs en apprentissage automatique sont enthousiastes à l’égard de cette approche. Comme une personne l’a commenté sur LinkedIn : « Umap et Shap sont de véritables révolutionnaires et constituent la base des processus analytiques avancés ».

Section FAQ :

Question 1 : Comment Shopify utilise-t-il un processus interne d’apprentissage automatique ?
Réponse : Shopify utilise un processus interne d’apprentissage automatique pour obtenir des informations précieuses à partir des signaux des clients.

Question 2 : Quels sont les principaux défis auxquels sont confrontées les entreprises en ligne en ce qui concerne les données et la prise de décision ?
Réponse : Le principal défi pour les entreprises en ligne est d’extraire des informations pratiques des données pour prendre des décisions éclairées.

Question 3 : Quelle méthodologie Shopify utilise-t-il pour résoudre le problème du regroupement de divers ensembles de données ?
Réponse : Shopify utilise une méthodologie basée sur la réduction de la dimensionnalité, la récursion et l’apprentissage automatique supervisé.

Question 4 : Quels sont les avantages d’utiliser UMAP par rapport à PCA ?
Réponse : UMAP permet de capturer les relations non linéaires entre les données, ce qui n’est pas possible avec PCA.

Question 5 : Quelles sont les propriétés des clusters qui doivent être explicatives ?
Réponse : Un cluster ne doit exister que s’il y a des points qui lui appartiennent, les paramètres des clusters doivent être intuitifs et les clusters doivent rester stables même en cas de changements des conditions initiales.

Question 6 : Quelles méthodes de classification peuvent être utilisées pour chaque cluster ?
Réponse : Les méthodes de classification couramment utilisées comme XGBoost peuvent agir comme des modèles « un contre tous » pour chaque cluster.

Question 7 : Quels sont les avantages de l’intégration de SHAP dans la méthodologie de regroupement ?
Réponse : L’intégration de SHAP augmente l’interprétabilité en révélant les principaux facteurs influençant chaque cluster.

Question 8 : Dans quels domaines des méthodes similaires peuvent-elles être appliquées ?
Réponse : Des méthodes similaires peuvent être appliquées avec succès dans d’autres domaines, tels que la détection d’anomalies dans les données médicales.

Question 9 : Comment la méthodologie présentée dans l’article est-elle reçue ?
Réponse : La méthodologie présentée dans l’article est chaleureusement accueillie par de nombreux ingénieurs en apprentissage automatique.

Question 10 : Quels sont les avantages d’utiliser UMAP et SHAP ?
Réponse : L’utilisation de UMAP et SHAP permet d’obtenir des informations approfondies sur le comportement des différents clusters.

Glossaire – Termes clés et jargon :
1. Apprentissage automatique – un domaine de l’informatique qui implique la création et l’étude d’algorithmes permettant aux ordinateurs d' »apprendre » à partir de données et d’expériences.
2. Réduction de la dimensionnalité – le processus de réduction du nombre de caractéristiques dans un ensemble de données sans perte d’informations significatives.
3. Analyse en composantes principales (PCA) – une méthode de réduction de la dimensionnalité qui transforme des données de grande dimensionnalité en un nombre inférieur de composantes principales.
4. Uniform Manifold Approximation and Projection (UMAP) – une méthode moderne de réduction de la dimensionnalité qui capture les relations non linéaires entre les points de données.
5. Regroupement – une technique permettant de regrouper des objets de manière à ce que les objets appartenant au même groupe soient similaires et qu’il existe des différences significatives entre les groupes.
6. K-means – un algorithme de regroupement populaire qui divise les objets en groupes en minimisant la somme des distances au carré entre les objets des groupes.
7. HDBSCAN – une méthode de regroupement basée sur une approche hiérarchique qui combine le regroupement et la méthode DBSCAN.
8. DBSCAN – un algorithme de regroupement populaire qui identifie les zones de haute densité de points dans un ensemble de données.
9. XGBoost – une méthode de classification couramment utilisée.

The source of the article is from the blog enp.gr