Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

In un articolo recentemente pubblicato, Shopify ha condiviso le sue esperienze con un processo interno di machine learning finalizzato all’ottenimento di informazioni più preziose dai segnali dei clienti. Una delle principali sfide per qualsiasi attività online consiste nell’estrarre informazioni pratiche dai dati per prendere decisioni informate. Shopify condivide la sua metodologia e l’esperienza nel risolvere questo problema attraverso il clustering di dataset diversi utilizzando un approccio unico che comprende riduzione di dimensionalità, ricorsione e machine learning supervisionato. Questo approccio offre risultati solidi, fornisce intuizioni e aiuta a spiegare tutti i fenomeni. Assiste i ricercatori utenti e gli scienziati dei dati a comprendere meglio, raffinare le soluzioni e iterare in modo efficiente verso l’obiettivo desiderato. Inoltre, questo metodo incorpora un livello di interpretazione, facilitando la convalida dei risultati e la comunicazione con gli interessati.

Basandosi su questo testo, l’autore propone una metodologia composta da 4 semplici passaggi:

1. Rendere i dati gestibili.
2. Clustering dei dati.
3. Comprendere (e prevedere) i dati.
4. Comunicare le intuizioni.

Il primo passo di questo processo consiste nel trovare un modo per visualizzare i dati al fine di una migliore gestione. La sfida principale è che nella pratica spesso ci si trova a che fare con dati ad alta dimensionalità. Un approccio pratico consiste nell’utilizzare tecniche di riduzione della dimensionalità come l’Analisi delle Componenti Principali (PCA). Tuttavia, PCA potrebbe non essere in grado di rappresentare tutte le informazioni in 2 dimensioni. L’articolo suggerisce di utilizzare una tecnica alternativa chiamata Uniform Manifold Approximation and Projection (UMAP). La differenza principale tra PCA e UMAP è che UMAP è un metodo di proiezione che preserva sia le somiglianze locali che globali dei punti in dimensioni inferiori ed è anche non lineare. Questo consente di catturare le relazioni non lineari tra i dati. L’autore presenta i risultati utilizzando il dataset MNIST (Modified National Institute of Standards and Technology) come esempio. MNIST consiste di 784 dimensioni che rappresentano cifre scritte a mano da 0 a 9.

Dopo aver visualizzato i dati e ottenuto una comprensione iniziale, è necessario creare cluster significativi. Come menzionato nell’articolo, il clustering dovrebbe presentare le seguenti caratteristiche per essere spiegabile:

1. Un punto appartiene a un cluster solo se il cluster esiste.
2. Se sono necessari parametri per i cluster, dovrebbero essere intuitivi.
3. I cluster dovrebbero essere stabili anche quando l’ordine dei dati o le condizioni iniziali cambiano.

Esistono vari algoritmi di clustering nel campo, come K-means e HDBSCAN (Hierarchical Density-Based Spatial Clustering of Applications with Noise). HDBSCAN utilizza un approccio gerarchico, combinando il clustering e il metodo DBSCAN, ottenendo cluster più robusti e significativi. Estesi esperimenti condotti presso Shopify hanno mostrato che HDBSCAN fornisce costantemente risultati più preziosi e stabili.

Per acquisire una comprensione più approfondita del comportamento dei cluster, è necessario applicare in modo ricorsivo tecniche di clustering. Questo processo iterativo consente di comprendere meglio le relazioni dinamiche tra i cluster. Quindi, una volta determinato un numero sufficiente di cluster, è possibile applicare tecniche supervisionate, in particolare la classificazione. Metodi di classificazione comunemente utilizzati come XGBoost possono fungere da modelli “one-vs-all” per ogni cluster.

Inoltre, integrando SHAP (Shapley Additive Explanations), si migliora l’interpretabilità rivelando i principali fattori che influenzano ciascun cluster. Combinando HDBSCAN per il clustering iniziale, seguito da XGBoost per la classificazione e l’applicazione di SHAP per l’interpretazione, si crea una metodologia completa che consente di ottenere approfondite intuizioni sul comportamento di cluster diversi.

Nella fase finale, è necessario comunicare i risultati ai ricercatori di dati e ad altri interessati e iterare verso la soluzione finale, se necessario.

Metodi simili sono applicati con successo in altri ambiti, come il rilevamento delle anomalie nei dati medici.

Molti ingegneri di machine learning sono entusiasti di questo approccio. Come ha commentato una persona su LinkedIn: “Umap and Shap sono veri rivoluzionari e costituiscono la base di processi analitici avanzati”.

FAQ:

Domanda 1: Come utilizza Shopify un processo interno di machine learning?
Risposta: Shopify utilizza un processo interno di machine learning per ottenere informazioni preziose dai segnali dei clienti.

Domanda 2: Quali sono le principali sfide per le attività online riguardo ai dati e alla presa di decisioni?
Risposta: La principale sfida per le attività online è estrarre informazioni pratiche dai dati per prendere decisioni informate.

Domanda 3: Qual è la metodologia impiegata da Shopify per risolvere il problema del clustering di dataset diversi?
Risposta: Shopify utilizza una metodologia basata sulla riduzione della dimensionalità, la ricorsione e il machine learning supervisionato.

Domanda 4: Quali sono i vantaggi dell’utilizzo di UMAP rispetto a PCA?
Risposta: UMAP consente di catturare relazioni non lineari tra i dati, cosa non possibile con PCA.

Domanda 5: Quali sono le proprietà dei cluster che dovrebbero essere spiegabili?
Risposta: Un cluster dovrebbe esistere solo se ci sono punti che vi appartengono, i parametri dei cluster dovrebbero essere intuitivi e i cluster dovrebbero rimanere stabili anche con i cambiamenti delle condizioni iniziali.

Domanda 6: Quali metodi di classificazione possono essere utilizzati per ogni cluster?
Risposta: Metodi di classificazione comunemente utilizzati come XGBoost possono fungere da modelli “one-vs-all” per ogni cluster.

Domanda 7: Quali sono i vantaggi dell’integrazione di SHAP nella metodologia di clustering?
Risposta: L’integrazione di SHAP aumenta l’interpretabilità rivelando i principali fattori che influenzano ciascun cluster.

Domanda 8: In quali ambiti possono essere applicati metodi simili?
Risposta: Metodi simili possono essere applicati con successo in altri ambiti, come il rilevamento delle anomalie nei dati medici.

Domanda 9: Come viene accolto il metodo presentato nell’articolo?
Risposta: Il metodo presentato nell’articolo è calorosamente accolto da molti ingegneri di machine learning.

Domanda 10: Quali sono i vantaggi dell’utilizzo di UMAP e SHAP?
Risposta: L’utilizzo di UMAP e SHAP consente di ottenere intuizioni approfondite sul comportamento di cluster diversi.

Glossario – Termini Chiave e Gergo:
1. Machine Learning – un campo dell’informatica che consiste nella creazione e nello studio di algoritmi che consentono ai computer di “imparare” dai dati e dalle esperienze.
2. Riduzione della Dimensionalità – il processo di riduzione del numero di caratteristiche in un dataset senza perdere informazioni significative.
3. Principal Component Analysis (PCA) – un metodo di riduzione della dimensionalità che trasforma i dati ad alta dimensionalità in un numero inferiore di componenti principali.
4. Uniform Manifold Approximation and Projection (UMAP) – un moderno metodo di riduzione della dimensionalità che cattura relazioni non lineari tra i punti dei dati.
5. Clustering – una tecnica per raggruppare oggetti in modo che gli oggetti all’interno dello stesso gruppo siano simili e ci siano differenze significative tra i gruppi.
6. K-means – un algoritmo di clustering popolare che divide gli oggetti in gruppi minimizzando la somma delle distanze quadrate tra gli oggetti nei gruppi.
7. HDBSCAN – un metodo di clustering basato su un approccio gerarchico che combina il clustering e il metodo DBSCAN.
8. DBSCAN – un popolare algoritmo di clustering che identifica aree di alta densità di punti in un dataset.
9. XGBoost – un algoritmo di machine learning che utilizza boosting basato su alberi di decisione.

The source of the article is from the blog radiohotmusic.it