Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

Extraindo Informações Valiosas dos Dados usando Aprendizado de Máquina

2024-01-19

Em um artigo recentemente publicado, Shopify compartilhou suas experiências com um processo interno de aprendizado de máquina com o objetivo de obter insights mais valiosos dos sinais dos clientes. Um dos principais desafios para qualquer negócio online é extrair informações práticas dos dados para tomar decisões fundamentadas. A Shopify compartilha sua metodologia e experiência na resolução desse problema por meio da clusterização de conjuntos de dados diversos usando uma abordagem única que envolve redução de dimensionalidade, recursão e aprendizado de máquina supervisionado. Essa abordagem produz resultados sólidos, fornece insights e ajuda a explicar fenômenos. Ela auxilia os pesquisadores de usuários e cientistas de dados a entenderem melhor, refinar soluções e iterar de maneira eficiente em direção ao resultado desejado. Além disso, esse método incorpora uma camada de interpretabilidade, facilitando a validação dos resultados e a comunicação com as partes interessadas.

Com base neste texto, o autor propõe uma metodologia composta por 4 etapas simples:

1. Tornar os dados gerenciáveis.
2. Clusterizar os dados.
3. Compreender (e prever) os dados.
4. Comunicar os insights.

A primeira etapa desse processo é encontrar uma maneira de visualizar os dados para um melhor gerenciamento. O principal desafio é que, na prática, lidamos com dados de alta dimensionalidade. Uma abordagem prática é usar técnicas de redução de dimensionalidade, como a Análise de Componentes Principais (PCA). No entanto, o PCA pode não ser capaz de representar todas as informações em 2 dimensões. O artigo sugere o uso de uma técnica alternativa chamada Aproximação e Projeção Uniforme de Manifold (UMAP). A principal diferença entre o PCA e o UMAP é que o UMAP é um método de projeção que preserva tanto as similaridades locais quanto globais dos pontos em dimensões inferiores, sendo também não linear. Isso permite capturar relacionamentos não lineares entre os dados. O autor apresenta resultados usando o conjunto de dados MNIST (Instituto Nacional de Padrões e Tecnologia Modificado) como exemplo. O MNIST consiste em 784 dimensões que representam dígitos escritos à mão de 0 a 9.

Após visualizar os dados e obter uma compreensão inicial, é necessário criar clusters significativos. Conforme mencionado no artigo, a clusterização deve ter as seguintes propriedades para explicação:

1. Um ponto pertence a um cluster apenas se o cluster existir.
2. Se forem necessários parâmetros para os clusters, eles devem ser intuitivos.
3. Os clusters devem ser estáveis mesmo quando a ordem dos dados ou as condições iniciais mudarem.

Existem vários algoritmos de clusterização no campo, como K-means e HDBSCAN (Agrupamento Hierárquico Baseado em Densidade Espacial de Aplicações com Ruído). O HDBSCAN utiliza uma abordagem hierárquica, combinando a clusterização e o método DBSCAN, resultando em clusters mais robustos e significativos. Experimentos extensivos realizados na Shopify mostraram que o HDBSCAN fornece consistentemente resultados mais valiosos e estáveis.

Para obter uma compreensão mais profunda do comportamento dos clusters, é necessário aplicar recursivemente técnicas de clusterização. Esse processo iterativo permite uma melhor compreensão das relações dinâmicas entre os clusters. Em seguida, uma vez determinado um número suficiente de clusters, podem ser aplicadas técnicas supervisionadas, especialmente a classificação. Métodos de classificação comumente utilizados, como XGBoost, podem atuar como modelos “um-contra-todos” para cada cluster.

Além disso, a integração do SHAP (Shapley Additive Explanations) melhora a interpretabilidade, revelando os principais fatores que influenciam cada cluster. Ao combinar o HDBSCAN para a clusterização inicial, seguido do XGBoost para a classificação e aplicação do SHAP para a explicação, cria-se uma metodologia abrangente que permite insights aprofundados sobre o comportamento de clusters diversos.

Na etapa final, é necessário comunicar os resultados aos pesquisadores de dados e outras partes interessadas e iterar em direção à solução final, se necessário.

Métodos similares são aplicados com sucesso em outros domínios, como detecção de anomalias em dados médicos.

Muitos engenheiros de aprendizado de máquina estão entusiasmados com essa abordagem. Como comentou uma pessoa no LinkedIn: “Umap e Shap são verdadeiros revolucionários e formam a base de processos analíticos avançados”.

Perguntas frequentes:

Pergunta 1: Como a Shopify utiliza um processo interno de aprendizado de máquina?
Resposta: A Shopify utiliza um processo interno de aprendizado de máquina para obter insights valiosos dos sinais dos clientes.

Pergunta 2: Quais são os principais desafios para negócios online em relação a dados e tomada de decisões?
Resposta: O principal desafio para negócios online é extrair informações práticas dos dados para tomar decisões fundamentadas.

Pergunta 3: Que metodologia a Shopify emprega para resolver o problema de clusterização de conjuntos de dados diversos?
Resposta: A Shopify utiliza uma metodologia baseada em redução de dimensionalidade, recursão e aprendizado de máquina supervisionado.

Pergunta 4: Quais são os benefícios de usar UMAP em comparação com o PCA?
Resposta: O UMAP permite capturar relacionamentos não lineares entre os dados, o que não é possível com o PCA.

Pergunta 5: Quais são as propriedades dos clusters que devem ser explicáveis?
Resposta: Um cluster deve existir somente se houver pontos pertencentes a ele, os parâmetros dos clusters devem ser intuitivos e os clusters devem permanecer estáveis mesmo com mudanças nas condições iniciais.

Pergunta 6: Quais métodos de classificação podem ser usados para cada cluster?
Resposta: Métodos de classificação comumente utilizados, como o XGBoost, podem atuar como modelos “um-contra-todos” para cada cluster.

Pergunta 7: Quais são os benefícios de integrar o SHAP na metodologia de clusterização?
Resposta: A integração do SHAP aumenta a interpretabilidade, revelando os principais fatores que influenciam cada cluster.

Pergunta 8: Em quais domínios métodos similares podem ser aplicados?
Resposta: Métodos similares podem ser aplicados com sucesso em outros domínios, como detecção de anomalias em dados médicos.

Pergunta 9: Como a metodologia apresentada no artigo é recebida?
Resposta: A metodologia apresentada no artigo é bem recebida por muitos engenheiros de aprendizado de máquina.

Pergunta 10: Quais são os benefícios de usar UMAP e SHAP?
Resposta: Usar UMAP e SHAP permite obter insights aprofundados sobre o comportamento de clusters diversos.

Glossário – Termos e Jargões Chave:
1. Aprendizado de Máquina – um campo da ciência da computação que envolve a criação e o estudo de algoritmos que permitem que os computadores “aprendam” a partir de dados e experiências.
2. Redução de Dimensionalidade – o processo de reduzir o número de características em um conjunto de dados sem perder informações significativas.
3. Análise de Componentes Principais (PCA) – um método de redução de dimensionalidade que transforma dados de alta dimensionalidade em um número menor de componentes principais.
4. Aproximação e Projeção Uniforme de Manifold (UMAP) – um método moderno de redução de dimensionalidade que captura relacionamentos não lineares entre os pontos de dados.
5. Clusterização – uma técnica para agrupar objetos de forma que objetos no mesmo grupo sejam similares e existam diferenças significativas entre os grupos.
6. K-means – um algoritmo de clusterização popular que divide objetos em grupos minimizando a soma dos quadrados das distâncias entre objetos dos grupos.
7. HDBSCAN – um método de clusterização baseado em uma abordagem hierárquica que combina clusterização e o método DBSCAN.
8. DBSCAN – um algoritmo de clusterização popular que identifica áreas de alta densidade de pontos em um conjunto de dados.
9. XGBoost – um algoritmo de aprendizado de máquina de boosting que pode ser utilizado para classificação e regressão.

The source of the article is from the blog yanoticias.es

Cuphead Game Pass – Rewolucja w świecie gier
Previous Story

Cuphead Game Pass: Uma Revolução no Mundo dos Jogos

Épernay, FR – Znajdź rajskie seciki Champagne
Next Story

Épernay, FR – Desvende o Paraíso do Champanhe

Latest from News