Jak uzyskać cenne wnioski z danych za pomocą uczenia maszynowego?

최근에 발표된 기사에서 샵파이는 고객 신호에서 가치 있는 인사이트를 얻기 위한 내부 기계 학습 프로세스에 대한 경험을 공유했습니다. 온라인 비즈니스의 주요 과제 중 하나는 의사 결정에 도움이 되는 실용적인 정보를 데이터에서 추출하는 것입니다. 샵파이는 차원 감소, 재귀, 지도 학습 기계 학습을 통해 다양한 데이터셋을 클러스터링하는 독특한 접근 방식을 사용하여 이 문제를 해결하는 방법과 경험을 공유했습니다. 이 접근 방식은 강력한 결과를 도출하며 인사이트를 제공하고 현상을 설명하는 데 도움을 줍니다. 이는 사용자 연구원과 데이터 과학자가 원하는 결과를 이루기 위해 해결책을 더 잘 이해하고 개선하며 효율적으로 반복하는 데 도움을 줍니다. 또한, 이 방법은 결과 검증과 이해 관계자와의 의사 소통을 용이하게 하는 해석 가능성 층을 포함하고 있습니다.

이 글은 다음과 같은 4 단계로 이루어진 방법론을 제안합니다:

1. 데이터 관리 가능하게 만들기.
2. 데이터를 클러스터링하기.
3. 데이터 이해(및 예측)하기.
4. 인사이트를 전달하기.

이 프로세스의 첫 번째 단계는 데이터를 시각화하여 더 나은 관리를 위한 방법을 찾는 것입니다. 실제로 우리는 종종 고차원 데이터를 다루게 됩니다. 하지만, 차원 감소 기법인 주성분 분석 (PCA) 마법같이 모든 정보를 2차원에서 표현할 수는 없습니다. 본 기사에서는 PCA 대신 대안 기법인 일관 근사 및 투영(UKMAP)을 사용하는 것을 제안합니다. PCA와 UKMAP의 주된 차이점은 UKMAP은 점들의 로컬 및 전역적인 유사성을 보존하는 프로젝션 방법이며 비선형적입니다. 이는 데이터 간의 비선형 관계를 캡처할 수 있도록 합니다. 우리는 MNIST 데이터셋(수정된 미국 국립 기술 연구소)을 예제로 사용하여 결과를 보여줍니다. MNIST는 0부터 9까지의 손글씨 숫자를 나타내는 784개의 차원으로 구성되어 있습니다.

데이터를 시각화하고 초기 이해를 얻은 후에는 중요한 클러스터를 만들어야 합니다. 본 기사에서 언급된 대로, 설명을 위한 클러스터링은 다음과 같은 특성을 가져야 합니다:

1. 클러스터가 존재하는 경우에만 해당 클러스터에 속하는 점입니다.
2. 클러스터에 대한 매개 변수가 필요한 경우 직관적으로 이해할 수 있어야 합니다.
3. 데이터의 순서나 초기 조건이 변경되더라도 클러스터링은 안정적이어야 합니다.

K-평균 및 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise)과 같은 다양한 클러스터링 알고리즘이 존재합니다. HDBSCAN은 클러스터링과 DBSCAN 방법을 결합한 계층적 접근 방식을 사용하여 보다 견고하고 의미 있는 클러스터를 생성합니다. 샵파이에서 수행한 다양한 실험들은 HDBSCAN이 일관적이고 가치 있는 결과를 제공한다는 것을 보여주었습니다.

클러스터 동작을 더 깊이 이해하기 위해 재귀적으로 클러스터링 기법을 적용하는 것이 필요합니다. 이 반복적인 프로세스는 클러스터간의 동적 관계를 더 잘 이해할 수 있게 해줍니다. 그런 다음 충분한 수의 클러스터가 결정되면 지도 기법, 특히 분류를 적용할 수 있습니다. XGBoost와 같은 일반적으로 사용되는 분류 방법은 각 클러스터에 대해 “일대모든” 모델로 작용할 수 있습니다.

또한 SHAP(Shapley Additive Explanations)을 통합함으로써 각 클러스터에 영향을 미치는 주요 요인을 알 수 있는 설명력을 향상시킬 수 있습니다. HDBSCAN을 초기 클러스터링으로 사용하고, 분류를 위해 XGBoost를 사용하고, SHAP를 적용하는 것은 다양한 클러스터의 동작에 대한 심층적인 인사이트를 얻을 수 있는 포괄적인 방법론을 구축하는 데 도움을 줍니다.

마지막 단계에서는 결과를 데이터 연구원 및 이해 관계자에게 전달하고 필요한 경우 궁극적인 해결책을 위해 반복해야 합니다.

병원 데이터에서 이상 감지와 같은 다른 영역에서도 비슷한 방법이 성공적으로 적용됩니다.

많은 기계 학습 엔지니어들은 이 접근 방식에 대해 열광적입니다. 링크든 계정에 남겨진 댓글처럼, “Umap와 Shap은 진정한 혁명가들이며 고급 분석 프로세스의 기반을 형성합니다.”

자주 묻는 질문:

질문 1: 샵파이는 어떻게 내부 기계 학습 프로세스를 활용하나요?
답변: 샵파이는 내부 기계 학습 프로세스를 사용하여 고객 신호로부터 가치 있는 인사이트를 얻습니다.

질문 2: 데이터와 의사 결정에 대한 온라인 비즈니스의 주요 과제는 무엇인가요?
답변: 온라인 비즈니스에 대한 주요 과제 중 하나는 데이터에서 실용적인 정보를 추출하여 의사 결정을 내리는 것입니다.

질문 3: 샵파이는 다양한 데이터셋을 클러스터링하는 문제를 해결하기 위해 어떤 방법론을 채택하나요?
답변: 샵파이는 차원 감소, 재귀, 지도 학습 기계 학습을 기반으로 한 방법론을 사용합니다.

질문 4: UMAP과 PCA를 비교했을 때, UMAP을 사용하는 것에 어떤 이점이 있나요?
답변: UMAP은 PCA와 달리 데이터 간 비선형적인 관계도 표현할 수 있습니다.

질문 5: 설명 가능한 클러스터가 가져야 하는 특성은 무엇인가요?
답변: 클러스터는 해당 클러스터에 속하는 점이 있는 경우에만 존재해야 하며, 클러스터의 매개 변수는 직관적으로 이해할 수 있어야 하며, 초기 조건이 변경되더라도 클러스터링은 안정적이어야 합니다.

질문 6: 각 클러스터에는 어떤 분류 기법을 사용할 수 있나요?
답변: XGBoost와 같은 일반적으로 사용되는 분류 기법은 각 클러스터에 대해 “일대모든” 모델로 작용할 수 있습니다.

질문 7: 클러스터링 방법론에 SHAP를 통합하는 것의 이점은 무엇인가요?
답변: SHAP를 통합함으로써 각 클러스터에 영향을 미치는 주요 요인을 확인함으로써 설명력을 높일 수 있습니다.

질문 8: 비슷한 방법론을 적용할 수 있는 영역은 어떤 것들이 있나요?
답변: 의료 데이터에서 이상 감지와 같은 다른 영역에도 비슷한 방법론을 성공적으로 적용할 수 있습니다.

질문 9: 본 기사에서 제안된 방법론은 어떻게 받아들여지고 있나요?
답변: 기계 학습 엔지니어들 사이에서 이 기사에서 제안된 방법론은 열광적으로 받아들여지고 있습니다.

질문 10: UMAP과 SHAP를 사용하는 것에 어떤 이점이 있나요?
답변: UMAP과 SHAP를 사용하면 다양한 클러스터의 동작에 대한 심층적인 인사이트를 얻을 수 있습니다.

용어 해설:
1. 기계 학습 – 컴퓨터 과학의 한 분야로, 데이터와 경험을 통해 컴퓨터가 “학습”할 수 있는 알고리즘을 만들고 연구하는 분야입니다.
2. 차원 감소 – 데이터셋의 특성 수를 줄이면서도 중요한 정보를 잃지 않는 과정입니다.
3. 주성분 분석 (PCA) – 고차원 데이터를 더 낮은 수의 주요 구성 요소로 변환하는 차원 감소 방법입니다.
4. 일관 근사 및 투영(UKMAP) – 비선형 관계를 캡처할 수 있는 현대적인 차원 감소 방법입니다.
5. 클러스터링 – 비슷한 특성을 가진 객체들을 그룹으로 묶는 기법입니다.
6. K-평균 – 객체를 그룹으로 나눌 때 그룹 내의 객체 간의 제곱 거리 합을 최소화하는 방식으로 동작하는 인기있는 클러스터링 알고리즘입니다.
7. HDBSCAN – 클러스터링과 DBSCAN 방법을 결합한 계층적 접근 방식을 사용하는 클러스터링 방법입니다.
8. DBSCAN – 데이터셋에서 밀도가 높은 영역을 식별하는 인기있는 클러스터링 알고리즘입니다.
9. XGBoost – 각 클러스터에 대해 “일대모든” 모델로 작용할 수 있는 일반적으로 사용되는 분류 방법입니다.

The source of the article is from the blog elblog.pl