오늘은 통계학에서 매우 중요한 두 가지 상관계수, 피어슨 상관계수와 스피어만 상관계수에 대해 알아보려고 한다.
데이터 사이의 관계를 이해하는 데 있어 이 두 지표는 매우 유용하지만 그 차이점을 명확히 이해하는 것이 중요하다.
실제 공부를 하면서 아리송했기에 이번 포스트에서는 각각의 상관계수가 무엇이며 어떠한 상황에서 각각을 사용해야 하는지에 대해 설명하려고 한다.

피어슨 상관계수 (Pearson Correlation Coefficient)
피어슨 상관계수는 두 변수 간의 선형 관계의 강도와 방향을 측정하는 방법이다.
이 값은 -1에서 1 사이의 값을 가지며 1은 완벽한 양의 선형 관계를 -1은 완벽한 음의 선형 관계를 0은 선형 관계의 부재를 의미한다.
피어슨 상관계수는 두 변수가 모두 연속적이며 정규 분포를 따를 때 가장 잘 작동하며 선형 관계의 존재만을 파악할 수 있으며 비선형 관계의 강도나 형태는 파악할 수 없다는 한계가 있다.
스피어만 상관계수 (Spearman's Rank Correlation Coefficient)
스피어만 상관계수는 두 변수의 순위 사이의 관계를 측정한다.
이는 변수들이 정규 분포를 따르지 않거나 순위나 순서와 같은 순서형 변수일 때 유용하다.
스피어만 상관계수 역시 -1에서 1 사이의 값을 가지며 피어슨 상관계수와 같이 강도와 방향을 나타낸다.
하지만 스피어만 상관계수는 변수들 사이의 순위에 기반하기 때문에 두 변수 사이의 비선형 관계도 포착할 수 있다는 장점이 있어 변수들 사이의 일반적인 관계를 이해하는 데 더 유연하다.
언제 어떤 상관계수를 사용해야 할까?
데이터가 정규 분포를 따르고, 두 변수 사이에 선형 관계가 의심될 때: 피어슨 상관계수 사용

상황: 한 대학교에서 학생들의 수학 점수와 물리 점수 사이의 관계를 분석하려고 한다. 데이터를 확인한 결과, 두 점수 모두 정규 분포를 따르며 선형 관계를 보이는 것으로 추정된다.
분석: 이 경우, 피어슨 상관계수를 사용하여 두 변수(수학 점수와 물리 점수) 사이의 관계를 분석할 수 있다.
결과: 분석 결과, 피어슨 상관계수가 0.85로 나타나 수학 점수와 물리 점수 사이에 강한 양의 선형 관계가 있음을 나타낸다. 즉, 수학 점수가 높은 학생들은 물리 점수도 높은 경향이 있다.
데이터가 비선형 관계를 보이거나, 정규 분포를 따르지 않거나, 순위 또는 순서형 데이터일 때: 스피어만 상관계수 사용

상황: 영화 평점 사이트에서 사용자가 평가한 영화의 별점(1점부터 5점까지의 순위 데이터)과 영화의 시청 완료 시간 사이의 관계를 분석하려고 한다. 여기서 별점 데이터는 순위 데이터이며 시청 완료 시간 데이터는 정규 분포를 따르지 않는 것으로 보인다. 또한 별점과 시청 시간 사이에는 비선형 관계가 의심된다.
분석: 이 경우, 스피어만 상관계수를 사용하여 별점과 시청 완료 시간 사이의 관계를 분석할 수 있다.
결과: 분석 결과, 스피어만 상관계수가 -0.62로 나타나, 별점과 시청 완료 시간 사이에 중간 정도의 음의 상관 관계가 있음을 나타낸다. 이는 별점이 낮은 영화일수록 시청을 더 빨리 포기하는 경향이 있음을 의미할 수 있다. 이러한 분석은 비선형 관계와 순위 데이터를 다루는 데 적합한 스피어만 상관계수가 유용한 도구임을 보여준다.
'IT > 데이터분석 도전하기' 카테고리의 다른 글
| [데이터 분석가] 데이터 분석가가 되고 싶다면? 이런 유형에게 딱! (0) | 2024.03.20 |
|---|---|
| cifar10 데이터 load 오류 해결하는 법 (0) | 2024.02.26 |
| [다중공선성] 다중공선성 문제와 해결 방법 (0) | 2024.02.16 |
| [데이터 분석] 데이터 분석 기본 과정 (0) | 2024.02.02 |
| [인코딩] 원핫 인코딩(One-Hot Encoding) / 라벨 인코딩(Label Encoding) (0) | 2024.01.30 |