자! 오늘은 상관관계(Correlation) 분석이다. 많은 분들이 상관관계 분석이 곧 변수들 간의 인과관계로 오해를 하고 있다.
인과관계와 상관관계는 다르다. ***아주 아주 쉽게 설명을 하는 것이니, 이해해주길 바란다. ㅠㅠ
1. 상관관계란?(개념 + 뒷부분 뻘소리)
설문연구에서 상관관계분석은 피어슨(Pearson)의 상관계수를 구하고, 해석하기 위한 분석이다.
우리는 등간척도, 비율척도로 수집된 설문 데이터를 상관관계분석에 사용한다.
인과관계 : 원인과 결과에 대한 관계(자연과학의 실험에서 자주 언 됨)
(예 : A하면 B된다의 말이 확실할 때. 물을 100도가 넘는 상태에서 끓이는 시간이 길수록 → 물은 줄어든다(증발한다))
상관관계 : 말그대로 상관이 있냐 없냐의 관계(사회과학에서 자주 언급 됨 / 그만큼 우리가 사는 사회는 복잡하고 여러 변수들이 얽혀 있고, 관련된 변수들을 100% 다 잡아내기는 불가능에 가깝다)
(예 : A하면 B될 수 있을 때, 살면서 주변을 보니 경험상 그럴 가능성이 많을 때 ㅋㅋ)
(예 : 키와 몸무게 -> 키가 클수록 체중이 많이 나간다 -> 키가 180이 넘지만 마른 사람들은 있다. 100%로 키가 클수록 몸무게가 많이 나가는 것은 아니다, 하지만 우리가 상식적으로 키가 크면 무게도 많이 나간다는걸 알 수 있다.)
가끔 예외를 생각하는 분들이 있다.
내 친구는 186cm인데 몸무게가 60인데? 50도 있는데? 그런 친구 많은데? 10명 넘는데? -->> 이러지 말자. ㅡㅡ;;
연구는 기존 세상이 잘못 알고 있는 것들(천동설-> 지동설)을 바로 잡아주는 것은 맞다.
하지만 그렇다고 세상 모~~든 상식적인 것들을 아닌데? 아닌데? 의심하지는 말자.
아닌데? 이상한데?는 선행연구들을 많~~~~이 읽고 빈틈을 찾아내어 연구할 때 가치가 있는 것이다.
2. 상관관계 실습 절차
1) 각 변수의 측정문항들을 평균내자 -> 엑셀 이용(편해서... SPSS에서도 평균 구하기 가능)
아래에 아주 간단한 예시를 제시하였다.(가설 : 고객이 블로그에 만족하면 할수록 블로그 재방문을 할 것이다.)
변수 : 만족(독립변수), 재방문(종속변수)*** 데이터는 독립성을 가진 것으로 가정한다. 실제로 그렇다 ㅋㅋ
만족이라는 변수를 묻는 측정문항 : 4개
재방문이라는 변수를 묻는 측정문항 : 4개
*** 독립변수 종속변수, 가설설정에 대한 설명은 이후에 포스팅하겠다.
<데이터 예시>
<평균 구하기>
2) 분석 -> 상관분석 -> 이변량 상관계수 클릭
일단, 분석을 클릭하고, 상관분석을 클릭한다. 마지막으로 이변량 상관계수라는 메뉴를 클릭한다.
<상관관계 분석을 위한 메뉴얼>
3) 상관관계 분석을 하고자하는 변수를 옮김
이때, 마우스로 옮겨도 되고, 화살표 버튼을 클릭해서 옮겨도 된다.
주의사항 : 측정문항은 옮기지 말자!!!
<상관관계분석 변수 옮기기>
4) 상관관계 분석 옵션 설정 -> 확인 클릭
옵션은 말그대로 자유다. 일반적으로 평균과 표준편차를 주로 본다.
평균과 표준 편차를 설정하고 "계속"을 클릭한 후 "확인"을 클릭한다.
<상관관계 분석 옵션 선택>
5) 상관관계 분석결과 해석
상관관계 분석에 사용된 데이터의 개수 : 232개
만족의 평균: 3.21, 표준편차: 0.57
재방문의 평균: 3.13 표준편차: 0.52
만족과 재방문 사이에는 유의 수준 0.001 미만에서 아주 강한 정(+)의 상관관계가 있는 것으로 나타났다.
즉, 만족이 1표준편차 증가하면, 재방문은 0.513 정도가 증가한다고 볼 수 있다.
상관관계 값(=상관계수)은 +1~-1 사이의 값을 가진다.
상관계수가 +1 = 아주 강한 양(+)의 상관관계 있음 = A변수가 1표준편차 증가하면 B는 해당 상관계수 만큼 증가
상관계수가 -1 = 아주 강한 음(-)의 상관관계 있음 = A변수가 1표준편차 증가하면 B는 해당 상관계수 만큼 감소
상관계수가 0 = 아무 상관이 없음을 의미
***평균, 표준편차, 표준오차, 신뢰성과 타당성, 유의수준에 대한 자세한 설명은 다음 포스팅에 설명하겠다.
*** 화면에서는 상관이 0.01 수준에서 유의하다고 하였지만, 실제 유의수준(양쪽)을 보면 0.000이다.
즉, 0.000 수준에서 유의하다고 해석하면 된다.
<상관관계 분석결과 화면>
6) 논문에서 상관관계분석 표현
아래의 표처럼 모든 변수를 다~ 적고, 평균, 표준편차를 적어준다. 그리고 대각선 1을 먼저 쭉~~적어주고, 대각선 아래만 분석 결과대로 채워준다.
변수1과 변수1은 서로 1인데, 이유는 자기자신은 남들(=다른 변수) 보다 가장 상관이 높기 때문이다.
***본인이 본인을 더 잘 아는가? 남이 본인을 더 잘 아는가? 본인이 본인을 가장 잘 알 것이다.
대각선 윗 부분을 안 적는 이유는 대각선 아래와 위가 똑같기 때문이다.
<논문에서 상관관계 분석결과를 적은 표>
자! 오늘은 상관관계분석이 무엇인지, 상관관계분석을 어떻게 분석하는지에 대해 알아보았다.
물론 상관관계분석에 대해 좀 더 얘기할 수도 있으나, 여러분의 목적은 원리보단 실습이라고 생각했기에 이만 포스팅을 마치고자 한다.
실습 위주의 블로그이다 보니, 다음은 요인분석에 대해 포스팅할 예정이다.
여러 개념과 이론(예: 타당성, 신뢰성, 척도의 종류 등)이 아~~주 많지만, 일단 실습을 위주로 포스팅 하겠다.
왜냐하면, 여러분은 통계 이론보단 지금 당장!!! 여러분의 논문을 분석하고 쓰고 싶어하니까~
나도 그 마음... 아주 아주 잘 알고 있다 ㅠㅠ
특히!!! 파트타임 여러분 화이팅 ♥
댓글 영역