공부/데이터분석

[데이터분석입문]기초통계2

_마디 2021. 12. 1. 15:35
반응형

[데이터분석입문]기초통계2

A. t-분석

1. t-분석방법

독립변수가 비연속형 변수(명목척도나 서열척도)이고, 종속변수가 연속형 변수(등간척도나 비율척도)일 때 사용하는 분석방법 독립변수의 집단이 2개 이하일 때 사용한다. 비연속변수의 집단으로 구성되어 있으므로 집단 간의 평균 차이 분석을 의미한다. t-분포를 사용하여 분석이 이루어진다. 독립변수가 1개의 집단 or 2개의 집단에 따라 가설과 분석방법이 변함.

2. t-분석의 종류

1) 일표본 t-분석
하나의 모집단에서 표본을 추출할 때 사용되는 분석으로 표본의 평균이 예측한 특정 수치와 같은 지 다른 지 검증하는 방법

H0 : 국내 중학생의 평균 키는 170cm이다.
H1(양측 검증) : 국내 중학생의 평균 키는 170cm이 아니다.
H1(단측 검증) : 국내 중학생의 평균 키는 170cm보다 크다.

집단1(X1,X2,X3,X4)에 종속변수 Y의 평균이 특정수치와 같은지 검증한다.

2) 독립표본 t-분석
두 개의 모집단에서 각각의 표본을 추출할 때 사용되는 분석으로 두 집단의 표본들의 평균이 서로 같은 지 다른 지 검중하는 방법

H0 : A집단의 평균과 B집단의 평균은 같다.
H1(양측 검증) : A집단의 평균과 B집단의 평균은 다르다.
H2(단측 검증) : A집단의 평균은 B집단의 평균 보다 크다.

집단1의 종속변수 Y의 평균과 집단 2의 평균을 비교한다. 두 개의 집단의 분산이 동등한 지가 중요하다.

3) 대응표본 t-분석
하나의 모집단에서 표본을 추출하지만, 같은 표본에게 두 번의 측정이 이루어질 때 사용
측정이 두 번 이루어져서 두 개의 집단이 존재하는 것처럼 보이지만 측정이 이루어진 대상은 하나의 집단 밖에 없으므로 일표본이나 독립표본 t-분석으로 분석할 수 없다.

H0 : 사전 수치와 사후 수치는 같다.
H1(양측 검증) : 사전 수치와 사후 수치는 다르다.
H2(단측 검증) : 사전 수치보다 사후 수치가 더 크다.

각 개인들의 사전 수치와 사후 수치를 비교한다.

*독립변수의 집단이 3개 이상일 경우 분산 분석을 사용한다.

 

 

B. 분산분석(ANOVA)

1. 분산분석

독립변수가 비연속형 변수(명목척도나 서열척도)이고 종속변수가 연속형 변수(등간척도나 비율척도)일 때 사용하는 분석 방법 독립변수의 집단이 3개 이상일 때 사용하는 분석 방법 F-분포를 사용하여 분석

2. 분산분석 대표 가설

H0 : 집단들의 평균은 모두 같다.
H1 : 집단들의 평균은 서로 다르다.

3. 분산 분석의 원리

집단 간 분산(집단간 편차를 제곱한 수치)과 집단 내 분산(집단 내 편차를 제곱한 수치)을 통해 분석

- 집단 간 분산 > 집단 내 분산 : 집단 간 차이가 있음, 집단 간 평균차이 존재
- 집단 간 분산 < 집단 내 분산 : 집단 간 차이가 크지 않음

실제 분석은 (집단 간 분산) ÷ (집단 내 분산) 을 활용

사후분석 : 집단들의 평균을 2개씩 여러번 비교하여 어떠한 집단들 간에 평균 차이가 발생하는 지 알아보기 위한 분석 추가적인 분석으로 가설을 설정하지 않음.
두 집단간의 평균 차이가 발생할 것이라고 이론적으로 예측한다면 t-분석을 사용하여 분석함.

4. 분산분석의 종류

1) 1-way ANOVA : 독립변수 1개, 종속변수 1개
2) 2-way ANOVA : 독립변수 2개, 종속변수 1개
3) 3-way ANOVA : 독립변수 3개, 종속변수 1개
4) ANCOVA : 독립변수 1개, 종속변수 1개, 통제변수 1개 이상
5) MANOVA : 독립변수 1개, 종속변수 2개 이상
6) MANCOVA : 독립변수 1개, 종속변수 2개 이상, 통제변수 1개 이상

 

 

C. 회귀분석

1. 회귀분석

원인이 되는 독립변수와 결과가 되는 종속변수가 모두 연속성 변수(등간척도나 비율척도)일 때 사용하는 분석방법
추정방식은 OLS(Ordinary least square)로 이루어짐. 오차의 제곱을 최소화 하는 직선이라는 의미.

y=b0 + b1 * x + e
y : 종속변수
x : 독립변수
b0 : 절편(독립변수 x가 0일 때 y의 수치)
b1 :기울기(독립변수 변화량 분의 종속변수 변화량)
e : 오차

오차들, 즉 편차들의 제곱을 최소화 할 수 있는 직선이 점들을 대표할 수 있다.
가장 중요한 것은 기울기 b1이다. 독립변수가 의미있는 영향을 미치는지에 대해 판단하기 위해 b1이 0인지 아닌지
알아야 한다.

2. 대표 가설

H0 : 독립변수가 종속변수에 미치는 영향의 크기는 0이다.
H1(양측검증) : 독립변수가 종속변수에 미치는 영향의 크기는 0이 아니다.
H1(단측검증) : 독립변수가 종속변수에 미치는 영향의 크기는 0보다 크다.

3. 회귀분석의 특징

여러 개의 독립변수가 포함되어 종속변수에 어떤 영향을 미치는지 알 수 있다.
여러 독립변수들을 포함하는 경우에는 서로 통제되어 자신의 독자적인 영향력으로 계산.

eg)
y = b0 + b1 * x + b2 * x2 + b3 * x3 + b4 * x4
4개의 독립변수들이 서로 함께 영향을 미치는 교집합은 제외되고 각각의 독립적인 영향력을 알 수 있다.

4. 설명량(R²)

독립변수들에 의해서 설명되어지는 종속변수의 분산
R²가 증가할수록 회귀식에서 설명되지 못하는 오차는 감소
증가된 설명량을 이용해서 독립변수의 포함 여부를 결정

y1 = b0 + b1 * x + b2 * x2 + b3 * x3
y2 = b0 + b1 * x + b2 * x2 + b3 * x3 + b4 * x4

y2는 y1에서 x4라는 변수가 새롭게 포함된 변수다. 1번째 R²과 2번째 R²이 계산되는데 새로운 독립변수가 포함된
R² 수치가 더 높을 것이다. 
R²의 증가량이 0이 아니면 x4에 의해 설명되는 부분이 크다는 것을 의미하며 독립변수 x4는 회귀식에 포함되는 것이 좋다.
R²의 증가량이 0과 비슷한 수치라면 x4에 의해 설명되는 부분이 크지 않다는 것으로 회귀식에 포함할 필요가 없다.
보통 통계분석에서 x4에서 회귀계수가 0이 아닌 수치라면 R²의 증가량이 0이 아닌 수치로 나온다.

 

 

D. 로지스틱회귀분석

1. 로지스틱 회귀분석

독립변수가 연속형 변수이지만 종속변수가 비연속형 변수(특히 이분형 변수)일 때 사용
로그함수로 분석이 이루어져 로지스틱 회귀분석이라고 한다.

*이분형 변수 : 경우의 수가 2가지인 변수로 어떠한 사건이 발생하거나 발생하지 않는 경우만 있는 변수

Odd ratio : p / (1-p)
특정 사건이 별생할 확률과 발생하지 않을 확률 간의 비율

로지스틱 회귀식
In( p / (1-p) ) = b0 + b1 * x1

회귀분석에서 종속변수(y)를 Odd 비에 자연로그를 취한 값으로 대체
b0 : y절편, b1 : 기울기

 

2. 로지스틱 회귀분석의 원리

1) b1 > 0 :  x가 증가할수록 특정 사건이 발생하지 않을 확률보다 발생할 확률이 높음을 의미
2) b1 < 0 :  x가 증가할수록 특정 사건이 발생할 확률보다 발생하지 않을 확률이 높음을 의미

 

3. 로지스틱 회귀본석 대표 가설

H0 : 독립변수가 종속변수에 미치는 영향의 크기는 0이다.
H1(양측검증) : 독립변수가 종속변수에 미치는 영향의 크기가 0이 아니다.
H2(단측검증) : 독립변수가 종속변수에 미치는 영향의 크기가 0보다 크다/작다. 

 

4. 모형적합도

모형이 적절하게 만들어졌는지를 보여주는 지표
모형에 포함된 독립변수들에 의해서 종속변수가 설명되어지는 부분, 즉 발생할 확률과 발생하지 않을 확률의 비율을 얼만큼 설명하느냐.
대표적으로 X²-수치, -2log우도 같은 수치가 활용됨.

회귀분석과 비슷하지만 분석원리가 다름에 따라 회귀계수를 검증하는 방식도 약간 다르다.
회귀분석에 대한 검증하는 방식도 발생할 가능성으로 표현한다.

 

 

E. 조절효과와 매개효과

독립변수와 종속변수 이외에 제 3의 변수를 고려하여 분석하는 방법

 

1. 조절효과

독립변수가 종속변수에 미치는 영향이 조절변수에 의해서 달라지는 지를 알아보는 분석방법

도식화 : 
독립변수 → 종속변수
            ↑
        조절변수

eg) 
자율성 → 직무성과
         ↑ 
      공정성

*조절변수에 의해서 독립변수가 종속변수에 미치는 영향의 크기가 달라질 수 있다.

 

2. 조절효과 유형

 

3. 매개효과

독립변수와 종속변수 간의 직접적인 인과관계 이외에도 매개변수를 통한 간접적인 인과관계가 존재하는 지 알아보는 분석방법

도식화 : 
독립변수 → 종속변수
      ↘       ↗      
      매개변수

* 총효과 = 직접효과 + 간접효과(매개효과)
* 독립변수가 종속변수에 영향을 미치고 독립변수가 매개변수에 영향을 미치고 매개변수가 종속변수에 영향을 미침

eg)
자율성 → 직무성과
      ↘     ↗      
        동기

 

4. 매개효과 유형

1) 부분매개모형 : 매개변수를 고려한 상태에서 독립변수가 종속변수에 미치는 직접적인 효과가 유의미한 경우

    독립변수 → 종속변수
           ↘     ↗      
          매개변수

2) 완전매개모형 : 매개변수를 고려한 상태에서 독립변수가 종속변수에 미치는 직접적인 효과가 유의미하지 않은 경우

    독립변수 → 매개변수 → 종속변수

 

 

F. 구조방정식모형

1. 구조방정식모형

변수들 간의 관계를 밝히는 구조모형과 각 변수와 이를 측정하는 문항들 간의 관계를 밝히는 측정모형을 함께 고려하는 분석방법.
매개효과 분석과 문항들 간의 확인적 요인분석에 주로 활용됨.

 

2. 구조모형

: 변수들 간의 관계

어떠한 변수가 어떤 변수에 영향을 미치는지 알아보는 것으로 회귀계수가 나온다.
직접효과 이외에도 간접효과(매개효과)도 알 수 있다.

 

3. 측정모형

: 변수와 측정문항들 간의 관계

각 문항들이 각 변수를 정확하게 묻고 있는지 알아볼 수 있다.
회귀분석은 각 문항들의 평균을 구하여 변수로 사용하여 문항들이 변수를 얼마나 잘 측정했는지 고려 못하지만 구조방정식에서는 고려 가능.

문항들을 통해 변수를 측정할 때 문항들이 가지는 오류 : e
각 문항들이 변수들을 측정할 때 발생하는 오류들이 동일하지 않을 수 있으며 구조방정식은 이런 오류도 측정한다.

 

4. 확인적 요인분석

: 측정문항들의 타당도를 알아보기 위한 분석으로 구조방정식모형 중 측정모형만을 분석하는 방법

 

 

G. 다수준분석

1. 변수들이 하나의 수준으로 이루어지지 않은 경우에 사용

 

cf. 단일수준분석
모든 변수가 하나의 수준으로 이루어진 경우
집단수준의 독립변수가 집단수준의 종속변수에 영향을 미치거나
개인수준의 독립변수가 개인수준의 종속변수에 영향을 미치는 경우.

eg)
집단 응집성이 집단 성과에 어떤 영향을 미치는 지 알아보거나
개인의 동기가 개인의 성과에 어떤 영향을 미치는 지 알아보는 경우가 해당.

개인수준의 분석으로 회귀분석만으로 분석이 가능하다.

다수준분석
독립변수와 종속변수의 수준이 다른 경우 사용한다.
집단 수준의 독립변수가 개인수준의 종속변수에 영향을 미치거나
개인수준의 독립변수가 집단수준의 종속변수에 영향을 미치는 경우.

eg)
집단 응집성이 개인성과에 어떤 영향을 미치는 지 알아보거나
개인의 동기가 집단성과에 어떤 영향을 미치는 지 알아보는 경우가 해당.

 

2. 독립변수와 종속변수가 개인수준이지만 조절변수가 집단수준인 경우에 사용

도식화 : 
개인수준 독립변수 → 개인수준 종속변수
                         ↑
              집단수준 조절변수

eg) 동기 → 개인성과
            ↑
      집단 응집성

다수준분석은 단순한 회귀분석으로 분석될 수 없다. 다수준분석에 적합한 통계프로그램을 사용해야 함.
자신의 이론이 단일수준분석에 적합한지 다수준분석에 적합한지, 알아보고자 하는 이론에서 각 변수들의 수준이 어디에 있느냐가 중요하다.

반응형