공부/디지털마케팅

[데이터분석입문]기초통계1

_마디 2021. 11. 30. 14:31
반응형

[데이터분석입문]기초통계1

 

A. 기술통계와 추리통계

1. 기술통계
수집한 자료를 분석하여 대상들의 속성을 파악하는 방법

1) 중심경향값
전체 자료를 대표할 수 있는 수치들 평균값: 전체 자료 수치들의 총합을 전체자료의 수로 나눈 수치 중앙값: 최대값과 최소값의 정가운데 수치 최빈값: 가장 많은 빈도를 보이는 수치

2) 분산도
전체 자료가 얼마나 퍼져있는지 알 수 있는 수치 분산 : 각 자료가 평균으로부터 떨어진 거리(편차)들을 제곱한 수치들의 총합을 전체 자료의 수로 나눈 수치 표준 편차 : 분산의 제곱근 수치

3) 상관계수
두 변수 간의 관계의 크기

4) 회귀계수
원인(독립변수)이 결과(종속변수)에 미치는 영향의 크기

 

2. 추리통계
모집단을 대표하는 표본을 추출하고 모집단의 속성들을 유추하는 방법 여러가지 오류 발생 가능성이 있음

신뢰구간
추리통계에서 예측한 모집단의 특성이 위치할 가능성이 높은 구간 표본에서 구해지는 기술통계값들을 이용하여 계산(95%, 99%, 99.9% 신뢰 수준에 따라 달라짐) 숫자가 높아질수록 정확도가 높아짐

 

1. 모집단
연구 또는 분석이 이루어지는 전체 대상
모집단 전체를 분석하기 어려운 경우 모집단에서 표본을 추출하여 분석함 = 추리통계

2. 표본
모집단에서 추출한 일부로 모딥단의 속성을 유추하는데 사용

표본 추출방법
1) 확률표본추철 방법 : 무작위로 표번을 추출하는 방법 모집단을 대표할 가능성이 높음
2) 비확률표본추출방법 : 조사자의 편의나 판단에 의해 표본을 추출하는 벙법. 모집단을 대표하지 않을 가능성이 존재

3. 중심극한정리
표본이 30이상 충분히 클 때

4. 자유도
평균을 유지하면서 자유롭게 어떠한 값도 가질 수 있는 사례의 수 (N-1) 4개의 표본을 추출할 경우 3개는 자유롭게 추출가능하지만 나머지 1개는 모집단의 평균을 맞추는 수치가 있어야 함.

 

C. 척도

척도의 원칙

1) 포괄성 : 척도 안에 모든 경우의 수가 포함되어야 한다는 원칙
상호배타성 ; 척도 안에 중복되는 경우의 수가 없어야 한다는 원칙

척도의 4가지 구분

1) 명목척도 : 측정이 이루어지는 항목들이 상호배타적인 특성만을 가진 척도 eg) 성별
2) 서열척도 : 명목척도들 중 항목들 간에 서열이나 순위가 존재하는 척도 eg) 최종학력
3) 등간척도 : 서열척도들 중 항목들 간의 간격이 일정한 척도 eg) 만족도 조사 - 만족, 조금 만족, 보통, 조금 불만족, 불만족
4) 비율척도 : 등간척도 중 아무것도 없는 상태를 0으로 정할 수 있는 척도 eg) 연령

 

D. 도수분포표와 막대그래프, 히스토그램

도수분표표
수집된 자료를 쉽게 이해할 수 있도록 일목요연하게 정리된 표 특정 항목 또는 특정 범위에 속하는 빈도수를 나타냄 범위 | 빈도수

막대그래프
비연속성 변수(명목척도, 서열척도)에 사용되는 그래프 각 항목에 속하는 빈도수를 나타냄 = 각 항목들이 독립적

히스토그램
연속형 변수(등간척도, 서열척도)에 사용되는 그래프 일정 범위에 속하는 빈도수를 나타냄 X축은 연속된 변수로써 각 범위의 끝과 시작점은 서로 만난다.

선그래프
히스토그램의 끝 부분을 선으로 연결한 그래프

 

E. 공분산과 상관계수

공분산

두 변수가 함께 각자의 평균으로부터 멀어지는 정도 한 변수가 자신의 평균으로부터 멀어질 때 다른 변수가 자신의 평균으로부터 멀어지는 정도를 의미 범위는 이론상 -무한대~+무한대까지

상관계수

두 변수 간의 관계 하나의 변수가 변화함에 따라 다른 변수가 변화하는 정도를 의미 상관계수는 공분산에 의해 구해짐 종류 : 양의 상관관계, 음의 상관관계, 무의미한 상관관계

표준화

공분산이 표준편차들에 의해 나누어지기 때문에 표준화가 일어난다. 표준화는 다양한 자료들이 서로 상이한 평균과 분포를 보임으로 서로 비교할 수 없다. 이에 모든 자료를 평균이 0, 표준편차로 1로 만드는 것을 표준화라 한다. 그에 따라 상관계수의 범위는 -1에서 1 사이에 놓이게 된다.

 

F. 가설과 신뢰수준&유의확률

가설

영가설(H0) : 실제 분석이 이루어지는 가설
연구가설(H1) : 분석을 통해서 알아보고자 하는 내용으로 이루어진 가설

영가설과 연구가설을 합쳤을 때 발생할 수 있는 모든 경우의 수가 포함되어야 한다. 통계 분석에서 영가설이 채택되면 연구가설을 기각, 연구가설이 채택되면 영가설이 기각.

예시 1) 집단 간 차이 검증 - H0 : A집단의 평균과 B집단의 평균간에 차이가 없다. - H1 : A집단의 평균과 B집단의 평균간에 차이가 있다. 두 집단 간 평균 차이가 나타나는 경우의 수는 무수히 많기 때문에 통계 분석 자체가 어렵다. 영가설은 두 집단 간의 평균 차이가 없다. = 한 집단의 평균에서 다른 집단의 평균을 빼면 0이 된다. = 하나의 경우만 분석하면 된다. = 하나의 경우만 분석하여 영가설을 채택할지 기각할지 결정하면 연구가설의 채택여부가 자연히 정해짐 2) 영향력 검증 - H0 : A변수가 B변수에 영향을 미치지 못할 것이다. - H1 : A변수가 B변수에 유의미한 영향을 미칠 것이다. 영가설로 0이라는 한 가지 변수만 분석하여 연구가설의 채택여부를 결정한다.

유의확률

현실에서는 영가설이 참(채택)임에도 불구하고 통계분석을 통해 영가설을 거짓(기각)으로 판단할 가능성(p-value) 즉 연구결과가 실제 현상을 반영하지 못할 가능성. 유의확률이 작아질수록 영가설을 채택할 가능성이 높아지고 연구가설이 실제 발생하지 않음에도 발생했다고 판단할 가능성이 적어짐

신뢰수준

현실에서 영가설이 참(채택)이고 통계분석을 통해서도 참(채택)으로 판단할 가능성 즉 실제 현상에서 발생하지 않는 연구가설을 기각할 가능성 신뢰수준이 높아질수록 영가설이 채택될 가능성이 높아지고 연구가설은 낮아짐 즉 신뢰수준이 높아질수록 연구가설이 실제 현상을 반영할 가능성이 상승

가설의 판단기준

95% 신뢰수준 (유의확률 0.05미만) : *
99% 신뢰수준 (유의확률 0.01미만) : **
99.9% 신뢰수준 (유의확률 0.001미만) : ***
90% 신뢰수준 (유의확률 0.1미만) : +

 

G. 양측 검증과 단측 검증

양측 검증

방향성을 고려하지 않은 채로 연구가설(H1)을 설정할 때 사용하는 검증 방법

단측 검증

방향성을 고려하여 연구가설을 설정할 때 사용하는 검증 방법

 

예시

1) 양측 검증
- A집단의 평균과 B집단의 평균 간에는 차이가 있을 것이다.
- A변수가 B변수에 미치는 영향의 크기는 0이 아니다.

 > 방향고려 x, 영향의 크기 +/- 고려 x

2) 단측 검증
- A집단의 평균보다 B집단의 평균이 클/작을 것이다.
- A변수가 B변수에 미치는 영향의 크기는 0보다 클/작을 것이다.

 > 방향 고려, +/- 수치 고려 => 양측 검중보다는 단측 검증일 경우 연구가설이 채택될 가능성이 높다.


양측검증의 2.5%보다 단측 검증 5%가 더 크다. 영가설에 포함될 가능성도 2.5%보다 5%가 더 높다. 영가설을 사실이라고 판단하고 영가설을 채택할 가능성이 단측 검증일 때 더 높아진다.

* 95% 신뢰 수준의 단측 검증 = 90% 신뢰수준의 양측 검증

 

반응형

'공부 > 디지털마케팅' 카테고리의 다른 글

[데이터분석 입문]데이터분석의 필요성  (0) 2021.11.26