[강의정리] 기초통계1:데이터와 분석
관련글
들어가며
Data
수집, 핸들링, 분석, insight
“Data is the new oil.”
Data 큐레이터 : data 안에 숨겨진 스토리(이야기)를 해주는 사람
ex) 고흐 그림의 불꺼진 성당
내 이야기를 잘 들어주면 말하지 않아야지 했던 것까지 말하게 된다. Data를 잘 들어 주어야 한다.
통계학 & IT
Machine Learning (Deep Learning)
앞으로 대비해야
데이터와 분석
A. 일변량 질적 자료의 분석
(1) 표 (빈도표, 백분율)
(2) 그래프 : 막대그래프, 원그래프
- 눈에서 가까운 쪽에 더 중요한(빈도 높은) 데이터를 두어라 (소팅)
B. 일변량 양적 자료의 분석
(1) 표 (구간
의 빈도, 백분율)
frequency
함수 (구간에서 초과~이하)- 피벗 테이블
그룹
(구간에서 이상~미만)
Q. 왜 구간을 만들까?
Q. 구간 설계 방법?
구간의 개수?
Sturge’s :
1 + 3.3*log10(데이터의 개수)
sqrt(데이터의 개수)
구간의 폭 = 계급의 폭
(최대값 - 최소값) / 구간의 개수
첫번째 구간에는
최소값
포함, 마지막 구간에는최대값
포함 되어야 함
(2) 그래프 : 히스토그램, 상자그림
(3) 기술통계량 = 요약통계량
- 중심 = 대표값
- 퍼짐 = 산포 = 다름
- 분포의 모양
C. 이변량 질적 자료의 분석
D. 이변량 양적 자료의 분석
기술통계량 참조
E. 이변량(bi-variate) 질적 자료의 분석 = 교차표 = 분할표
두 질절 자료 사이의 관련성
- (1) 빈도
- (2) 백분율
- (3) 행백분율
- (4) 열백분율
이것으로 가설검정을 한다면? : 교차분석 = 카이제곱검정(Chi-square test)
- 행 : 집단, 독립변수
- 열 : 알고 싶은 것, 종속변수
행백분율은 집단의 크기를 동일하게 해 주기 때문에 수치 비교에 편리하다.
F. 이변량 양적 자료의 분석
상관분석(Correlation analysis)
관련성? 산점도를 그렸을 때 선형의 관계(직선의 관계)
(1) 산점도 (scatter plot)
- x축 : 양적자료
- y축 : 양적자료(더 중요한 자료, 관심이 많은 자료)
(2) 상관계수(Coefficient of Correlation)
cf) 3개의 계수 : 상관계수, 변동계수, 회귀계수
두 양적자료의 관련성 정도를 수치로 표현한 값 : r
r : 표본의 상관계수 cf) 모상관계수(𝜌)
공변량(co-variate) : (x1-x평균)(y1-y평균)
공분산(co-variance), 공변량들의 합계. COV(x,y) = (x1-x평균)(y1-y평균) + (x2-x평균)(y2-y평균) ….
-> 공변량의 평균으로, 면적들의 합과 차이다.
But, 단위가 바뀌어(Cm -> m) 값이 축소되거나 늘어나면 데이터는 그대로이지만 공변량에 큰 차이가 발생한다.
따라서 pearson’s coefficient of correlation r = 공변량 / ( x의 다름 * y의 다름)
x의 다름 : x의 표준편차(자유도 이용), y의 다름 : y의 표준편차(자유도 이용),
pearson’s coefficient of correlation : 양적 자료, 연속성
cf) 순위형(순서형) 자료 : spearman, kendall의 방법 사용
r |
0.0-0.2 : 관련성이 없다.
0.2-0.4 : 약한 관련성이 있다.
0.4-0.6 : 보통의 관련성이 있다.
0.6-0.8 : 강한 관련성이 있다.
0.8-1.0 : 매우 강한 관련성이 있다.
ex) r이 0.730(계수 이므로 소수점 3째자리까지 관례)일 경우, “양의 강한 관련이 있다.”라고 할 수 있다.
(3) 상관분석
G. 독립표본 T검정(Two Sample t-test)
검정(Test) ?
- 귀무가설 : 모집단에 대한 기존의 입장
- 대립가설 : 모집단에 대한 새로운 입장 … “연구가설”
※ 가설? 모집단에 대한 입장, ( fact와는 다르다 )
공정한 데이터 수집 -> 검정
※ 검정의 기준
유의수준( Significant Level : alpha = 0.05 ) … 귀무가설이 참임에도 불구하고 표본으로 수집된 데이터에 근거해서 의사결정을 하기 때문에 실수로 대립가설이 참이라고 결론내리는 실수를 최대 5%만 허락하는 기준으로 하자.
유의확률( Significant Probability, p-value) … 귀무가설이 참일 때에 표본에서 관찰한 값이 귀무가설 하에서 얼마나 일어나는 사건일까를 알려주는 확률 값
유의확률 < 유의수준 : 대립가설 win
유의확률 > 유의수준 : 귀무가설 win
유의확률을 추정하기 위해서는 분포
를 알아야 함
ⓐ정규분포, ⓑt분포, ⓒf분포, ⓓChi-square분포, ….
- 정규성 검정
- 등분산 검정 (귀무가설 “등분산이다.” = “두 집단의 다름은 같다”) … f-검정( F비를 통해 f분포로 확률 계산함)
- 등분산 가정 t검정 or 異분산 t검정
H. 분산분석(ANOVA : Analysis of Variance)
기타
★
구조방정식 모형 (Structured Equation Model : SEM)
리커트 척도 : 7점 척도
cf) 5점 척도, 4점 척도
★
분석할 때 좋은 습관
분석을 수행할 때 분석일지를 쓰는 것이 좋다. 그래야 나중에 복기할 수 있다.
원본 아닌 사본으로 작업하라.
★
Excel tip : Ctrl
+ ``` : inspect (함수 그대로 보여줌)
강의 개요
장소 : 통계교육원
일시 : 2017.05.15(월) - 2017.05.17(수)
강사 이력
이름 : 이부일
소속 : (주)인사이트마이닝 CEO
블로그 : blog.daum.net/buillee
페이스북 : www.facebook.com/buillee70