[강의정리] 기초통계2:기술통계량

관련글

기초통계1:데이터와 분석

기초통계2:기술통계량


기술통계량

기술통계량은 데이터의 키와 몸무게이다.

키와 몸무게를 알려주면 사람의 모습을 상상할 수 있다. 기술통계량을 보면 데이터의 모습을 상상할 수 있다.

데이터를 볼 수 없다(너무 많기 때문에), 그래서 대표값이 필요하다.

중심(대표값)

평균 / 절사평균(5%) / 중위수 / 최빈수

평균(mean)

평균이 5라면? => “데이터들은 5와 유사한 놈들일 것이다.”라고 추측 가능

절사평균(Trimmed Mean)

이상치 있을 가능성 제외하기 위해 최대값과 최소값 제외

ex) 5% 절사평균 : 최소값 5%, 최대값 5% 제외한 가운데 90%만 가지고 낸 평균

ex) 평균 200, 절사평균(5%) 20이라면? 최대값 쪽 데이터에 이상치가 많다는 것을 알 수 있다. 평균을 대표값 역할을 할 수 없다. (데이터가 200과 유사하다는 평가는 위험하겠다.)

ex) 평균 200, 절사평균(5%) 198이라면? 이상치가 별로 없겠다. 평균을 대표값 역할을 잘 해주겠구나. 데이터가 200과 유사한 놈들이겠구나.

중간값(median)

중간값이 5라면? => “데이터들은 5와 유사한 놈들일 것이다.” 그리고 “5보다 큰 데이터가 50%, 5보다 작은 데이터가 50% 정도 있다.”

평균보다 이상치의 영향을 덜 받는다. 강건성(Robustness)

최빈수(최빈값)

빈도가 가장 큰 값(2번 이상 중)

퍼짐 = 산포 = 다름

범위 / 사분위범위 / 분산 / 표준편차 / 중위수절대편차

통계의 핵심? : 다름을 수치화 하는 것!

얼마나 다른가? => 왜 다름이 발생했을까? 이 그룹과 다른 그룹, 기대했던 것과 실제 관찰된 것, 사건 이전과 이후 이 다름은 무시해도 될만한 다름인가, 무시하면 안되는 다름인가

범위 (Range)

최대값 - 최소값

한계? 이상치의 영향을 민감하게 받는다.

4분위수

작은쪽 25%, 큰쪽 25% 빼고 중간 50% 데이터의 범위 구함

ex)

범위와 4분위수가 비슷하다면 이상치가 적어서 범위가 퍼짐의 역할을 잘 하고 있다고 할 수 있다.

범위와 4분위수에 차이가 크다면 이상치가 많아서 범위가 퍼짐의 역할을 잘 하지 못하므로 4분위수로 해석하는 것이 유리하다.

이제, 중심하고 어떻게 다르지?를 알아보자.

편차(deviation)

(1) 분산(variance)

cf) 표본 분산 : n 대신 자유도(n-1)로 나눈다.

단위가 있는 데이터의 경우 분산에 문제가 생김

cf) 데이터 단위가 길이(Cm)라면 분산의 단위는 면적(Cm^2)이 된다.

그래서 나온 것이 표준편차

(2) 표준편차(SD : Standard Deviation)

하지만 분산과 표준편차도 이상치에 민감하게 반응함. 그래서 나온 것이 중위수절대편차

평균과 함께 표현할 때 M ± SD로 표기하기도 한다.

(3) 중위수절대편차(MAD: Median Absolute Deviation)

중위수와 데이터가 얼마나 다른지에 대한 값

계산 방법

분포의 모양

왜도 / 첨도

왜도(skewness)

분포 모양의 대칭여부

0에 가까워지면 대칭에 가깝다, 0에서 멀수록 비대칭이다.

양수로 커지면 왼쪽으로 기울어진 모양, 이상하게 큰 값이 있을 가능성 크다. ex) 국민 소득 분포

음수로 커지면 오른쪽으로 기울어진 모양, 이상하게 작은 값이 있을 가능성 크다.

첨도(kurtosis)

중심이 얼마나 뾰족한가

0에 가까워지면 중심이 보통정도의 높이를 가진다.

0보다 크게 멀어지면 중심의 높이가 뾰족해진다.

0보다 작게 멀어지면 중심의 높이가 낮아 뭉툭해진다.

ex) 첨도가 중요한 데이터? 피크 타임 때 급속히 늘어나는 전화 통화량 데이터

기타

최대값 / 최소값 / 표준오차

최대값이 대표값의 의미를 가질 때? 강을 건너려고 할 때 강의 최대 깊이를 알아야 함

표준오차

현재 표본이 아니라 다른 표본을 뽑았다면 결과가 얼마나 다를까

차이가 없다면 표본으로 수행한 결과를 신뢰할 수 있다.

그런데 표본을 만들때 마다 결과의 차이(표준오차)가 크다면 결과를 신뢰할 수 없다.

( 모집단 혹은 표본의 표준편차) / sqrt(데이터의 개수)

ex) 설문조사에서 신뢰도

# 95% 신뢰수준일 경우
# 무수히 많은 표본으로 조사했을 때 그 결과의 95%는 이번 결과치와 유사하고, 나머지 5%는 전혀 다르다.
신뢰도 = 1.96 * 표준오차

cf) 표본오차 : 모집단과 표본과의 차이

※ 자유도 (DF : degree of freedom)

데이터가 4개(x1, x2, x3, x4)일 때, 평균이 5라면 … x1, x2, x3가 정해지면 평균 5라는 제약 때문에 x4는 자동으로 정해진다. 따라서 자유도는 3(x1, x2, x3)이 된다.

즉 n-1

※ 표기 관례

퍼센테이지 : 소수점 1자리까지 평균, 표준편차 : 소수점 2째까지 계수(ex: 상관계수), 검정통계량(ex: F) : 소수점 3째까지

※ 데이터 분석

  1. 전체를 분석
  2. 집단별로 분석 … 피봇테이블 ex) 남자
  3. 타깃별로 분석 ex) 남자, 연구원 etc
  4. 개인별로 분석

표본 추출의 중요성 : 표본 집단이 크면 좋지만, 모집단의 구성과 비슷하게 추출해야 한다.

변동계수(CV : Coefficient of Variantion)

집단 간에 다름을 비교하고 싶을 때 사용하는 값 집단 간의 평균의 차이가 클 때 사용함

(표준편차 / 평균) * 100 … 백분율

cf) 표준편차 : 한 집단 안에서의 평균과의 다름을 측정 … 집단 간의 평균의 차이가 거의 없으면 표준편차를 이용해 집단 간의 다름을 비교할 수 있다.

상대적 표준오차(RSE : Relative Standard Error)

집단별로 표준오차를 비교하고 싶을 때 사용함

어떤 집단이 결과가 표본이 달라지면 결과가 달라질까?

평균이 같다면 표준오차를 가지고 비교하면 된다.

하지만 평균이 다르면 상대적 표준오차를 써야 한다.

(표준오차 / 평균)

상대적 표준오차가 크다면 다른 집단을 뽑았을 때 결과가 더 많이 달라질 것이라는 의미

... ... ... ...
Back