통계 수업 2일차 start!
이번 강의에서는 정말 새롭고 많은 내용들을 배웠다. 쉴새 없이 휘몰아치는 강의에 정신을 못차렸지만 강사님께서는 3학점 수업을 3일 만에 배우는 거라 힘든 게 당연한 거라며 위로해주셨다. 통계 기초를 배우면서 헷갈릴 만한 기호들이 나와서 간단하게 정리해봤다.
Matrix Multiplication 행렬 곱셈 연산
행렬의 곱셈 연산은 두 행렬을 결합하여 새로운 행렬을 만드는 연산이다. 행렬의 곱셈은 신경망 구현에 핵심이 되는 연산이며 이미지 처리에서도 중요한 역할을 한다.
# 행렬의 곱셈
A = torch.tensor([[1, 2, 3], [2, 4, 6], [3, 2, 1]])
B = torch.tensor([[1, 0], [2, 1], [0, 1]])
# 1) matmul 사용
C = A.matmul(B)
# 2) mm 사용
C = A.mm(B)
# 3) @ 사용
C = A @ B
Mean Vector 평균 벡터
평균 벡터란 벡터들의 중심 또는 평균 위치를 나타내는 벡터이다.
Covariance Matrix 공분산 행렬
공분산은 두 확률 변수 간의 선형 관계를 나타내는 지표로 두 변수의 값이 함께 변화하는 정도를 측정하는데 공분산 행렬은 이러한 여러 변수들의 공분산을 행렬 형태로 나타낸 것이다.
Random Variable 확률변수
확률변수란 확률적 시행의 결과를 실수로 대응시키 함수이다. 확률변수는 값의 형태에 따라 이산확률변수와 연속확률변수로 나눠진다.
- 이산확률변수 : 가능한 결과가 셀 수 있는 확률변수이다. 예를 들어 동전을 2번 던졌을 때 앞면을 1, 뒷면을 0으로 매핑하면 앞면이 나오는 횟수는 {2, 1, 1, 0}이라는 확률변수로 나타낼 수 있다.
- 연속확률변수 : 가능한 결과가 연속적이거나 무한하여 셀 수 없는 확률변수이다. 예를 들어 키는 168.952xxx...cm로 무한히 많은 값을 가질 수 있기 때문에 {160 < X < 170} 이라는 확률변수로 나타낼 수 있다.
키가 정확히 170cm일 확률은 P(X = 170) = 0이지만 키가 160cm에서 170cm일 확률은 P(160 < X < 170) 과 같이 구간 단위로 정의할 수 있다. 즉, 이산확률변수는 정확한 값에 대해 연속확률변수는 구간에 대해 확률을 다룬다고 볼 수 있다.
Probability Function 확률함수
확률함수란 확률변수가 특정 값을 가질 확률을 나타내는 함수이다. 확률변수의 두 유형인 이산확률변수, 연속확률변수에 따라 각각 확률질량함수, 확률밀도함수라고 불린다.
- 이산확률변수의 확률함수 = 확률질량함수(PMF, Probability Mass Function)
- 연속확률변수의 확률함수 = 확률밀도함수(PDF, Probability Density Function)
확률변수의 평균
확률변수의 평균은 어떤 사건이 발생할 때 평균적으로 기대할 수 있는 값을 나타내는데 기대값과 같은 의미로 사용된다.
Probability Dirstribution 확률분포
확률분포는 확률변수가 가질 수 있는 모든 가능한 값과 그 값들이 발생활 확률을 나타낸 것이다. 일반적으로 표나 그래프 표상으로 나타낸다.
Uniform Distribution 균등분포
균등분포는 확률변수가 특정 구간 내에서 동일한 확률로 모든 값을 가질 수 있는 분포를 의미한다. 변수의 특성에 따라 이산 균등분포와 연속 균등분포로 구분된다.
- 이산 균등분포 (Discrete Uniform Distributuion) : 이산 확률변수가 가질 수 있는 몇 가지 가능한 값들이 동일한 확률로 나타나는 확률분포. 주사위, 동전 던지기처럼 확률 변수가 n개 일 때 모두 동일하게 1/n 확률로 발생
- 연속 균등분포 (Continuous Uniform Distribution) : 연속 확률번수가 특정 구간 내에서 동일한 확률함수를 가지는 분포.
Normal Distribution 정규분포
정규분포는 표본분포 가장 단순하면서 많이 나타나는 형태의 분포이다. 어떤 사건이 일어난 빈도를 계산하여 그래프로 나타내면 중심(평균)을 기준으로 좌우가 대칭되는 분포가 그려진다.
Standard Normal Distributuion 표준정규분포
표준정규분포는 서로 다른 정규분포들을 비교하기 위해 평균이 0, 표준편차 1로 표준화하여 나타낸 것이다. 복잡한 관계를 분석하는 경우 여러가지 특성에 대한 분석 결과를 서로 비교하는 과정이 필요하기 때문이다.
Bernoulli Distribution 베르누이 분포
베르누이 시행은 발생 가능한 결과가 단 두 가지만 존재하며 동시에 일어나지 않는 실험을 말한다. 동전 던지기처럼 앞면 혹은 뒷면이 나올 결과만 존재할 뿐 앞면이면서 동시에 뒷면이 나타날 수 없는 것을 예시로 들 수 있다. 베르누이 분포는 베르누이 시행을 확률분포로 나타낸 것이다.
Binomial Distribution 이항분포
이항분포는 베르누이 시행을 여러 번 반복했을 때 그 시행 결과를 표현한 확률분포이다. 베르누이 시행을 n회 반복하여 성공한 횟수를 X라고 할 때, 성공한 X의 확률분포를 이항분포라고 한다.
Point Estimation 점추정
점추정은 모집단의 모수(평균, 분산 등)를 단일 값으로 추정하는 것을 말한다. 표본의 크기가 작거나 추출된 표본이 모집단을 대표하지 못하면 오차를 수반할 수 밖에 없다. 따라서 점추정의 오차를 최소로 만드는 것이 바람직한 추청이라 할 수 있다.
Interval Estimation 구간추정
구간추정은 모집단의 모수(평균, 분산 등)가 포함될 가능성이 높은 구간을 추정하는 것을 말한다. 점추정이 단일 값으로 모수를 측정하는 것과 달리 구간추정은 모수가 포함될 수 있는 범위를 제시하고 신뢰수준을 통해 추정 결과의 신뢰성을 제공한다.
Hypothesis 가설
가설이란 주어진 사실이나 연구나 조사하고자 하는 사실에 대해 주장하거나 추측하는 것을 말한다. 통계학적으로는 모수를 추정하고자 할 때, 모수가 어떠할 것인지 연구자나 조사자가 주장하거나 추측하는 것을 가설이라고 한다.가설의종류에는 귀무가설과 대립가설이 있다.
- 귀무가설 : 기본적으로 현 상태를 유지하거나 차이가 없다는 주장을 말한다. 일반적으로 믿어온 사실을 가설로 설정한 것으로 '~와 차이가 없다', '~의 효과는 없다', '~와 같다'로 표현한다. 영가설이라고도 하며
- 대립가설 : 귀무가설과 반대되는 가설로 새로운 발견이나 차이를 주장한다. 연구의 목적이 되며 '~와 차이가 있다', '~의 효과가 있다', '~와 다르다'로 표현한다. 연구가설이라고도 하며 H₁으로 표기한다. ex) H₁ : 새로운 광고가 매출을 증가시킨다.
Type I, II Error
연구자나 조사자가 범할 수 있는 오류에는 두 가지 종류가 있다.
- 1종 오류 (Type I Error) : 귀무가설이 참임에도 불구하고, 귀무가설을 기각하는 오류 ex) 신약이 실제로 효과가 없지만 효과가 있다고 판단하는 경우
- 2종 오류 (Type II Error) : 대립가설이 참임에도 불구하고, 대립가설을 기각하는 오류 ex) 신약이 실제로 효과가 있지만 효과가 없다고 판단하는 경우
Significance Level 유의수준
유의수준이란 가설검정에서 귀무가설이 참일 때, 이를 잘못 기각할 확률을 말한다. 유의수준은 알파(α)로 표시한다. 예를 들어, 유의수준(α)를 0.05로 정했을 때, 도출된 유의확률(p-value)이 0.05보다 작으면 연구자나 조사자는 귀무가설을 기각할 수 있다.
Probability Value 유의확률
유의확률은 p-value라고 하며, 귀무가설을 기각할 수 있는 최소한의 확률을 의미한다. 유의수준을 기준으로 유의확률이 유의수준보다 높으면 귀무가설을 채택하고, 유의수준보다 낮으면 귀무가설을 기각한다. 일반적으로 사회통계학에서는 0.05나 정밀함이 필요한 경우는 0.01을 기준으로 한다.
Test Method 검정 방법
가설을 검정하고자 할 때는 귀무가설의 기각 여부를 결정하는 기준을 설정해야 한다. 그러한 기준을 설정하는 영역을 기각역이라고 하며, 양측 검증 또는 단측 검증을 사용한다.
- 양측검정 (Two-Tailed Test) : 귀무가설의 기각역이 양쪽에 있는 검정으로, 차이가 있을 가능성을 양쪽 방향(크거나 작음 모두 포함)을 고려한다.
- 단측검정 (One-Tailed Test) : 귀무가설의 기각역이 한쪽 끝에 있는 검정으로, 차이가 한쪽 방향(크거나 작음)으로만 있을 가능성을 고려한다.
양측검정은 단측검정보다 더 보수적인 방법으로, 동일한 유의수준을 사용할 때, 1종 오류를 범할 가능성이 상대적으로 더 낮다. 단측검정은 한쪽 끝에 유의수준 전체를 배분하는 반면 양측검정은 두 쪽에 나누어 기각역을 설정하므로 같은 유의수준을 사용하더라고 귀무가설을 기각할 기회가 줄어들기 때문이다.