Machine Learning 2

Feature Selection

Feature Selection 변수 선택학습에 필요한 변수(특성)의 중요도에 따라 변수를 선택하는 과정모델 학습에 불필요한 변수를 제거하여 효율성과 성능을 향상핵심은 변수의 중요도를 어떻게 정의하고 평가할지에 대한 방법론을 사용하는 것변수 선택을 수행하는 이유차원의 저주(Curse of Dimensionality) 해소데이터의 차원이 증가하면 학습 데이터의 희소성이 커지고, 모델의 복잡도가 증가하여 성능이 저하되는 현상불필요한 변수들을 제거함으로써 차원을 줄여 모델의 복잡도를 낮추고 성능을 향상시킴과적합(Overfitting) 완화너무 많은 변수를 포함하면 모델이 학습 데이터에 과도하게 적응하여 일반화 성능이 떨어질 수 있음중요한 변수만 선택하여 과적합 문제를 완화학습 및 추론 시간, 메모리 개선변수가..

Machine Learning 2024.12.29

Continuous Variable Transformation

연속형 변수 변환 Continuous Variable Transformation함수 변환데이터의 분포를 조정하거나 비선형 관계를 선형으로 바꾸기 위해 수학적 변환을 적용1. 로그 변환값의 범위를 축소하고, 데이터의 분포가 오른쪽으로 치우친 경우(왜도가 큰 경우) 정규분포에 가깝게 만든다.예시: 소득 분포가 고소득층에 집중된 경우 로그 변환2. 제곱근 변환데이터의 큰 값의 영향을 줄이고, 분포를 안정화한다.예시: 특정 국가의 투자 금액이 다른 국가 대비 매울 클 때3. Box-Cox 변환로그 변환, 제곱근 변환 등을 포함한 일반화된 변환 방법으로, 데이터 분포를 정규분포에 가깝게 만드는 데 사용된다.조건: 데이터가 0보다 커야 함스케일링데이터의 스케일(크기)을 조정해 변수 간의 크기 차이를 줄이고, 모델 ..

Machine Learning 2024.12.26