본문 바로가기

anova2

피처 선정 (1/2) 소개머신러닝에서 피처(feature)란 모델이 예측을 위한 학습에 사용하는 입력 변수이다.예를 들어, 우리가 집값을 추측할 때에는 평수나 준공연도, 학군지 여부 등의 피처를 활용한다고 할 수 있다. 뭔가를 예측함에 있어 일단 정보가 많으면 좋을 것 같은데, 모델 학습에 있어서는 그렇지 않다.오히려 불필요하거나 중복된 피처는 학습 시간만 늘리거나 심지어 성능도 떨어뜨린다. 피처 선정은 여러 피처 중 가장 유의미한 피처만 골라서 성능 최적화, 과적합 방지, 계산 효율성을 높이는 것이다. 이번 글에서는 피처 선정을 어떻게 할 지에 대해서 생각해본다.개인적으로 체계가 좀 있으면 좋을 것 같아 정리 차원에서 적는 것이기도 하다.물론 더 좋은 방법이 많이 있겠지만 나중에 깨달으면 이 글을 수정하거나 새로운 글을 적.. 2025. 5. 26.
통계 유의성 검정 소개통계학에서 유의성 검정은 어떤 결과가 단순한 우연이 아니라 실제 차이나 효과가 있을 가능성이 높음을 확인하는 방법이다. 예를 들어, 승률이 5할인 야구팀이 내가 직관을 간 날에만 유난히 자주 이기는 것처럼 보였다고 하자.이는 내가 승리요정이기 때문일까, 아니면 우연일까?통계 유의성 검정은 이러한 가설을 체계적으로 검증해 답을 제공한다. 머신러닝 분야에서는 유의성 검정이 피처 선정, 모델 개발, 성능 평가에 이르기까지 다양한 상황에서 유용하다.이 글에서는 통계 유의성 검정에 대해 간단히 알아보고자 한다.핵심 개념본격적으로 유의성 검정을 하기에 앞서 몇 가지 알아야만 할 사실이 있어 잠시 짚고 넘어간다. 1. 귀무가설과 대립가설이름이 뭔가 무시무시한데, 아래와 같은 것이다.귀무가설(H₀) : '아무 일도.. 2025. 5. 21.