실습 코드와 강의 노트를 비교해 보며, 특정 9개 국가의 데이터를 포함했을 때 선형 회귀 모델의 예측선이 크게 요동치며 과대적합(Overfitting) 이 발생하는 것을 확인했습니다.
1장 '머신러닝의 주요 도전 과제' 파트를 보면, 모델 성능을 높이기 위해 에러나 이상치 같은 '나쁜 품질의 데이터' 는 정제(제거)해야 한다고 배웠습니다. 하지만 동시에 훈련 데이터가 전체를 잘 대변하지 못하는 '대표성 없는 데이터' 가 되어서도 안 된다고 이해했습니다.
만약 예측선을 크게 틀어버리는 9개 국가 같은 데이터가 발견되었을 때, 이것을 무조건 '나쁜 품질의 데이터'로 보고 제거해버리면 오히려 전체 국가를 대변하지 못하는 '대표성 없는 데이터셋'이 되어버리는 것은 아닌지 이 부분이 좀 헷갈렸습니다.
1장에서 설명하는 기본 원칙상, 이런 경우 데이터를 과감히 제외하는 것과 원본 데이터를 최대한 유지하는 것 중 어느 쪽에 더 무게를 두어야 하는지 궁금합니다.