Skip to content

(엄*은) (강의노트 1장) 나쁜 품질의 데이터 제거 vs 대표성 있는 데이터셋 유지의 딜레마 #5

@jeom0313

Description

@jeom0313

실습 코드와 강의 노트를 비교해 보며, 특정 9개 국가의 데이터를 포함했을 때 선형 회귀 모델의 예측선이 크게 요동치며 과대적합(Overfitting) 이 발생하는 것을 확인했습니다.

1장 '머신러닝의 주요 도전 과제' 파트를 보면, 모델 성능을 높이기 위해 에러나 이상치 같은 '나쁜 품질의 데이터' 는 정제(제거)해야 한다고 배웠습니다. 하지만 동시에 훈련 데이터가 전체를 잘 대변하지 못하는 '대표성 없는 데이터' 가 되어서도 안 된다고 이해했습니다.

만약 예측선을 크게 틀어버리는 9개 국가 같은 데이터가 발견되었을 때, 이것을 무조건 '나쁜 품질의 데이터'로 보고 제거해버리면 오히려 전체 국가를 대변하지 못하는 '대표성 없는 데이터셋'이 되어버리는 것은 아닌지 이 부분이 좀 헷갈렸습니다.

1장에서 설명하는 기본 원칙상, 이런 경우 데이터를 과감히 제외하는 것과 원본 데이터를 최대한 유지하는 것 중 어느 쪽에 더 무게를 두어야 하는지 궁금합니다.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions