졸업논문에서 쓰는 다중선형회귀(Multiple Linear Regression)에 대한 내용이다
최근 몇 년간 미세먼지에 대한 사회적 이슈가 생기면서 미세먼지에 대한 사람들의 관심이 높아졌고 이에 따른 미세먼지 농도 분석을 통해 대기오염 관리 및 예방을 위한 정책 및 연구가 필요하다. 본 논문은 종속변수인 미세먼지와 독립변수인 대기오염물질 및 기상요소 사이의 관계를 모델링하여 예측하기 위해 변수 간에 영향력을 명확하게 분석할 수 있는 다중선형회귀분석을 사용함으로써 미세먼지 농도에 가장 많은 영향을 주는 요인을 확인하였다. 2018년 1월 1일부터 2022년 12월 31일까지의 서울시의 한 지역의 대기오염물질 관련 자료(미세먼지(PM-10), 오존(O₃), 이산화질소(NO₂), 일산화탄소(CO), 아황산가스(SO₂))와 기상자료(평균기온, 일 강수량, 평균 풍속, 평균 상대습도, 평균 현지기압) 총 9개의 독립변수를 사용하여 미세먼지 농도와 상관관계를 구하였다. 각각의 독립변수들이 유효한지 판단하기 위한 P-value을 사용하여 유의수준 0.05이상을 넘어선 평균기온, 평균 상대습도, 평균 현지기압은 변수에서 제외하였다. 이후 VIF계수를 확인하여 다중공선성을 확인하였으나 VIF계수가 모두 10 이하임을 확인하고 연구를 계속 진행하였다. 선형회귀분석 결과로 R-squared값이 0.575가 나왔고 F-statistic이 7.26e-265임을 확인하여 독립변수들이 종속변수를 설명하는데 유의미하다는 것을 확인하였다. 이후 정규성 파악을 위해 종속변수에 1/5승을 취해주었을 때 가장 정규성을 만족하다고 판단하여 이를 최종 종속변수로 선택하였다. 최종적으로 6개의 독립변수들 중 아황산가스가 가장 미세먼지 농도에 영향을 미치는 것으로 파악되었고 차례로 이산화질소, 오존, 일산화탄소, 평균풍속 순으로 종속변수인 미세먼지 농도에 영향을 주는 것으로 확인되었다. 앞서 언급된 독립변수들은 모두 비례관계인 것에 비해 일 강수량은 coef값이 음수로 나와 종속변수와 반비례관계인 것을 확인하여 미세먼지 농도에 부정적인 영향을 미치는 것을 확인하였다.