Skip to content

DongHyun222/Multiple-Linear-Regression

Repository files navigation

Multiple-Linear-Regression

졸업논문에서 쓰는 다중선형회귀(Multiple Linear Regression)에 대한 내용이다

요약

최근 몇 년간 미세먼지에 대한 사회적 이슈가 생기면서 미세먼지에 대한 사람들의 관심이 높아졌고 이에 따른 미세먼지 농도 분석을 통해 대기오염 관리 및 예방을 위한 정책 및 연구가 필요하다. 본 논문은 종속변수인 미세먼지와 독립변수인 대기오염물질 및 기상요소 사이의 관계를 모델링하여 예측하기 위해 변수 간에 영향력을 명확하게 분석할 수 있는 다중선형회귀분석을 사용함으로써 미세먼지 농도에 가장 많은 영향을 주는 요인을 확인하였다. 2018년 1월 1일부터 2022년 12월 31일까지의 서울시의 한 지역의 대기오염물질 관련 자료(미세먼지(PM-10), 오존(O₃), 이산화질소(NO₂), 일산화탄소(CO), 아황산가스(SO₂))와 기상자료(평균기온, 일 강수량, 평균 풍속, 평균 상대습도, 평균 현지기압) 총 9개의 독립변수를 사용하여 미세먼지 농도와 상관관계를 구하였다. 각각의 독립변수들이 유효한지 판단하기 위한 P-value을 사용하여 유의수준 0.05이상을 넘어선 평균기온, 평균 상대습도, 평균 현지기압은 변수에서 제외하였다. 이후 VIF계수를 확인하여 다중공선성을 확인하였으나 VIF계수가 모두 10 이하임을 확인하고 연구를 계속 진행하였다. 선형회귀분석 결과로 R-squared값이 0.575가 나왔고 F-statistic이 7.26e-265임을 확인하여 독립변수들이 종속변수를 설명하는데 유의미하다는 것을 확인하였다. 이후 정규성 파악을 위해 종속변수에 1/5승을 취해주었을 때 가장 정규성을 만족하다고 판단하여 이를 최종 종속변수로 선택하였다. 최종적으로 6개의 독립변수들 중 아황산가스가 가장 미세먼지 농도에 영향을 미치는 것으로 파악되었고 차례로 이산화질소, 오존, 일산화탄소, 평균풍속 순으로 종속변수인 미세먼지 농도에 영향을 주는 것으로 확인되었다. 앞서 언급된 독립변수들은 모두 비례관계인 것에 비해 일 강수량은 coef값이 음수로 나와 종속변수와 반비례관계인 것을 확인하여 미세먼지 농도에 부정적인 영향을 미치는 것을 확인하였다.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors