프로젝트 기간 22년 11월 ~ 22년 12월
- 분석주제
부동산 가격은 셀 수 없이 다양한 변수에 의해서 가격이 결정된다. 교통, 연식, 평수 등 일반적으로 중요하게 여겨지는 변수들이 실제로 얼마나 가격에 영향을 주며 그 중 가장 유의미한 변수는 무엇인지 파악하고자 한다. 아파트 가격에 영향을 주는 여러 변수를 투입하여 다중선형회귀분석을 통해 분석하고자 한다.
- 분석목표
사용자 편의성에 맞춰 완성된 데이터 분석 툴이 아닌, Google Colab에서 코드로 구현하여 직접 csv파일 변형하여 전처리 과정을 수행하고 카카오맵이나 네이버지도 open api등을 통한 분석을 진행하는 것을 목표로 한다. 현재 아파트의 자체 요인, 교통여건, 서울 접근성, 편의시설 , 미래의 기대 (개발호재) 등이 가격에 미치는 영향을 알아보고자 한다.
- 분석데이터
- 국토교통부 -실거래가 공개 시스템 http://rtdown.molit.go.kr/ (기간제한: 22.07.1~22.09.30)
- 카카오맵 open api를 사용한 위도, 경도 데이터
- 실거래가 (덕양구 '아파트' 22년 7월 ~ 22년 9월 ,224 rows)
column=시군구, 번지, 본번, 부번, 단지명, 전용면적, 계약년월, 거래금액, 층, 건축년도, 도로명, 주소 ...
- 카카오 api에서 '도로명 주소' 요구하기 때문에 데이터 조작해서 도로명 주소로 변환 후
- '도로명주소'로 카카오 API 위도, 경도 크롤링 실행
- 아파트의 평수가 가격에 영향을 미치는 것 제거하기 위해 '제곱미터당 가격'으로 변환
- 최종 분석에는 유의미하다고 판단한 '층', '건축년도', '도로명 주소' 외의 컬럼 전부 삭제
- 카카오 open API 위도, 경도 데이터 '도로명 주소'로 각 아파트의 위도, 경도 크롤링
- 각 거점 위치 위도, 경도 데이터 -서울과의 접근성 : 광화문 -교통 접근성 : 3호선, 경의중앙선 모든 역 -개발호재 : GTX 역 예정지 (대곡역, 창릉역) -편의시설 : 대형마트 3사 (이마트, 롯데마트, 홈플러스)
- 각 거점 위치와의 거리 계산 python 라이브러리 하버사인 'haversine' 사용
1. pairplot 으로 각 데이터들의 상관관계 파악 후 1차로 변수 걸러냄 2. 다중선형 회귀분석을 통해서 부동산 가격에 유의미한 변수는 무엇인지 파악하고자 함. 3. 결과값 개선을 위해서 2차로 변수 걸러냄 4. 다시 다중선형 회귀분석 진행 (학습데이터 , 시험데이터 80:20의 비율로 분할) 5. 결과 확인
- 예상과 다르게 '개발호재지와의 접근성'은 덕양구 아파트 가격에 그다지 영향을 주지 못하는 것으로 보인다.
- 또한 입지가 중요하기에 '건축연도'는 그다지 큰 영향을 주지 못할 것이라고 예상했지만 예상과 다르게 가장 중요한 요인으로 나타났다.
- 이러한 결과가 나온 이유는 개발호재가 있는 GTX 역 주변의 땅은 개발제한구역으로 묶여있기 때문에 직접적인 수혜를 받을 아파트 수가 적고, 사례가 너무 적기 때문에 가격에 대한 영향이 낮게 평가됨
- 분석에 들어가기 전에 유의미한 결과가 나올 수 있을지 철저하게 조사하고 계획하는 과정이 매우 중요함을 느꼈다.