딥러닝을 이용한 주택 경매시장 예측에 관한 연구(2020, 김선아 및 전해정)

2022. 12. 10. 18:56연구 동향

※ 요약하기 위해 포스팅을 했을 뿐,

개인적인 의견으로는 의미가 크지 않은 논문이므로 맨 마지막 한계 부분만 확인 바람

 

딥러닝을 이용한 주택 경매시장 예측에 관한 연구(2020, 김선아 및 전해정)

  • 키워드: 주택, 경매, GARCH 모형, 딥러닝, 예측
  • Keywords: Housing, Auction, Garch Model, Deep Learning, Prediction

개요

이 연구는 GARCH 모델과 딥러닝 RNN 모델로 주택 경매시장을 추정한 후 두 모델의 예측력을 비교하는 것을 목표로 한다. 사용된 변수는 아파트 경매 낙찰가율, 아파트 매매가격지수, 아파트 낙찰율, 회사채수익률, 소비자물가지수, 건축허가 여부 등이다. 결과적으로 딥러닝 RNN 모델(MSE: 38.095, RMSE: 6.172)이 GARCH 모델(MSE: 42.867, RMSE: 6.547) 보다 예측력이 우수하다는 것을 확인하였다.  

 

 

목차

  1. 서론
  2. 선행연구
  3. 분석모형: 딥러닝, Basic RNN Cell, GARCH 모형
  4. 실증분석
  5. 결론

 

선행연구 고찰

주택시장 - 경매시장 간 상관관계에 대한 선행연구

  • 장문덕, 박철형(2016): 시계열 분석 VAR 모형과 GARCH모형을 이용해 경매시장과 주택시장 간의 변동성 분석한 결과, 강남 지역의 경우 변동성에 의한 레버리지 효과가 있음을 확인함.
  • 주택 매매시장과 경매시장 간의 상관관계에 관한 실증연구 - 글로벌 금융위기 전후를 중심으로(전해정, 2013): 글로벌 금융위기 전후의 주택 경매시장과 매매시장 간 상관관계를 VAR모형으로 분석한 결과, 금융위기 이전에는 음(-)의 관계, 이후에는 양(+)의 관계를 가지는 것을 확인함. 

 

선행연구에서 제시한 경매 시장 영향 변수

  • 서울시 주택 경매 낙찰 결정요인 로지스틱 회귀분석(김정선, 2015): 낙찰율을 높이는 요인으로 낙찰가비율, 개발여부, 유찰횟수, 낙찰율을 낮추는 요인은 임차인 유무, 건물이용, 경매범위, 감정가액, 인수권리유무
  • 낙찰가 결정요인에 대한 가격결정모형(정가연, 2010): 대지지분, 평형, 유찰횟수, 응찰자수 등이 낙찰가격에 영향을 미침. 거시 경제 변수로 소비자 물가지수와 환율이 음의 상관관계, 총 통화량은 낙찰가격에 양의 상관관계를 줌. 
  • 부동산경매 위험요인의 낙찰가의 영향에 대한 확률계수모형(정성용, 2009): 영향의 크기는 건물상태, 유찰횟수(경매특성요인) >> 지역, 경과년수, 지수변동률(시장요인) 이었음. 

 

선행연구에서는 선형 모형을 가정하므로 주택 시장의 비선형성을 반영하지 못한다는 한계가 있으므로, 비선형 추정 기법인 딥러닝 RNN 모형을 적용하여 기존 분석 방법인 GARCH와 예측력을 비교해보기로 함. 

 

 

분석 모형

딥러닝 RNN 모델

  • 입력 - 여러 개의 노드로 이루어진 Hidden Layer 1 - Hidden Layer 2 - Activation function(시그모이드, RLU 등) - 출력

출처: 구글 '딥러닝' 검색 이미지

  • 순환신경망(RNN)은 순서가 있는 서열데이터를 처리하기 위한 모델로, 자료 순서에 따라 과거 정보를 학습하고 기억하여 현재 출력값을 예측함.
  • x_t: t번째 입력 변수
  • W: 가중치 행렬(weight matrix)로 학습을 통해 값이 정해짐.
  • σ: 활성화 함수(Activation function)으로 이 논문에서는 시그모이드 함수를 사용함.
  • h: 은닉 레이어의 출력

GARCH 모형

  • 시계열 데이터에 있는 특정 기간에 변동이 매우 크게 나타나다가 어떤 기간에는 변동이 작게 나타나는 분산 군집현상이 나타나는데 이를 외부 충격으로 인한 영향이 발생하고 시간이 지나면서 소멸된다고 가정함.
  • 이를 모형화한 것이 ARCH(오차항의 분산을 과거 시점 충격 함수로 설정)
  • GARCH 모형은 분산을 과거 잔차항의 자승치와 조건부 분산의 일부를 시차의 선형으로 결함함. (차분을 이용)
  • (σ_t)^2: 조건부 분산식 
  • (σ_t-1)^2: 이전 시차(t-1)의 조건부 분산
  • (μ_t-1)^2: 이전 시차(t-1)의 오차 제곱

 

실증 분석

분석범위

  • 아파트: 아파트 경매 낙찰가율 y(지지옥션), 아파트 매매가격지수 x1(국민은행), 아파트 낙찰율 x2(지지옥션)
  • 금리 및 유동성: 회사채수익률 x3(한국은행)
  • 경제성장: 소비자물가지수 x4(한국은행)
  • 주택공급: 건축허가현황 주거용 x5(한국은행)
  • 지역: 서울시
  • 기간: 2002.01 ~ 2019.11

 

단위근 검정

거시경제변수에 대한 단위근 존재 여부 검정(ADF test, PP test): 차분 자료에서 모든 변수들의 단위근이 존재하지 않으므로 1차 차분 변수를 이용(비율 변수를 제외하고 로그차분 사용)

※ ADF test: 시계열 데이터의 안정성(Stationary)를 확인하기 위한 테스트, 안정성이 없으면 시간에 따라서 반복되는 패턴이 아니므로 패턴을 찾아내기 위한 딥러닝 모델은 의미가 없어짐. 

 PP test: 시계열 분석 에서 시계열이 차수 1로 적분 된다는 귀무가설을 검정하는 데 사용, 자기 상관 및 이분산성을 확인

 

 

분석 결과

RNN 모형

최적의 모수를 선택하기 위해 MSE, RMSE를 비교해가며 Dropout = 0.9, Epochs = 90, Neuron = [32,16,1]로 설정하였다. 

※ 에폭(Epoch): 전체 단위가 학습되는 횟수로 에폭 값이 너무 크면 과적합, 작으면 과소적합(Underfitting) 문제 발생.

※ 드롭아웃(Dropout): 모델 성능을 향상 시키기 위해서 입력값 중 일부를 Drop-out(제외) 시킴. 과적합 방지가 목적.

실험 자료 중 학습용(training data set)과 검증용(test data set)의 비율은 9:1로 분할하였다. 

 

GARCH 모형

GARCH(1,1) 모형을 통해 아파트경매낙찰가율은 전기의 아파트매매가격지수의 영향을 받은 것으로 알 수 있다. 

 AIC 검정: 여러 회귀 모형 중 가장 나은(과소적합, 과대적합 문제가 가장 적은) 모델을 찾아주는 성능 비교 방법

 

 

결론

시계열분석방법론인 GARCH모형 보다 딥러닝의 RNN모형의 예측력이 더 우수한 것을 실증적으로 알 수가 있었다.

 

 

한계
  1. 왜 활성화 함수가 Relu를 썼는지에 대한 설명이 없음. (그냥? 아니면 sigmoid 써 봤는데 성능이 안 나와서 뺀건지?) 
  2. RNN 모형을 설정할 때 Layer 구조에 대해서 경험적으로 RMSE, MSE가 작은 숫자들을 갖다 썼을 뿐, 왜 이 모형이 되어야 하는지에 대한 설명과 근거가 부족함. (그저 모델을 노가다로 만든 것일 뿐)
  3. GARCH 모형과 비교해서 예측력(성능)이 좋다는 결론만 제시할 뿐, 왜 성능이 좋은지에 대해서는 설명할 수 없음. 따라서 시간이 지남에 따라 이 모델을 재사용이 가능할 지 불분명함. 즉, 예측력이 얼마나 지속될지 알 수 없음.
  4. 분산 분석이 제시되지 않기 때문에, 예측된 결과에 대해서 얼마나 신뢰할 수 있는지 알 수 없음. 
  5. 데이터 중 학습용(Training set)과 검증용(Test set)의 비율이 9:1로, 2002년 ~ 2019년이라는 18년의 기간 중 예측 구간은 단 2년임. 학습데이터 수가 많으므로 Computational Cost 또한 많이 들었을 것으로 보임.