본문 바로가기

xgboost2

[데이터분석] 주택가격 예측 Kaggle 도전기 오랜만 아니 거의 처음으로 진지하게 캐글 문제를 풀어보기로.. 쉬어보이는 주택 가격 예측을 선택하였다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 집에 관한 여러 약 80가지의 항목이 있고, 그 내용들을 학습하여 test set에 있는 주택 가격을 예측하는 것이다. 1) 간단한 전처리만으로 도전 데이터를 살펴보면, 대체로 항목별로 구분되지만 일부는 continuous 형태의 데이터로 되어 있다. 회귀 분류에는 이런 특성이 도움되지 않을 것 같아 항목별로 데이터 종류가 10~20개 정도로 줄어들 수.. 2020. 9. 25.
[데이터분석] 시계열분석 2 - XGBoost 이전 포스팅에서는 상점 매출 데이터를 ARIMA로 분석하여 예측하는 것을 해 보았다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에�� magoker.tistory.com 이번에는 같은 데이터를 XGBoost로 분석/예측해본다. XGBoost는 수치형 데이터 분석에서는 현재 거의 끝판왕과 같다. H2O나 DataRobot을 통해 Auto ML을 수행하면 최적 모델이 거의 XGBoost나 같은 계열인 LightGBM으로 선정된다. 여러 모델을 돌려 평균치를 가져오는 Bagging방식의 Random Forest와 달리, .. 2020. 9. 10.