본문 바로가기

데이터분석4

[데이터분석] Anomaly Detection을 위한 데이터 탐색 공정에서 이상치를 발견하거나, 금융 사기, 수요 예측 등 이상치 감지는 상당히 많이 쓰인다. 이상치가 있다는 건 기존의 데이터가 어느 정도 패턴을 가지고 있다는 뜻이기도 한데, 이번에는 데이터 분석을 통해 그 패턴이란 것이 존재하는 지를 찾기 위한 t-SNE를 본다. 다른 한편, 이상치라는 것이 상당히 unbalanced 데이터이기 때문에 학습이 제대로 되지 않는 경우가 많다. 이런 경우, 이상치의 개수를 늘려 학습하도록 하는 SMOTE를 적용해 볼 예정이다. 분석 예제는 Kaggle의 Credit Card Fraud Detection을 활용할 것이고, Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent.. 2020. 11. 1.
[데이터분석] 시계열 분석 3 - 딥러닝 (LSTM) 시계열 분석을 하는 데 있어 전통적 방법인 ARIMA와 최근에 많이 이용되는 XGBoost를 활용하는 방법을 보았다. 아래 ARIMA 포스팅의 Kaggle Data를 사용한다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에�� magoker.tistory.com [데이터분석] 시계열분석 - XGBoost 이전 포스팅에서는 상점 매출 데이터를 ARIMA로 분석하여 예측하는 것을 해 보았다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아 magoke.. 2020. 9. 10.
[데이터분석] 시계열분석 2 - XGBoost 이전 포스팅에서는 상점 매출 데이터를 ARIMA로 분석하여 예측하는 것을 해 보았다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에�� magoker.tistory.com 이번에는 같은 데이터를 XGBoost로 분석/예측해본다. XGBoost는 수치형 데이터 분석에서는 현재 거의 끝판왕과 같다. H2O나 DataRobot을 통해 Auto ML을 수행하면 최적 모델이 거의 XGBoost나 같은 계열인 LightGBM으로 선정된다. 여러 모델을 돌려 평균치를 가져오는 Bagging방식의 Random Forest와 달리, .. 2020. 9. 10.
[데이터분석] 시계열 분석 1 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에서 빅데이터 분석, 딥러닝까지 발전(?)해 오고 있다. Kaggle의 예제 데이터 기반으로 그 방법들을 살펴 볼 예정이다. 데이터는 아래 Kaggle 에서 가져올 수 있다. Store Item Demand Forecasting Challenge Predict 3 months of item sales at different stores www.kaggle.com 구조는 간단해서, 2013년부터 17년말까지 가게(store)별로 각 아이템들이 얼마나 팔렸는지를 나타내고 있다. 월별로 살펴보면 판매는 여름에 높아지고 겨.. 2020. 9. 9.