본문 바로가기

AI 빅데이터/후려치는 데이터분석과 AI 알고리즘17

[데이터분석] 비전을 이용한 식물 분류 비전 기술은 불량을 찾아내기 위한 공정 검사에 많이 쓰인다. 비전 기술을 쉽게 따라하기 위해 Kaggle의 식물 분류 과제를 잘 정리한 노트북을 따라 실습해 보았다. Plant Seedlings Classification Determine the species of a seedling from an image www.kaggle.com 과제는 주어진 학습데이터를 12종의 식물분류로 학습하고 테스트 이미지 데이터가 어떤 식물인지 맞추는 것이다. MNIST의 이미지 인식 버전이고 식물 종류가 좀 더 많아졌다고 생각하면 된다. 참조한 노트북은 아래와 같이 잘 정리되어 있다. Plant Seedlings with CNN and Image Processing Explore and run machine learni.. 2020. 11. 8.
[데이터분석] Anomaly Detection을 위한 데이터 탐색 공정에서 이상치를 발견하거나, 금융 사기, 수요 예측 등 이상치 감지는 상당히 많이 쓰인다. 이상치가 있다는 건 기존의 데이터가 어느 정도 패턴을 가지고 있다는 뜻이기도 한데, 이번에는 데이터 분석을 통해 그 패턴이란 것이 존재하는 지를 찾기 위한 t-SNE를 본다. 다른 한편, 이상치라는 것이 상당히 unbalanced 데이터이기 때문에 학습이 제대로 되지 않는 경우가 많다. 이런 경우, 이상치의 개수를 늘려 학습하도록 하는 SMOTE를 적용해 볼 예정이다. 분석 예제는 Kaggle의 Credit Card Fraud Detection을 활용할 것이고, Credit Card Fraud Detection Anonymized credit card transactions labeled as fraudulent.. 2020. 11. 1.
[데이터분석] 주택가격 예측 Kaggle 도전기 오랜만 아니 거의 처음으로 진지하게 캐글 문제를 풀어보기로.. 쉬어보이는 주택 가격 예측을 선택하였다. House Prices: Advanced Regression Techniques Predict sales prices and practice feature engineering, RFs, and gradient boosting www.kaggle.com 집에 관한 여러 약 80가지의 항목이 있고, 그 내용들을 학습하여 test set에 있는 주택 가격을 예측하는 것이다. 1) 간단한 전처리만으로 도전 데이터를 살펴보면, 대체로 항목별로 구분되지만 일부는 continuous 형태의 데이터로 되어 있다. 회귀 분류에는 이런 특성이 도움되지 않을 것 같아 항목별로 데이터 종류가 10~20개 정도로 줄어들 수.. 2020. 9. 25.
[데이터분석] GAN으로 수치 데이터 생성하기 GAN으로 유사한 이미지를 얻어내는 방법들은 많이 나와 있다. 수치 정형데이터도 GAN으로 새로 생성해 낼 수 있는데, 아래의 블로그를 참조하였다. How to Develop a 1D Generative Adversarial Network From Scratch in Keras Generative Adversarial Networks, or GANs for short, are a deep learning architecture for training powerful generator models. A generator model is capable of generating new artificial samples that plausibly could have come from an existing dis.. 2020. 9. 17.
[데이터분석] 시계열 분석 3 - 딥러닝 (LSTM) 시계열 분석을 하는 데 있어 전통적 방법인 ARIMA와 최근에 많이 이용되는 XGBoost를 활용하는 방법을 보았다. 아래 ARIMA 포스팅의 Kaggle Data를 사용한다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에�� magoker.tistory.com [데이터분석] 시계열분석 - XGBoost 이전 포스팅에서는 상점 매출 데이터를 ARIMA로 분석하여 예측하는 것을 해 보았다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아 magoke.. 2020. 9. 10.
[데이터분석] 시계열분석 2 - XGBoost 이전 포스팅에서는 상점 매출 데이터를 ARIMA로 분석하여 예측하는 것을 해 보았다. [데이터분석] 시계열 분석 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에�� magoker.tistory.com 이번에는 같은 데이터를 XGBoost로 분석/예측해본다. XGBoost는 수치형 데이터 분석에서는 현재 거의 끝판왕과 같다. H2O나 DataRobot을 통해 Auto ML을 수행하면 최적 모델이 거의 XGBoost나 같은 계열인 LightGBM으로 선정된다. 여러 모델을 돌려 평균치를 가져오는 Bagging방식의 Random Forest와 달리, .. 2020. 9. 10.