본문 바로가기

AI 빅데이터/후려치는 데이터분석과 AI 알고리즘17

[데이터분석] 시계열 분석 1 - ARIMA 기업 내 데이터분석이 많아지면서 자연스럽게 시계열분석에 대한 Needs가 많아졌다. 마케팅/구매/SCM 등 가치 사슬 내 거의 모든 부분이 시계열 데이터에 의존하고 있는데, 기존의 통계적 접근에서 빅데이터 분석, 딥러닝까지 발전(?)해 오고 있다. Kaggle의 예제 데이터 기반으로 그 방법들을 살펴 볼 예정이다. 데이터는 아래 Kaggle 에서 가져올 수 있다. Store Item Demand Forecasting Challenge Predict 3 months of item sales at different stores www.kaggle.com 구조는 간단해서, 2013년부터 17년말까지 가게(store)별로 각 아이템들이 얼마나 팔렸는지를 나타내고 있다. 월별로 살펴보면 판매는 여름에 높아지고 겨.. 2020. 9. 9.
[자연어 처리] Seq2Seq 로 자연어 번역하기 언어 처리를 위해서는 시계열성이 반영되는 RNN이나 LSTM, GRU등을 사용해왔다. Seq2Seq는 Machine Translation을 위해 구글이 개발한 알고리즘으로 위의 알고리즘을 Encoder와 Decoder로 연결하여 하나의 벡터로 만들어 학습하는 알고리즘이다. 역시 wikidocs.net의 문서가 잘되어 있어 이를 참조했다베꼈다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 번역할 문장을 인코딩해서 나온 신경망을 디코더의 입력으로 연결하는 것이다. 'I am a student'의 순서가 나오면 'je suis etudiant'라고 인식하는 것인데, 단어 자체를 분석하여 인식하기보다, 이를 테면 통문장 영어처럼 외워 번역한다고 보면 맞을까? seq2seq은 atte.. 2020. 8. 5.
[자연어처리] 텍스트 생성으로 이해하는 RNN 이미 오래전 기술이지만, 간단한 텍스트 생성 예제를 통해 RNN 활용(!)을 이해해본다. 아래 링크와 전적으로 동일한 것이며, 개인의 이해를 위해 정리해 두는 것 뿐임. 링크를 통해 이해하는 것이 더 확실하다. 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net 아래 세 문장으로 학습을 하고, 첫 단어를 입력하면 나머지 문장을 만들어 주는 것이다. 경마장에 있는 말이 뛰고 있다 그의 말이 법이다 가는 말이 고와야 오는 말이 곱다 이전에도 이야기했듯이 수식으로 이해할 생각은 전혀 없고, 활용에만 집중하고 싶다. 위의 그림을 간단히 이해하자면 다음 Step의 결과는 현재의 입력과 직전의 Hidden State가 영향을 준다는 것이다. 얼마나 영향을 주는 지를 나타내는 Weight를 찾아.. 2020. 8. 2.
[자연어처리] 간단하게 텍스트 감성 분류하기 CNN으로 SA(Sentimental Analysis)하는 건 김윤박사의 논문으로 유명해졌는데, 비전공자로써 알고리즘 이해하는 건 쉽지 않았다. 간단히 DNN 네트워크를 구성하고 감성분류하는 내용을 Keras로 따라해 보기로 했다. 유명한 아래 책의 4장에 있는 내용을 살짝만 바꿨다. 텐서플로와 머신러닝으로 시작하는 자연어 처리 본 서는 기존 자연어 처리 서적과는 다른 세 가지 특징을 가지고 있다. 첫째, 자연어 처리에 활용되는 개념적인 설명에서 끝나는 것이 아니라 모델 구현에 집중한다. 그뿐만 아니라 상용 서비스� www.yes24.com EDA하는 과정도 자세히 나와 있지만, 후려치는 AI알고리즘이니 데이터 읽기 -> 간단한 전처리 -> 토큰화 -> 임베딩으로 포함한 모델링 -> 테스트 부분으로만 볼.. 2020. 7. 13.
[영상인식] GAN과 AutoEncoder GAN(Genrative Adverserial Network)과 AE(Auto Encoder) 둘다 Generative 계열의 모델이다. Generative(생성)하다는 말 그대로 임의로 학습한 결과값과 원본 데이터를 판별자(Discriminator)에 넣어 두 가지가 얼추 유사할 때까지 Generator를 돌려 판별하기 힘든 수준의 학습 모델을 만든다는 것이다. 말로 하면 너무 어려운데 쉽게 풀어보자면 아래 그림과 같다. 생성 모델은 첫번째 그림처럼 엉성한 그림을 그리는 모델이다. 판별자 모델에 생성자가 그린 그림을 각각 훈련 시켜 두 모델이 얼마나 유사한지를 판단한다. 어처구니 없으니 가중치를 업데이트 해서 두번째 그림을 만들어본다. 사람 얼굴(?)이 나타났지만 여전히 어이 없어서 계속 가중치를 조절.. 2020. 6. 14.