본문 바로가기

attention2

[자연어분석] BERT, Transformer, Self Attention 후려치기 솔직히 개념이 좀 와닿지 않아(여전히 그렇다), 계속 피해만 다녔는데 GPT3, ChatGPT의 붐으로 Foundation Model의 근간이 되는 Transformer를 개략적이라도 이해하지 않으면 안될 상황인 듯 해서 아주 브리프하게 후려쳐서 정리해보았다. 대략적인 메카니즘은 이해가 되지만, BERT에서 왜 굳이 Transformer Encoder Layer 위에 FFNN을 쌓고, 그걸 6층으로 다시 만들었는 지 등등의 철학은 여전히 오리무중이다. 하지만, 이제 Transformer 아는 척을 안 하면 밥벌어 먹기 힘든 시대가 결국 온 것 같아서 중심 개념만 정리해 본다. Transformer를 위해서는 Attention만 보면 되겠지만(오죽하면, 논문 제목도 'Attention is all you .. 2023. 1. 28.
[자연어분석] Seq2Seq에 Attention 활용하기 RNN 혹은 LSTM과 같은 순차적 모델을 활용해, 언어를 번역하는 것은 아래 포스팅해서 해봤다. [자연어 처리] Seq2Seq 로 자연어 번역하기 언어 처리를 위해서는 시계열성이 반영되는 RNN이나 LSTM, GRU등을 사용해왔다. Seq2Seq는 Machine Translation을 위해 구글이 개발한 알고리즘으로 위의 알고리즘을 Encoder와 Decoder로 연결하여 하나의 벡터 magoker.tistory.com 하지만, 단순히 Seq2Seq를 사용하는 것에는 아래의 문제가 존재한다. 입력 Sequence가 매우 길면, 처음에 나온 Token 정보가 희석된다. Context Vector 사이즈가 고정되어 있어, 긴 Sequence 정보를 담기가 어렵다. 모든 Token이 영향을 주게 되므로, 중.. 2021. 11. 30.