구글 리서치의 수석 과학자 Jeff Dean의 Google AI의 현재 상황 정리. 제대로 이해하려면 꼼꼼히 봐야겠지만, 언어, 이미지, 생성모델 관련해서 간단하게만 우선 메모.
Language
단순히 정답을 내는 것이 아니라, 정답에 이르기까지의 추론적 사고를 할 수 있는 방법을 제시
- 2022년 4월에 Pathway에 기반한 5400억개의 파라미터를 지닌 PaLM(Pathway Language Model)을 출시
- Chain of Thought Prompting: 모델이 논리적 사고를 따르고 보다 구조화되고 조직적이며 정확한 응답을 생성하도록 함
- 언어마다 롱테일 단어들이 있어서 모두 학습시키기 어려웠는데, 대규모 다국어 훈련 모델을 통해 새로운 언어를 학습
- Prompt Design 기반으로 Tuning할 때 학습 파라미터를 줄이면서도 완전히 재학습하고 튜닝한 것과 유사한 성능을 보임
- 특정 수준의 파라미터수를 넘어가면 모델 종류에 관계 없이 비약적 성능 향상을 보여줌 -> 즉 컴퓨팅 능력이 중요
Computer Vision
비전에서는 Quantum Leap처럼 보이는 항목은 없음. 객체탐지 속도 개선이나 3D 영상 생성 사례를 소개
- MaxViT: Multi-Axis Vision Transformer : 고해상도 이미지에 적용 어려운 어텐션 모델의 문제를 해결
- Large Motion Frame Interpolation : 두장의 이미지 사이에서 3D 영상을 만들어냄
- LOLNerf: Learn from One Look : 한장의 사진으로부터 3D 이미지를 만들어 냄
Multimodal Models
- Multi-modal Bottleneck Transformers : Video-Audio Encoder Layer 사이의 Full Fusion보다는 latent vector에 bottleneck layer를 두는 것이 성능 향상에 도움이 됨을 밝힘
- Locked-image Tuning : 사전 학습된 pretrained image 모델과 image representation이 유사하도록 text encoder를 학습하여 modality 성능을 향상
- PaLI: Scaling Language-Image Learning : Vision Transformer(ViT) 모델과 100개 이상의 언어를 포함한 텍스트 변환 인코더와 결합한 후, 디코더 모델을 결합하여 여러 언어로 설명 지원
- FindIt : 유사하게 언어 질문에 이미지에서 여러개의 정답을 찾아 표시
- Efficient Video-Text Learning with Iterative Co-tokenization : 동영상에서 텍스트 질문의 답을 찾아내는 데 있어, 하나의 input에서 sequential하게 찾는 것이 아니라, 멀티 스트림으로 나누어 tokenization을 하고 합쳐서 수행속도를 높임
- 4D-Net for Learning Multi-Modal Alignment for 3D and Image Inputs in Time : Lidar와 RGB 카메라 데이터를 같이 학습하여 주변 환경을 더 잘 이해하도록 함
Generative Models
Breakthrough한 서비스를 보여주기보다는 아직 연구단계의 결과물을 소개
- Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding : Imagen에서 T5등 거대 언어 모델 사이즈를 늘리는 것이 Diffusion Model의 사이즈를 늘리는 것보다 이미지 합성에 훨씬 효과적임을 밝힘
'AI 빅데이터 > AI 동향' 카테고리의 다른 글
[GPT-3] GPT-3 FineTuning 하기 (0) | 2023.02.19 |
---|---|
[하드웨어] NVSwitch, 인피니밴드, PIM, PNM (0) | 2023.01.29 |
[하드웨어] AI를 위한 반도체 NPU 후려치기 (2) | 2023.01.29 |
[초거대 AI] Anthropic AI Claude (0) | 2023.01.12 |
Coatue의 AI2022: The Explosion (0) | 2023.01.09 |
댓글