본문 바로가기
AI 빅데이터/AI 동향

[Google] Jeff Dean - 2022년 Google AI의 성과 요약

by 마고커 2023. 1. 24.


구글 리서치의 수석 과학자 Jeff Dean의 Google AI의 현재 상황 정리. 제대로 이해하려면 꼼꼼히 봐야겠지만, 언어, 이미지, 생성모델 관련해서 간단하게만 우선 메모.

 

Language

단순히 정답을 내는 것이 아니라, 정답에 이르기까지의 추론적 사고를 할 수 있는 방법을 제시

  • 2022년 4월에 Pathway에 기반한 5400억개의 파라미터를 지닌 PaLM(Pathway Language Model)을 출시
  • Chain of Thought Prompting: 모델이 논리적 사고를 따르고 보다 구조화되고 조직적이며 정확한 응답을 생성하도록 함

  • 언어마다 롱테일 단어들이 있어서 모두 학습시키기 어려웠는데, 대규모 다국어 훈련 모델을 통해 새로운 언어를 학습

  • Prompt Design 기반으로 Tuning할 때 학습 파라미터를 줄이면서도 완전히 재학습하고 튜닝한 것과 유사한 성능을 보임

  • 특정 수준의 파라미터수를 넘어가면 모델 종류에 관계 없이 비약적 성능 향상을 보여줌 -> 즉 컴퓨팅 능력이 중요

 

Computer Vision

비전에서는 Quantum Leap처럼 보이는 항목은 없음. 객체탐지 속도 개선이나 3D 영상 생성 사례를 소개

 

Multimodal Models

  • Multi-modal Bottleneck Transformers : Video-Audio Encoder Layer 사이의 Full Fusion보다는 latent vector에 bottleneck layer를 두는 것이 성능 향상에 도움이 됨을 밝힘

  •  Locked-image Tuning : 사전 학습된 pretrained image 모델과 image representation이 유사하도록 text encoder를 학습하여 modality  성능을 향상
  • PaLI: Scaling Language-Image Learning : Vision Transformer(ViT) 모델과 100개 이상의 언어를 포함한 텍스트 변환 인코더와 결합한 후, 디코더 모델을 결합하여 여러 언어로 설명 지원

  •  FindIt : 유사하게 언어 질문에 이미지에서 여러개의 정답을 찾아 표시

bowl에 넣은 두번째 재료가 뭐야?

 

Generative Models

Breakthrough한 서비스를 보여주기보다는 아직 연구단계의 결과물을 소개



댓글