FP8 양자화1 [AI가속] TensorRT-LLM 지난 주(10월 3주차)에 NVidia에서 TensorRT LLM이라는 LLM을 위한 GPU 가속 라이브러리를 Release 하였다. 기존 A100 대비 약 5배, H100 대비해서는 약 2배 약간 못 미치게 성능 향상이 있다고 발표했다. 소프트웨어만으로 성능 향상을 볼 수 있는 것이라 안 쓸 이유가 크지 않은데, 주요하게 포함된 기술은 아래와 같다. Tensor Parallelism 쉽게 얘기해서 모델의 Tensor들을 나누어 GPU마다 할당하고 연산한 뒤에 다시 합하고 Synchronization하는 것이다. GPU 메모리를 상대적으로 덜 쓸 수 있다는 장점이 있지만, Sync 과정이 복잡할 수 있다. Pipeline Parallelism GPU마다 배치를 나누어서 학습하고, 이를 다시 Sync한다... 2023. 10. 25. 이전 1 다음