'Andrej Karpathy' 태그의 글 목록

개요 이번 Microsoft Build 2023 행사에서 있었던 Andrej Karpathy의 State of GPT 강의(?) 유튜브 영상을 보고 새로이 배우거나 인상적이었던 깨달음을 메모해둔다. 유튜브 링크: https://youtu.be/bZQun8Y4L2A 메모들 Pretraining이 가장 자원을 많이 먹는 단계이다. 수 개월동안, 수 천개의 GPU를 사용하고 있다. 파라미터 개수가 전부가 아니다. GPT-3의 파라미터 개수가 3배 가까이 많지만, 트레이닝에 사용한 개수는 LLaMA가 3배 이상 많다는 것에 주목하자 특수한 토큰 endoftext == 50256 하나의 트레이팅 토큰 묶음은 endoftext라는 특별히 정의한 토큰으로 구분한다. Base model은 Assistant가 아니다 B..

generative-ai 2023. 5. 30. 02:31

이전 1 다음