Andrej Karpathy의 State of GPT를 보고
개요 이번 Microsoft Build 2023 행사에서 있었던 Andrej Karpathy의 State of GPT 강의(?) 유튜브 영상을 보고 새로이 배우거나 인상적이었던 깨달음을 메모해둔다. 유튜브 링크: https://youtu.be/bZQun8Y4L2A 메모들 Pretraining이 가장 자원을 많이 먹는 단계이다. 수 개월동안, 수 천개의 GPU를 사용하고 있다. 파라미터 개수가 전부가 아니다. GPT-3의 파라미터 개수가 3배 가까이 많지만, 트레이닝에 사용한 개수는 LLaMA가 3배 이상 많다는 것에 주목하자 특수한 토큰 endoftext == 50256 하나의 트레이팅 토큰 묶음은 endoftext라는 특별히 정의한 토큰으로 구분한다. Base model은 Assistant가 아니다 B..
generative-ai
2023. 5. 30. 02:31
반응형
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 오블완
- Bug
- 인텔리제이
- 체호프
- 엉클 밥
- 노션
- solid
- agile
- OpenAI
- ChatGPT
- 제이펍
- 잡학툰
- 독서
- github
- go
- 영화
- folklore
- Gin
- intellij
- notion
- bun
- 클린 애자일
- API
- 독서후기
- strange
- 2023
- websocket
- 티스토리챌린지
- golang
- clean agile
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
글 보관함