You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: drafts/2024-02-15-nlp-06.md
+28Lines changed: 28 additions & 0 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -30,6 +30,34 @@ permalink: /2024-02-15-nlp-06
30
30
31
31
## 사전 훈련용 데이터셋
32
32
33
+
Dataset | Sampling prop. | Epochs | Disk size
34
+
-- | -- | -- | --
35
+
CommonCrawl | 67.0% | 1.10 | 3.3 TB
36
+
C4 | 15.0% | 1.06 | 783 GB
37
+
Github | 4.5% | 0.64 | 328 GB
38
+
Wikipedia | 4.5% | 2.45 | 83 GB
39
+
Books | 4.5% | 2.23 | 85 GB
40
+
ArXiv | 2.5% | 1.06 | 92 GB
41
+
StackExchange | 2.0% | 1.03 | 78 GB
42
+
43
+
위 표는 LLaMA의 사전 훈련에 사용한 데이터셋을 정리한 것이다. 사전 훈련용 데이터셋은 다양한 도메인의 데이터 원천들의 조합으로 구성되어 있다.
44
+
45
+
### 영문 CommonCrawl
46
+
저자들은 LLaMA 학습을 위해 2017년부터 2020년까지 5개의 영문 CommonCrawl 덤프를 전처리하여 사전 훈련에 사용하였다. 여기에는 CCNet 파이프라인이라는 것을 사용했는데 이 파이프라인을 통해서 데이터를 줄 수준으로 복제하고 fastText 선형 분류기를 통해 언어를 식별하여 영문이 아닌 페이지는 제거하였다. 또한 CCNet 파이프라인은 n그램 언어 모델을 통해 낮은 퀄리티의 페이지들도 제거할 수 있다. 또한 저자들은 선형 분류기를 훈련시켜 위키피디아의 레퍼런스로 사용된 문서와 랜덤하게 추출된 일반 문서를 분류하여 필터링에 사용할 수 있도록 하였다.
47
+
48
+
### C4
49
+
저자들은 또한 공개된 C4 데이터셋을 활용하였다. CCNet 파이프라인과 거의 유사한 방식으로 전처리가 되었으며 유일한 차이점은 CCNet의 경우 선형 분류기를 통해 퀄리티 필터링을 수행하였던 반면 C4 데이터셋 전처리에서는 웹페이지 내의 문장 부호(Punctuation Marks)의 유무, 단어나 문장의 갯수 등의 휴리스틱을 활용하였다는 점이다.
50
+
51
+
## LLaMA의 모델 구조
52
+
LLaMA는 기존의 Transformer 기반의 모델에서 최근에 제안된 다양한 방법들을 활용하여 모델 구조의 개선이 있었다. 이 개선점은 `Pre-Normalization`, `SwiGLU 활성 함수`, `Rotary 임베딩`의 3가지가 있다.
53
+
54
+
### Pre-Normalization
55
+
저자들은 LLaMA의 훈련 안정성 향상을 위하여 각 Transformer 계층의 입력을 Normalization하였다. 이는 기존의 출력을 Normalization하는 것과는 다르다. 여기에는 RMSNorm Normalization 함수를 사용하였다고 한다.
0 commit comments