tangledgroup
/

tangled-llama-t-128k-base-v0.1

Text Generation

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

mtasic85 commited on 8 days ago

Commit

48be84a

•

1 Parent(s): c6352c2

pretrain dataset

Files changed (2) hide show

scripts/TRAIN.md +11 -0
scripts/pretrain-model.yaml +1 -1

scripts/TRAIN.md CHANGED Viewed

@@ -21,6 +21,17 @@ python -B train_tokenizer.py
 python -B prepare_pretrain_dataset.py
 ```
 ## Model
 ### Pretrain

 python -B prepare_pretrain_dataset.py
 ```
+```python
+from litdata import StreamingDataset, StreamingDataLoader, TokensLoader
+dataset = StreamingDataset(
+  input_dir='../pretrain-data/',
+  item_loader=TokensLoader(block_size=2048 + 1),
+)
+print(len(dataset))
+```
 ## Model
 ### Pretrain

scripts/pretrain-model.yaml CHANGED Viewed

@@ -77,7 +77,7 @@ train:
   # Total number of tokens to train on (type: Optional[int], default: 3000000000000)
   # max_tokens: 3000000000000
-  max_tokens: 8159107755 # 796399 * 2049 * 5
   # Limits the number of optimizer steps to run. (type: Optional[int], default: null)
   max_steps:

   # Total number of tokens to train on (type: Optional[int], default: 3000000000000)
   # max_tokens: 3000000000000
+  max_tokens: 36852166560 # 3597088 * 2049 * 5
   # Limits the number of optimizer steps to run. (type: Optional[int], default: null)
   max_steps: