tangledgroup
/

tangled-llama-33m-32k-instruct-v0.1

@@ -73,7 +73,7 @@ train:
   # Total number of tokens to train on (type: Optional[int], default: 3000000000000)
   # max_tokens: 3000000000000
-  max_tokens: 9782206713 # 1591379 * 2049 * 3
   # Limits the number of optimizer steps to run. (type: Optional[int], default: null)
   max_steps:

   # Total number of tokens to train on (type: Optional[int], default: 3000000000000)
   # max_tokens: 3000000000000
+  max_tokens: ??? # ? * 32769 * 3
   # Limits the number of optimizer steps to run. (type: Optional[int], default: null)
   max_steps:

scripts/prepare_contrain_dataset.py CHANGED Viewed

@@ -33,7 +33,6 @@ def batch_iterator(name=None):
             text = '\n'.join(text) + '\n'
             yield text
-            break
         del dataset
         gc.collect()
@@ -49,7 +48,6 @@ def batch_iterator(name=None):
             text = '\n'.join(text) + '\n'
             yield text
-            break
         del dataset
         gc.collect()
@@ -65,7 +63,6 @@ def batch_iterator(name=None):
             text = '\n'.join(text) + '\n'
             yield text
-            break
         del dataset
         gc.collect()
@@ -81,7 +78,6 @@ def batch_iterator(name=None):
             text = '\n'.join(text) + '\n'
             yield text
-            break
         del dataset
         gc.collect()
@@ -112,7 +108,6 @@ def batch_iterator(name=None):
             text = '\n'.join(text) + '\n'
             yield text
-            break
         del dataset
         gc.collect()

             text = '\n'.join(text) + '\n'
             yield text
         del dataset
         gc.collect()
             text = '\n'.join(text) + '\n'
             yield text
         del dataset
         gc.collect()
             text = '\n'.join(text) + '\n'
             yield text
         del dataset
         gc.collect()
             text = '\n'.join(text) + '\n'
             yield text
         del dataset
         gc.collect()
             text = '\n'.join(text) + '\n'
             yield text
         del dataset
         gc.collect()