inkoziev commited on
Commit
2b902a5
1 Parent(s): 6622d1f

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +9 -3
README.md CHANGED
@@ -10,9 +10,12 @@ tags:
10
 
11
  ## CharGPT-96M
12
 
13
- Крошечная языковая модель с **посимвольной** токенизацией для всевозможных экспериментов, когда задача решается плохо из-за BPE токенизации на слова и их части.
14
 
15
- К примеру, если вы хотите делать детектор орфографии, или модельку для фонетическую транскрипцию и т.д., данная модель с посимвольной токенизацией может оказаться предпочтительнее, чем обычные GPT.
 
 
 
16
 
17
  Размер модели - **96 миллионов** параметров.
18
 
@@ -22,7 +25,7 @@ tags:
22
  Поэтому корпус претрейна содержал значительное количество текстов поэтического формата.
23
  Это может повлиять на ваши downstream задачи.
24
 
25
- Объем корпуса претрейна - около 30B токенов.
26
 
27
  Кривая loss_val: ![pretrain_loss_val](pretrain_loss_val.png)
28
 
@@ -69,3 +72,6 @@ for o in output_sequences:
69
  print(text)
70
  print('-'*80)
71
  ```
 
 
 
 
10
 
11
  ## CharGPT-96M
12
 
13
+ Это крошечная языковая модель с **посимвольной** токенизацией для всевозможных экспериментов, когда задача решается плохо из-за BPE токенизации на слова и их части:
14
 
15
+ 1) генеративные спеллчекеры
16
+ 2) классификация текста: замена ```TfidfVectorizer(analyzer='char')```, т.е. когда хорошо сработал бейзлайн на символьных n-граммах
17
+ 3) транскрипция текста
18
+ 4) детекция орфографических ошибок, опечаток
19
 
20
  Размер модели - **96 миллионов** параметров.
21
 
 
25
  Поэтому корпус претрейна содержал значительное количество текстов поэтического формата.
26
  Это может повлиять на ваши downstream задачи.
27
 
28
+ Объем корпуса претрейна - около **30B** токенов, тексты только на русском языке.
29
 
30
  Кривая loss_val: ![pretrain_loss_val](pretrain_loss_val.png)
31
 
 
72
  print(text)
73
  print('-'*80)
74
  ```
75
+
76
+ Также, будут работать все прочие инструменты для GPT моделей, например transformers.GPT2ForSequenceClassification.
77
+