FremyCompany
commited on
Commit
•
e005980
1
Parent(s):
790bdf4
Update README.md
Browse files- README.md +24 -1
- TweetyTatar.png +0 -0
README.md
CHANGED
@@ -9,12 +9,20 @@ datasets:
|
|
9 |
- oscar-corpus/OSCAR-2301
|
10 |
---
|
11 |
|
|
|
|
|
12 |
# Tweety Tatar / Base 7b / 2024-v1
|
13 |
|
14 |
## Model description
|
15 |
-
This model is our trans-tokenized LLM for the [Tatar language](https://en.wikipedia.org/wiki/Tatar_language),
|
16 |
Trans-tokenized LLMs are language models finetuned to produce output in a particular language, using a novel tokenizer native to that language.
|
17 |
|
|
|
|
|
|
|
|
|
|
|
|
|
18 |
## In-scope usage
|
19 |
This model can be used as-is to perform basic language modeling operations in Tatar, or finetuned to perform more complex operations.
|
20 |
This model has not undergone Instruction- or Chat-based finetuning, which means that the model functions best in few-shot settings.
|
@@ -92,4 +100,19 @@ def generate_tatar_summary(tatar_text_to_summarize: str) -> str:
|
|
92 |
|
93 |
generate_tatar_summary("Зур шартлау (ингл. Big Bang) – Галәмнең башлангыч, сингуляр халәттә торган чорын тасвирлаучы космологик модель. Әле ХХ гасырда да без яшәгән Галәм статик структуралы, дигән фикер яшәгән. Ягъни, Галәмнең башы һәм ахыры юк, имеш, ул һәрвакыт булган һәм булачак. Бу фикер фән дөньясында бик озак, астрономия фәненең бөтен нигезләрен җимереп яңа теория барлыкка килгәнче яшәгән. Бу теориянең исеме – «Зур шартлау» теориясе.")
|
94 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
95 |
```
|
|
|
9 |
- oscar-corpus/OSCAR-2301
|
10 |
---
|
11 |
|
12 |
+
<img align="right" src="https://huggingface.co/Tweeties/tweety-tatar-base-7b-2024-v1/resolve/main/TweetyTatar.png?download=true" alt="Tweety-Tatar-7B: A Tatar Large Language Model" width="20%">
|
13 |
+
|
14 |
# Tweety Tatar / Base 7b / 2024-v1
|
15 |
|
16 |
## Model description
|
17 |
+
This model is our trans-tokenized LLM for the [Tatar language](https://en.wikipedia.org/wiki/Tatar_language), converted from the [Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) model trained by MistralAI.
|
18 |
Trans-tokenized LLMs are language models finetuned to produce output in a particular language, using a novel tokenizer native to that language.
|
19 |
|
20 |
+
- **Developed by:** [François Remy](https://huggingface.co/FremyCompany) (UGent), [Alfiya Khabibullina](https://huggingface.co/justalphie) (BeCode), [et al.](#citation)
|
21 |
+
- **Funded by:** IDLab / GPULab (UGent)
|
22 |
+
- **Model type:** Foundation model using the mistral architecture
|
23 |
+
- **Language(s) (NLP):** Tatar
|
24 |
+
- **License:** Apache 2.0
|
25 |
+
|
26 |
## In-scope usage
|
27 |
This model can be used as-is to perform basic language modeling operations in Tatar, or finetuned to perform more complex operations.
|
28 |
This model has not undergone Instruction- or Chat-based finetuning, which means that the model functions best in few-shot settings.
|
|
|
100 |
|
101 |
generate_tatar_summary("Зур шартлау (ингл. Big Bang) – Галәмнең башлангыч, сингуляр халәттә торган чорын тасвирлаучы космологик модель. Әле ХХ гасырда да без яшәгән Галәм статик структуралы, дигән фикер яшәгән. Ягъни, Галәмнең башы һәм ахыры юк, имеш, ул һәрвакыт булган һәм булачак. Бу фикер фән дөньясында бик озак, астрономия фәненең бөтен нигезләрен җимереп яңа теория барлыкка килгәнче яшәгән. Бу теориянең исеме – «Зур шартлау» теориясе.")
|
102 |
|
103 |
+
```
|
104 |
+
|
105 |
+
|
106 |
+
## Citation
|
107 |
+
|
108 |
+
If you use this model, please cite our work as:
|
109 |
+
|
110 |
+
```
|
111 |
+
@article{tweeties2024,
|
112 |
+
title = {Trans-Tokenization and Cross-lingual Vocabulary Transfers: Language Adaptation of LLMs for Low-Resource NLP},
|
113 |
+
author = {François Remy and Pieter Delobelle and Hayastan Avetisyan and Alfiya Khabibullina and Miryam de Lhoneux and Thomas Demeester},
|
114 |
+
url = {https://huggingface.co/Tweeties},
|
115 |
+
year = {2024},
|
116 |
+
note = {Under review at COLM 2024}
|
117 |
+
}
|
118 |
```
|
TweetyTatar.png
ADDED