aria7Beta / README.md

Librarian Bot: Add base_model information to model (#1)

87796d9 about 1 year ago

2.59 kB

	---
	language:
	- fr
	- en
	license: apache-2.0
	library_name: peft
	tags:
	- llama2
	- pytorch
	- french
	inference: false
	pipeline_tag: text-generation
	base_model: meta-llama/Llama-2-7b-chat-hf
	---
	## ARIA 7B is a model created by Faraday

	The growing need of artificial intelligence tools around the world has created a run for GPU power. We decided to create an affordable model with better skills in French which can run on single GPU and reduce data bias observed in models trained mostly on english only datasets..

	ARIA 7B has been trained on over 20.000 tokens of a high quality french dataset. ARIA 7B is one of the best open source models in the world avaible for this size of parameters.

	GPU used for training : NVIDIA V100. Thanks to NVIDIA GPU and Inception program,we have been able to train our model within less than 24 hours.

	Base model : LLAMA_2-7B-CHAT-HF

	We strongly believe that training models in more languages datasets can not only increase their knowledge base but also give more open analysis perspectives ,less focused visions and opinions from only one part of the world.
	## ARIA 7B est un modèle créé par Faraday

	Le besoin croissant en intelligence artificiele dans le monde a créé une course vers la puissance de calcul des cartes graphiques.
	Nous avons décidé de créer un modèle accessible capable de tourner sur une seule carte graphique et réduisant les biais d'algorithmes observés sur les modèles entrainés uniquement sur des bases de données en anglais.

	ARIA 7B a été entrainé sur un dataset de grande qualité avec plus de 20.000 tokens en Français.

	GPU(Carte graphique) utilisée pour le finetuning: NVIDIA V100. Merci à NVIDIA et au programme Nvidia Inception qui nous a orienté pendant tout le processus et nous a permis d'entrainer le modèle en moins de 24h.


	Modèle de base : LLAMA_2-7B-CHAT-HF

	Nous pensons que le fait d'entraîner des modèles sur des langues différentes permet non seulement d'élargir la base de connaissance mais aussi de donner d'autres perspectives d'analyses plus ouvertes,et moins centrées sur la vision et les opinions exprimées par une seule partie du monde.

	Training procedure


	The following `bitsandbytes` quantization config was used during training:
	- quant_method: bitsandbytes
	- load_in_8bit: True
	- load_in_4bit: False
	- llm_int8_threshold: 6.0
	- llm_int8_skip_modules: None
	- llm_int8_enable_fp32_cpu_offload: False
	- llm_int8_has_fp16_weight: False
	- bnb_4bit_quant_type: fp4
	- bnb_4bit_use_double_quant: False
	- bnb_4bit_compute_dtype: float32
	### Framework versions


	- PEFT 0.6.0.dev0