julien-c HF staff commited on
Commit
b7ecf11
1 Parent(s): 929828a

Migrate model card from transformers-repo

Browse files

Read announcement at https://discuss.huggingface.co/t/announcement-all-model-cards-will-be-migrated-to-hf-co-model-repos/2755
Original file history: https://github.com/huggingface/transformers/commits/master/model_cards/etalab-ia/camembert-base-squadFR-fquad-piaf/README.md

Files changed (1) hide show
  1. README.md +108 -0
README.md ADDED
@@ -0,0 +1,108 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: fr
3
+ datasets:
4
+ - piaf
5
+ - FQuAD
6
+ - SQuAD-FR
7
+ widget:
8
+ - text: "Comment s'appelle le portail open data du gouvernement ?"
9
+ context: "Etalab est une administration publique française qui fait notamment office de Chief Data Officer de l'État et coordonne la conception et la mise en œuvre de sa stratégie dans le domaine de la donnée (ouverture et partage des données publiques ou open data, exploitation des données et intelligence artificielle...). Ainsi, Etalab développe et maintient le portail des données ouvertes du gouvernement français data.gouv.fr.
10
+ Etalab promeut également une plus grande ouverture l'administration sur la société (gouvernement ouvert) : transparence de l'action publique, innovation ouverte, participation citoyenne... elle promeut l’innovation, l’expérimentation, les méthodes de travail ouvertes, agiles et itératives, ainsi que les synergies avec la société civile pour décloisonner l’administration et favoriser l’adoption des meilleures pratiques professionnelles dans le domaine du numérique. À ce titre elle étudie notamment l’opportunité de recourir à des technologies en voie de maturation issues du monde de la recherche.
11
+ Cette entité chargée de l'innovation au sein de l'administration doit contribuer à l'amélioration du service public grâce au numérique. Elle est rattachée à la Direction interministérielle du numérique, dont les missions et l’organisation ont été fixées par le décret du 30 octobre 2019.  Dirigé par Laure Lucchesi depuis 2016, elle rassemble une équipe pluridisciplinaire d'une trentaine de personnes."
12
+ ---
13
+
14
+ # camembert-base-squadFR-fquad-piaf
15
+
16
+ ## Description
17
+
18
+ Question-answering French model, using base [CamemBERT](https://camembert-model.fr/) fine-tuned on a combo of three French Q&A datasets:
19
+
20
+ 1. [PIAFv1.1](https://www.data.gouv.fr/en/datasets/piaf-le-dataset-francophone-de-questions-reponses/)
21
+ 2. [FQuADv1.0](https://fquad.illuin.tech/)
22
+ 3. [SQuAD-FR (SQuAD automatically translated to French)](https://github.com/Alikabbadj/French-SQuAD)
23
+
24
+ ## Training hyperparameters
25
+
26
+ ```shell
27
+ python run_squad.py \
28
+ --model_type camembert \
29
+ --model_name_or_path camembert-base \
30
+ --do_train --do_eval \
31
+ --train_file data/SQuAD+fquad+piaf.json \
32
+ --predict_file data/fquad_valid.json \
33
+ --per_gpu_train_batch_size 12 \
34
+ --learning_rate 3e-5 \
35
+ --num_train_epochs 4 \
36
+ --max_seq_length 384 \
37
+ --doc_stride 128 \
38
+ --save_steps 10000
39
+ ```
40
+
41
+ ## Evaluation results
42
+ ### FQuAD v1.0 Evaluation
43
+ ```shell
44
+ {"f1": 79.81, "exact_match": 55.14}
45
+ ```
46
+ ### SQuAD-FR Evaluation
47
+ ```shell
48
+ {"f1": 80.61, "exact_match": 59.54}
49
+ ```
50
+
51
+ ## Usage
52
+
53
+ ```python
54
+ from transformers import pipeline
55
+
56
+ nlp = pipeline('question-answering', model='etalab-ia/camembert-base-squadFR-fquad-piaf', tokenizer='etalab-ia/camembert-base-squadFR-fquad-piaf')
57
+
58
+ nlp({
59
+ 'question': "Qui est Claude Monet?",
60
+ 'context': "Claude Monet, né le 14 novembre 1840 à Paris et mort le 5 décembre 1926 à Giverny, est un peintre français et l’un des fondateurs de l'impressionnisme."
61
+ })
62
+ ```
63
+
64
+ ## Citation
65
+
66
+ ### PIAF
67
+ ```
68
+ @inproceedings{KeraronLBAMSSS20,
69
+ author = {Rachel Keraron and
70
+ Guillaume Lancrenon and
71
+ Mathilde Bras and
72
+ Fr{\'{e}}d{\'{e}}ric Allary and
73
+ Gilles Moyse and
74
+ Thomas Scialom and
75
+ Edmundo{-}Pavel Soriano{-}Morales and
76
+ Jacopo Staiano},
77
+ title = {Project {PIAF:} Building a Native French Question-Answering Dataset},
78
+ booktitle = {{LREC}},
79
+ pages = {5481--5490},
80
+ publisher = {European Language Resources Association},
81
+ year = {2020}
82
+ }
83
+
84
+ ```
85
+
86
+ ### FQuAD
87
+ ```
88
+ @article{dHoffschmidt2020FQuADFQ,
89
+ title={FQuAD: French Question Answering Dataset},
90
+ author={Martin d'Hoffschmidt and Maxime Vidal and Wacim Belblidia and Tom Brendl'e and Quentin Heinrich},
91
+ journal={ArXiv},
92
+ year={2020},
93
+ volume={abs/2002.06071}
94
+ }
95
+ ```
96
+
97
+ ### SQuAD-FR
98
+ ```
99
+ @MISC{kabbadj2018,
100
+ author = "Kabbadj, Ali",
101
+ title = "Something new in French Text Mining and Information Extraction (Universal Chatbot): Largest Q&A French training dataset (110 000+) ",
102
+ editor = "linkedin.com",
103
+ month = "November",
104
+ year = "2018",
105
+ url = "\url{https://www.linkedin.com/pulse/something-new-french-text-mining-information-chatbot-largest-kabbadj/}",
106
+ note = "[Online; posted 11-November-2018]",
107
+ }
108
+ ```