ymelka commited on
Commit
7cf6753
1 Parent(s): 30adcab

Add new SentenceTransformer model.

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,587 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: ymelka/robbert-cosmetic-v2-finetuned
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ metrics:
7
+ - pearson_cosine
8
+ - spearman_cosine
9
+ - pearson_manhattan
10
+ - spearman_manhattan
11
+ - pearson_euclidean
12
+ - spearman_euclidean
13
+ - pearson_dot
14
+ - spearman_dot
15
+ - pearson_max
16
+ - spearman_max
17
+ pipeline_tag: sentence-similarity
18
+ tags:
19
+ - sentence-transformers
20
+ - sentence-similarity
21
+ - feature-extraction
22
+ - generated_from_trainer
23
+ - dataset_size:4200
24
+ - loss:CoSENTLoss
25
+ widget:
26
+ - source_sentence: Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van
27
+ mannen van 37 jaar. Deze reiniger helpt roodheid en onzuiverheden te verminderen,
28
+ terwijl het de huid zacht en gehydrateerd achterlaat.
29
+ sentences:
30
+ - De Shiseido Waso Koshirice Tinted Spot Treatment SOS Imperfections Subtle Peach
31
+ is een hybride behandeling en concealer die puistjes vervaagt en verzorgt. Met
32
+ het antioxiderende Koshihikari-rijst extract en salicylzuur vermindert het direct
33
+ oneffenheden en roodheid, terwijl het de huid voedt en beschermt. De formule bevat
34
+ ook Japanse Shikuwasa-extract en glycyrrhizinaat voor een verbeterde huidbarrière
35
+ en egale teint. Breng een kleine hoeveelheid aan op probleemzones 2-3 keer per
36
+ dag voor een langdurig effect. Geschikt voor alle huidtypes.
37
+ - Neutrogena Retinol Boost Intense Nacht Serum is een krachtig serum dat de huid
38
+ 's nachts intensief verzorgt en herstelt. Dit serum bevat retinol, een krachtig
39
+ ingrediënt dat de huidtextuur verbetert, fijne lijntjes en rimpels vermindert
40
+ en de huidteint egaliseert. Daarnaast bevat het serum hyaluronzuur en vitamine
41
+ C, die de huid hydrateren en beschermen tegen schadelijke invloeden van buitenaf.
42
+ Breng elke avond een paar druppels aan op een gereinigde huid en masseer zachtjes
43
+ in. Gebruik het serum in combinatie met een SPF overdag, aangezien retinol de
44
+ huid gevoeliger kan maken voor de zon. Dit serum is geschikt voor alle huidtypes,
45
+ maar kan irritatie veroorzaken bij een gevoelige huid.
46
+ - 'Nivea Labello Protect+ Lippenbalsem SPF 15 Duo 2x4,8g verzorgt droge en gebarsten
47
+ lippen, kalmeert direct en houdt je lippen 24u lang gehydrateerd. De formule trekt
48
+ snel in en helpt gebarsten lippen te herstellen, terwijl de SPF 15 beschermt tegen
49
+ schadelijke zonnestralen. Met actieve ingrediënten zoals sheaboter, jojoba-olie
50
+ en vitamine E. Gebruik de lippenbalsem regelmatig voor zachte en soepele lippen.
51
+ Let op: niet gebruiken bij allergie voor een van de ingrediënten.'
52
+ - source_sentence: Een voedingssupplement met essentiële voedingsstoffen en antioxidanten
53
+ om de huid van binnenuit te voeden en te beschermen. Ideaal voor vrouwen van 29
54
+ jaar die streven naar een gezonde en stralende huid.
55
+ sentences:
56
+ - De Babor Shaping Vitamine ACE Lichaamscrème is een luxe crème die de huid intensief
57
+ voedt en hydrateert. Dankzij de krachtige combinatie van vitamine A, C en E wordt
58
+ de huid verstevigd, verhelderd en beschermd tegen vrije radicalen. Deze crème
59
+ is ideaal voor het verbeteren van de elasticiteit en stevigheid van de huid, waardoor
60
+ het uiterlijk van cellulitis en striae wordt verminderd. De actieve ingrediënten
61
+ dringen diep door in de huid om langdurige resultaten te bieden. Breng de crème
62
+ dagelijks aan op een gereinigde huid en masseer zachtjes in tot het volledig is
63
+ opgenomen. Vermijd contact met de ogen en gebruik niet op een beschadigde huid.
64
+ - 'Ma Provence Shampoo Anti-Roos met Natuurlijke Witte Klei is een handig en milieuvriendelijk
65
+ product dat perfect is voor op reis. Met een handige maat van 85 g en een centraal
66
+ gat voor een gemakkelijke grip, komt deze shampoo overeen met 40-50 shampoos,
67
+ wat gelijk staat aan 2 flessen van 250 ml. Deze shampoo heeft geen conditioner
68
+ nodig, wat resulteert in minder verpakkingsafval. De formule is 100% natuurlijk
69
+ en bevat 20% biologische ingrediënten, waardoor het ideaal is voor mensen die
70
+ op zoek zijn naar natuurlijke producten. Ma Provence Shampoo Anti-Roos is speciaal
71
+ ontwikkeld om roos te bestrijden en is gecertificeerd als 100% natuurlijk en biologisch.
72
+ Gebruiksaanwijzing: Breng een kleine hoeveelheid shampoo aan op nat haar, masseer
73
+ zachtjes in en spoel grondig uit. Gebruik indien nodig. Voorzorgsmaatregelen:
74
+ Vermijd contact met de ogen en bij eventuele irritatie stop het gebruik.'
75
+ - Avène Men Hydraterende Anti-Agingverzorging is speciaal ontwikkeld voor mannen
76
+ om de huid te hydrateren, revitaliseren en strakker te maken. Deze verzorging
77
+ werkt op de tekenen van huidveroudering, zoals de structuur van de dermis en elasticiteit,
78
+ dankzij actieve ingrediënten zoals hyaluronzuur en antioxidanten. De niet-plakkerige
79
+ textuur zorgt voor een comfortabel gevoel en is geschikt voor alle gevoelige huidtypes,
80
+ zelfs na het scheren. Breng de verzorging aan op het gelaat en de hals voor een
81
+ stevigere en compacter uitziende huid. Gebruik de pompfles van 50 ml volgens de
82
+ aanbevolen instructies voor optimale resultaten.
83
+ - source_sentence: Een milde reiniger speciaal ontwikkeld voor de rijpere huid van
84
+ vrouwen boven de 60. Verrijkt met antioxidanten en hydraterende ingrediënten om
85
+ de doffe huid te revitaliseren en onzuiverheden te verwijderen.
86
+ sentences:
87
+ - De Cattier Zuiverende Reinigingsgel is speciaal ontwikkeld voor de vette huid
88
+ met onzuiverheden en puistjes. Met biologische essentiële oliën van tea tree,
89
+ rozemarijn en pepermunt reinigt deze gel zacht de huid en verwijdert effectief
90
+ onzuiverheden en overtollig talg. Verrijkt met aloë vera, biedt het een aangename
91
+ sensatie van frisheid en laat de huid helder en gezond achter. De actieve ingrediënten,
92
+ waaronder biologische tea tree olie en aloë vera, helpen de huid te zuiveren,
93
+ hydrateren en beschermen. Breng de gel aan op een vochtig gezicht, vermijd de
94
+ oogcontour, masseer in en spoel af met lauw water. Gebruik de gel regelmatig voor
95
+ een zuivere en gezonde huid.
96
+ - 'De Clarins Extra-Firming Anti-Rimpel Rijke Verstevigende Dagcrème is een ideale
97
+ anti-ageing dagverzorging voor de droge huid, speciaal ontworpen voor vrouwen
98
+ vanaf 40 jaar. Deze crème zorgt voor een zichtbaar stevigere en energieke huid,
99
+ vermindert rimpels en herdefinieert het ovaal van het gezicht. De formule bevat
100
+ actieve ingrediënten zoals shea butter, haverextract en vitamine E die de huid
101
+ hydrateren, beschermen en verstevigen. Breng ''s ochtends aan op een schone huid
102
+ voor een egale teint en stralende huid. Let op: vermijd contact met de ogen en
103
+ bij eventuele irritatie stop het gebruik. Pot 50 ml.'
104
+ - La Roche-Posay Effaclar Zuiverende Schuimende Reiningsgel is speciaal ontwikkeld
105
+ voor de vette huid met neiging tot acne. Deze reinigingsgel reinigt en zuivert
106
+ het gezicht zachtjes, verwijdert onzuiverheden en overmatig sebum, en houdt de
107
+ huid schoon en fris. De formule bevat thermaal water van La Roche-Posay voor een
108
+ kalmerende werking. Geschikt voor volwassenen en adolescenten met een vette huid,
109
+ oneffenheden of acne. Gebruik 1 à 2 keer per dag, masseer zachtjes in op een vochtig
110
+ gezicht en spoel grondig af met water. Niet gebruiken bij overgevoeligheid voor
111
+ een van de ingrediënten.
112
+ - source_sentence: Een voedende gezichtsverzorging die diep in de huid doordringt
113
+ om droogheid te behandelen. Speciaal samengesteld voor vrouwen van 24 jaar, deze
114
+ crème helpt de huid te hydrateren en te herstellen, waardoor een gezonde gloed
115
+ wordt bevorderd.
116
+ sentences:
117
+ - Waam Damast Bloemenwater Bio Spray 200ml is een kalmerende en verfrissende spray
118
+ met de heerlijke geur van Damastroos. Dit bloemenwater hydrateert intensief, verstevigt
119
+ en zuivert de huid op milde wijze, ideaal voor gecombineerde tot vette huidtypes.
120
+ Het staat bekend om zijn antiverouderingseigenschappen en helpt bij het voorkomen
121
+ van huidveroudering. De spray kan gebruikt worden voor het gezicht, lichaam en
122
+ haar, en is geschikt voor alle huidtypes, vooral rijpere of reactieve huid. De
123
+ belangrijkste actieve ingrediënten zijn biologisch aloë vera water en Damastroosbloesemwater.
124
+ Gebruik de spray om make-up te verwijderen, huidirritatie te kalmeren of je huis
125
+ subtiel te parfumeren. Niet doorslikken en bewaren op kamertemperatuur.
126
+ - Benecos Natural Care Lippenbalsem Sinaas is een fruitige lipverzorging met een
127
+ heerlijke zoete sinaasappelgeur, verrijkt met hoogwaardige biologische sinaasappelolie
128
+ om de lippen zacht en gehydrateerd te houden. Deze lippenbalsem is ideaal voor
129
+ dagelijks gebruik en biedt bescherming tegen uitdroging en schrale lippen. De
130
+ natuurlijke ingrediënten zorgen voor een milde verzorging en een aangename geur.
131
+ Breng de lippenbalsem eenvoudig aan op de lippen voor een langdurige hydratatie.
132
+ Deze lippenbalsem is geschikt voor alle huidtypes en bevat 4,8 g product. Gebruik
133
+ het product naar behoefte en geniet van zachte en verzorgde lippen.
134
+ - De Fleurance Nature Hydraterende Gezichtscreme Met Aloë Vera is speciaal ontwikkeld
135
+ om de natuurlijke hydratatie van de huid te behouden en te beschermen tegen agressieve
136
+ invloeden van buitenaf. Deze lichte crème bevat aloë vera, sheaboter en jojobaolie
137
+ die de huid verzachten, hydrateren en voeden. Geschikt voor alle huidtypes, deze
138
+ bio gecertificeerde crème trekt snel in en laat de huid soepel en gezond aanvoelen.
139
+ Breng de crème aan op gezicht en hals met lichte masserende bewegingen voor een
140
+ gezonde en goed gehydrateerde huid. Bevat 50 ml.
141
+ - source_sentence: Een hydraterende gezichtsverzorging die de doffe huid van een 18-jarige
142
+ vrouw weer laat stralen. Bevat antioxidanten die de huid beschermen tegen schadelijke
143
+ invloeden van buitenaf. Vermindert wallen en onzuiverheden voor een egale en gezonde
144
+ teint.
145
+ sentences:
146
+ - Alpecin Hypo-Sensitive Shampoo is speciaal ontwikkeld voor mensen met een gevoelige
147
+ hoofdhuid en biedt een zachte reiniging en hydratatie. De hypoallergene formule
148
+ bevat geen parfum, kleurstoffen of conserveermiddelen en is zelfs geschikt voor
149
+ mensen met atopisch eczeem. Met actieve ingrediënten zoals salie-extract en bisabolol
150
+ kalmeert en voorkomt het irritaties, terwijl het de huidbarrière versterkt voor
151
+ een gezonde balans. Gebruik de shampoo dagelijks door het zachtjes in te masseren
152
+ op nat haar en grondig uit te spoelen. De fles bevat 250 ml en is ideaal voor
153
+ mensen met een droge en gevoelige hoofdhuid.
154
+ - Phyto Phytocolor Permanente Kleuring 3 Donkerbruin 1 Kit is een haarverf verrijkt
155
+ met plantaardige pigmenten voor een rijke kleur die niet vervaagt en 100% grijze
156
+ haren dekt. De formule bevat monoï en jojoba oliën voor een mooie glans en verzorging,
157
+ terwijl kalmerende ingrediënten irritatie tegengaan. De kleurcrème bevat geen
158
+ PPD of resorcine en is geschikt voor haar. Breng het mengsel aan op droog, ongewassen
159
+ haar en laat het inwerken volgens de instructies. Voer altijd een allergietest
160
+ uit voor gebruik. Met Phyto Phytocolor geniet je van een intense kleur met natuurlijke
161
+ schakeringen en verzorg je je haar op een zachte manier.
162
+ - De T.LeClerc Geheime Droge Olie is een voedende olie met een poederige geur van
163
+ witte iris die de huid hydrateert en een langdurige geur achterlaat. Geschikt
164
+ voor de gevoelige huid, bevat deze olie 5 plantaardige oliën zoals rijstzemelolie,
165
+ zoete amandelolie en sesamzaadolie die de huid kalmeren, beschermen en revitaliseren.
166
+ Ideaal voor het lichaam en haar, kan de olie het hele jaar door worden gebruikt
167
+ door een paar druppels in de handpalmen te verwarmen en in te masseren. Voor een
168
+ effectieve werking kan de olie ook als masker op de hoofdhuid en lengten worden
169
+ aangebracht en na 30 minuten worden uitgespoeld. Gebruik met voorzichtigheid bij
170
+ allergieën voor een van de ingrediënten.
171
+ model-index:
172
+ - name: SentenceTransformer based on ymelka/robbert-cosmetic-v2-finetuned
173
+ results:
174
+ - task:
175
+ type: semantic-similarity
176
+ name: Semantic Similarity
177
+ dataset:
178
+ name: dev
179
+ type: dev
180
+ metrics:
181
+ - type: pearson_cosine
182
+ value: 0.8646855536832553
183
+ name: Pearson Cosine
184
+ - type: spearman_cosine
185
+ value: 0.9307532547762918
186
+ name: Spearman Cosine
187
+ - type: pearson_manhattan
188
+ value: 0.8406446921386265
189
+ name: Pearson Manhattan
190
+ - type: spearman_manhattan
191
+ value: 0.9304243863652625
192
+ name: Spearman Manhattan
193
+ - type: pearson_euclidean
194
+ value: 0.8382514640398003
195
+ name: Pearson Euclidean
196
+ - type: spearman_euclidean
197
+ value: 0.9307301686010424
198
+ name: Spearman Euclidean
199
+ - type: pearson_dot
200
+ value: 0.8395448144279598
201
+ name: Pearson Dot
202
+ - type: spearman_dot
203
+ value: 0.926131782390444
204
+ name: Spearman Dot
205
+ - type: pearson_max
206
+ value: 0.8646855536832553
207
+ name: Pearson Max
208
+ - type: spearman_max
209
+ value: 0.9307532547762918
210
+ name: Spearman Max
211
+ ---
212
+
213
+ # SentenceTransformer based on ymelka/robbert-cosmetic-v2-finetuned
214
+
215
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [ymelka/robbert-cosmetic-v2-finetuned](https://huggingface.co/ymelka/robbert-cosmetic-v2-finetuned). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
216
+
217
+ ## Model Details
218
+
219
+ ### Model Description
220
+ - **Model Type:** Sentence Transformer
221
+ - **Base model:** [ymelka/robbert-cosmetic-v2-finetuned](https://huggingface.co/ymelka/robbert-cosmetic-v2-finetuned) <!-- at revision 12eb96695b4dd6222445c8973202325d5d2c61db -->
222
+ - **Maximum Sequence Length:** 512 tokens
223
+ - **Output Dimensionality:** 768 tokens
224
+ - **Similarity Function:** Cosine Similarity
225
+ <!-- - **Training Dataset:** Unknown -->
226
+ <!-- - **Language:** Unknown -->
227
+ <!-- - **License:** Unknown -->
228
+
229
+ ### Model Sources
230
+
231
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
232
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
233
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
234
+
235
+ ### Full Model Architecture
236
+
237
+ ```
238
+ SentenceTransformer(
239
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
240
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
241
+ )
242
+ ```
243
+
244
+ ## Usage
245
+
246
+ ### Direct Usage (Sentence Transformers)
247
+
248
+ First install the Sentence Transformers library:
249
+
250
+ ```bash
251
+ pip install -U sentence-transformers
252
+ ```
253
+
254
+ Then you can load this model and run inference.
255
+ ```python
256
+ from sentence_transformers import SentenceTransformer
257
+
258
+ # Download from the 🤗 Hub
259
+ model = SentenceTransformer("ymelka/robbert-cosmetic-similarity")
260
+ # Run inference
261
+ sentences = [
262
+ 'Een hydraterende gezichtsverzorging die de doffe huid van een 18-jarige vrouw weer laat stralen. Bevat antioxidanten die de huid beschermen tegen schadelijke invloeden van buitenaf. Vermindert wallen en onzuiverheden voor een egale en gezonde teint.',
263
+ 'Alpecin Hypo-Sensitive Shampoo is speciaal ontwikkeld voor mensen met een gevoelige hoofdhuid en biedt een zachte reiniging en hydratatie. De hypoallergene formule bevat geen parfum, kleurstoffen of conserveermiddelen en is zelfs geschikt voor mensen met atopisch eczeem. Met actieve ingrediënten zoals salie-extract en bisabolol kalmeert en voorkomt het irritaties, terwijl het de huidbarrière versterkt voor een gezonde balans. Gebruik de shampoo dagelijks door het zachtjes in te masseren op nat haar en grondig uit te spoelen. De fles bevat 250 ml en is ideaal voor mensen met een droge en gevoelige hoofdhuid.',
264
+ 'Phyto Phytocolor Permanente Kleuring 3 Donkerbruin 1 Kit is een haarverf verrijkt met plantaardige pigmenten voor een rijke kleur die niet vervaagt en 100% grijze haren dekt. De formule bevat monoï en jojoba oliën voor een mooie glans en verzorging, terwijl kalmerende ingrediënten irritatie tegengaan. De kleurcrème bevat geen PPD of resorcine en is geschikt voor haar. Breng het mengsel aan op droog, ongewassen haar en laat het inwerken volgens de instructies. Voer altijd een allergietest uit voor gebruik. Met Phyto Phytocolor geniet je van een intense kleur met natuurlijke schakeringen en verzorg je je haar op een zachte manier.',
265
+ ]
266
+ embeddings = model.encode(sentences)
267
+ print(embeddings.shape)
268
+ # [3, 768]
269
+
270
+ # Get the similarity scores for the embeddings
271
+ similarities = model.similarity(embeddings, embeddings)
272
+ print(similarities.shape)
273
+ # [3, 3]
274
+ ```
275
+
276
+ <!--
277
+ ### Direct Usage (Transformers)
278
+
279
+ <details><summary>Click to see the direct usage in Transformers</summary>
280
+
281
+ </details>
282
+ -->
283
+
284
+ <!--
285
+ ### Downstream Usage (Sentence Transformers)
286
+
287
+ You can finetune this model on your own dataset.
288
+
289
+ <details><summary>Click to expand</summary>
290
+
291
+ </details>
292
+ -->
293
+
294
+ <!--
295
+ ### Out-of-Scope Use
296
+
297
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
298
+ -->
299
+
300
+ ## Evaluation
301
+
302
+ ### Metrics
303
+
304
+ #### Semantic Similarity
305
+ * Dataset: `dev`
306
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
307
+
308
+ | Metric | Value |
309
+ |:--------------------|:-----------|
310
+ | pearson_cosine | 0.8647 |
311
+ | **spearman_cosine** | **0.9308** |
312
+ | pearson_manhattan | 0.8406 |
313
+ | spearman_manhattan | 0.9304 |
314
+ | pearson_euclidean | 0.8383 |
315
+ | spearman_euclidean | 0.9307 |
316
+ | pearson_dot | 0.8395 |
317
+ | spearman_dot | 0.9261 |
318
+ | pearson_max | 0.8647 |
319
+ | spearman_max | 0.9308 |
320
+
321
+ <!--
322
+ ## Bias, Risks and Limitations
323
+
324
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
325
+ -->
326
+
327
+ <!--
328
+ ### Recommendations
329
+
330
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
331
+ -->
332
+
333
+ ## Training Details
334
+
335
+ ### Training Dataset
336
+
337
+ #### Unnamed Dataset
338
+
339
+
340
+ * Size: 4,200 training samples
341
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
342
+ * Approximate statistics based on the first 1000 samples:
343
+ | | sentence1 | sentence2 | score |
344
+ |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
345
+ | type | string | string | float |
346
+ | details | <ul><li>min: 35 tokens</li><li>mean: 56.45 tokens</li><li>max: 86 tokens</li></ul> | <ul><li>min: 80 tokens</li><li>mean: 146.59 tokens</li><li>max: 223 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
347
+ * Samples:
348
+ | sentence1 | sentence2 | score |
349
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
350
+ | <code>Een voedingssupplement met essentiële vetzuren en vitamines om de huid van binnenuit te voeden en te ondersteunen. Dit supplement is speciaal samengesteld voor vrouwen van 22 jaar oud om droogheid te bestrijden en de algehele gezondheid van de huid te verbeteren.</code> | <code>De Lancaster Sun Beauty Sublime Tan Body Milk SPF30 is een vederlichte en niet-vette bodylotion die de huid beschermt tegen schadelijke zonnestralen en helpt bij het herstellen van zonschade. De crèmige textuur smelt direct op de huid en zorgt voor een gezonde bruine teint in de helft van de gebruikelijke tijd. De formule is geschikt voor alle huidtypes en laat geen wit laagje achter, met een fluweelachtige finish als resultaat. Belangrijke actieve ingrediënten zijn onder andere Bambusa arundinacea stem extract en Mauritia flexuosa fruit oil, die de huid hydrateren en beschermen. Breng royaal aan vóór blootstelling aan de zon en herhaal regelmatig. Let op: overmatige blootstelling aan de zon kan schadelijk zijn voor de gezondheid. Inhoud: 175 ml.</code> | <code>0.0040877847932279</code> |
351
+ | <code>Een geavanceerde gezichtsverzorging voor vrouwen van 50 jaar en ouder, gericht op het verminderen van poriën, het verbeteren van een doffe huid en het verminderen van wallen. Deze verzorging bevat krachtige ingrediënten die de huid hydrateren, verstevigen en verjongen, waardoor de tekenen van veroudering worden verminderd en de huid een jeugdige uitstraling krijgt.</code> | <code>De L'Oréal Paris Age Perfect Re-Hydraterende Dagcreme is speciaal ontwikkeld voor vrouwen vanaf 50 jaar om pigmentvlekken te verminderen en de huid te verstevigen. Verrijkt met sojapeptiden, hydrateert en stimuleert deze crème de natuurlijke synthese van huidvezels, waardoor de huid stralend en stevig wordt. Na één maand zijn pigmentvlekken vervaagd en is de huid gehydrateerd. Breng 's ochtends aan op een gereinigd gezicht en hals voor optimale resultaten. Let op: alleen voor uitwendig gebruik.</code> | <code>0.9995909333229064</code> |
352
+ | <code>Een rijke gezichtsverzorging voor vrouwen boven de 70 jaar die last hebben van droogheid, roodheid en vergrote poriën. Deze verzorging hydrateert diep, vermindert roodheid en herstelt de natuurlijke balans van de huid. Het helpt ook om de poriën te verfijnen en de huid te verstevigen.</code> | <code>De Clarins Extra-Firming Verstevigende Behandeling Essence is speciaal ontwikkeld voor vrouwen in de veertig om de huid intensief te hydrateren, in balans te brengen en een jeugdige uitstraling te geven. Deze essence combineert krachtige botanische ingrediënten met hyaluronzuur om de huid te vernieuwen en te verkwikken, waardoor deze steviger en elastischer wordt. De fluweelachtige textuur zorgt voor een vollere en soepelere huid. Gebruik dagelijks 's ochtends en/of 's avonds door een paar druppels zachtjes op het gezicht aan te brengen. Niet aanbevolen voor personen onder de 40 jaar.</code> | <code>0.9986273050308228</code> |
353
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
354
+ ```json
355
+ {
356
+ "scale": 20.0,
357
+ "similarity_fct": "pairwise_cos_sim"
358
+ }
359
+ ```
360
+
361
+ ### Evaluation Dataset
362
+
363
+ #### Unnamed Dataset
364
+
365
+
366
+ * Size: 690 evaluation samples
367
+ * Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
368
+ * Approximate statistics based on the first 1000 samples:
369
+ | | sentence1 | sentence2 | score |
370
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:--------------------------------------------------------------|
371
+ | type | string | string | float |
372
+ | details | <ul><li>min: 35 tokens</li><li>mean: 56.5 tokens</li><li>max: 81 tokens</li></ul> | <ul><li>min: 97 tokens</li><li>mean: 146.09 tokens</li><li>max: 207 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.5</li><li>max: 1.0</li></ul> |
373
+ * Samples:
374
+ | sentence1 | sentence2 | score |
375
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
376
+ | <code>Een diep reinigende gezichtsreiniger speciaal ontwikkeld voor vrouwen van 36 jaar en ouder met pigmentvlekken, rimpels en een vette huid. Deze reiniger verwijdert onzuiverheden en overtollig talg, verheldert de huid en vermindert tekenen van veroudering.</code> | <code>Embryolisse Eco-Recharge Vloeibare Melk-Crème 400ml is een hydraterende en voedende crème die de huid intensief verzorgt en beschermt. Deze vloeibare melk-crème is geschikt voor alle huidtypes en zorgt voor een zachte en soepele huid. De formule bevat actieve ingrediënten zoals shea boter, aloë vera en soja-eiwitten die de huid hydrateren, kalmeren en herstellen. Breng de crème dagelijks aan op een gereinigde huid en masseer zachtjes in. Gebruik het product bij voorkeur 's ochtends en 's avonds voor optimale resultaten. Let op: vermijd contact met de ogen en bij eventuele huidirritatie het gebruik stoppen.</code> | <code>0.019439160823822</code> |
377
+ | <code>Een voedingssupplement met essentiële vitaminen en mineralen die de huid van binnenuit voeden en beschermen. Speciaal samengesteld voor vrouwen van 20 jaar om de huid te helpen bij het reguleren van talgproductie, het verminderen van vlekken en het verbeteren van de algehele huidconditie. Dit supplement draagt bij aan een gezonde en stralende huid.</code> | <code>Attitude Minerale Zonne Stick Orange Blossom SPF30 60g biedt een breedbandige bescherming tegen UVA- en UVB-stralen, met non-nano zinkoxide als actief ingrediënt. Deze veganistische formule is EWG Verified en dermatologisch getest, waardoor het veilig is voor de huid en het milieu. De handige biologisch afbreekbare kartonnen tube maakt het aanbrengen gemakkelijk en laat geen witte vlekken achter. Geniet van het heerlijke oranjebloesemaroma terwijl je huid beschermd wordt tegen de zon. Gebruik deze zonne stick voor een effectieve bescherming tijdens buitenactiviteiten.</code> | <code>0.0337340645492076</code> |
378
+ | <code>Een milde gezichtsreiniger speciaal ontwikkeld voor vrouwen van 50 jaar en ouder. Deze reiniger is ideaal voor het verwijderen van onzuiverheden en make-up, terwijl het de huid hydrateert en verzacht. Het helpt bij het verminderen van droogheid en roodheid, waardoor de huid er stralender en gezonder uitziet.</code> | <code>Avène Cleanance Zuiverende En Matterende Reinigingsgel is speciaal ontwikkeld voor de vette huid met imperfecties. Deze reinigingsgel reinigt de huid diep en verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en mat blijft. De formule bevat actieve ingrediënten zoals Avène Thermaal Water en Monolaurine die de talgproductie reguleren en de huid zuiveren. Gebruik de reinigingsgel dagelijks, breng aan op een vochtig gezicht en masseer zachtjes in. Spoel af met water en dep de huid droog. Vermijd contact met de ogen. Geschikt voor dagelijks gebruik.</code> | <code>0.999606430530548</code> |
379
+ * Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
380
+ ```json
381
+ {
382
+ "scale": 20.0,
383
+ "similarity_fct": "pairwise_cos_sim"
384
+ }
385
+ ```
386
+
387
+ ### Training Hyperparameters
388
+ #### Non-Default Hyperparameters
389
+
390
+ - `eval_strategy`: steps
391
+ - `learning_rate`: 2e-05
392
+ - `weight_decay`: 0.01
393
+ - `warmup_ratio`: 0.1
394
+ - `bf16`: True
395
+ - `batch_sampler`: no_duplicates
396
+
397
+ #### All Hyperparameters
398
+ <details><summary>Click to expand</summary>
399
+
400
+ - `overwrite_output_dir`: False
401
+ - `do_predict`: False
402
+ - `eval_strategy`: steps
403
+ - `prediction_loss_only`: True
404
+ - `per_device_train_batch_size`: 8
405
+ - `per_device_eval_batch_size`: 8
406
+ - `per_gpu_train_batch_size`: None
407
+ - `per_gpu_eval_batch_size`: None
408
+ - `gradient_accumulation_steps`: 1
409
+ - `eval_accumulation_steps`: None
410
+ - `learning_rate`: 2e-05
411
+ - `weight_decay`: 0.01
412
+ - `adam_beta1`: 0.9
413
+ - `adam_beta2`: 0.999
414
+ - `adam_epsilon`: 1e-08
415
+ - `max_grad_norm`: 1.0
416
+ - `num_train_epochs`: 3
417
+ - `max_steps`: -1
418
+ - `lr_scheduler_type`: linear
419
+ - `lr_scheduler_kwargs`: {}
420
+ - `warmup_ratio`: 0.1
421
+ - `warmup_steps`: 0
422
+ - `log_level`: passive
423
+ - `log_level_replica`: warning
424
+ - `log_on_each_node`: True
425
+ - `logging_nan_inf_filter`: True
426
+ - `save_safetensors`: True
427
+ - `save_on_each_node`: False
428
+ - `save_only_model`: False
429
+ - `restore_callback_states_from_checkpoint`: False
430
+ - `no_cuda`: False
431
+ - `use_cpu`: False
432
+ - `use_mps_device`: False
433
+ - `seed`: 42
434
+ - `data_seed`: None
435
+ - `jit_mode_eval`: False
436
+ - `use_ipex`: False
437
+ - `bf16`: True
438
+ - `fp16`: False
439
+ - `fp16_opt_level`: O1
440
+ - `half_precision_backend`: auto
441
+ - `bf16_full_eval`: False
442
+ - `fp16_full_eval`: False
443
+ - `tf32`: None
444
+ - `local_rank`: 0
445
+ - `ddp_backend`: None
446
+ - `tpu_num_cores`: None
447
+ - `tpu_metrics_debug`: False
448
+ - `debug`: []
449
+ - `dataloader_drop_last`: False
450
+ - `dataloader_num_workers`: 0
451
+ - `dataloader_prefetch_factor`: None
452
+ - `past_index`: -1
453
+ - `disable_tqdm`: False
454
+ - `remove_unused_columns`: True
455
+ - `label_names`: None
456
+ - `load_best_model_at_end`: False
457
+ - `ignore_data_skip`: False
458
+ - `fsdp`: []
459
+ - `fsdp_min_num_params`: 0
460
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
461
+ - `fsdp_transformer_layer_cls_to_wrap`: None
462
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
463
+ - `deepspeed`: None
464
+ - `label_smoothing_factor`: 0.0
465
+ - `optim`: adamw_torch
466
+ - `optim_args`: None
467
+ - `adafactor`: False
468
+ - `group_by_length`: False
469
+ - `length_column_name`: length
470
+ - `ddp_find_unused_parameters`: None
471
+ - `ddp_bucket_cap_mb`: None
472
+ - `ddp_broadcast_buffers`: False
473
+ - `dataloader_pin_memory`: True
474
+ - `dataloader_persistent_workers`: False
475
+ - `skip_memory_metrics`: True
476
+ - `use_legacy_prediction_loop`: False
477
+ - `push_to_hub`: False
478
+ - `resume_from_checkpoint`: None
479
+ - `hub_model_id`: None
480
+ - `hub_strategy`: every_save
481
+ - `hub_private_repo`: False
482
+ - `hub_always_push`: False
483
+ - `gradient_checkpointing`: False
484
+ - `gradient_checkpointing_kwargs`: None
485
+ - `include_inputs_for_metrics`: False
486
+ - `eval_do_concat_batches`: True
487
+ - `fp16_backend`: auto
488
+ - `push_to_hub_model_id`: None
489
+ - `push_to_hub_organization`: None
490
+ - `mp_parameters`:
491
+ - `auto_find_batch_size`: False
492
+ - `full_determinism`: False
493
+ - `torchdynamo`: None
494
+ - `ray_scope`: last
495
+ - `ddp_timeout`: 1800
496
+ - `torch_compile`: False
497
+ - `torch_compile_backend`: None
498
+ - `torch_compile_mode`: None
499
+ - `dispatch_batches`: None
500
+ - `split_batches`: None
501
+ - `include_tokens_per_second`: False
502
+ - `include_num_input_tokens_seen`: False
503
+ - `neftune_noise_alpha`: None
504
+ - `optim_target_modules`: None
505
+ - `batch_eval_metrics`: False
506
+ - `eval_on_start`: False
507
+ - `batch_sampler`: no_duplicates
508
+ - `multi_dataset_batch_sampler`: proportional
509
+
510
+ </details>
511
+
512
+ ### Training Logs
513
+ | Epoch | Step | Training Loss | loss | dev_spearman_cosine |
514
+ |:------:|:----:|:-------------:|:------:|:-------------------:|
515
+ | 0 | 0 | - | - | 0.7531 |
516
+ | 0.1905 | 100 | 3.0709 | 2.7162 | 0.8810 |
517
+ | 0.3810 | 200 | 2.8254 | 2.8051 | 0.8745 |
518
+ | 0.5714 | 300 | 2.8368 | 2.7475 | 0.8922 |
519
+ | 0.7619 | 400 | 2.7198 | 2.6713 | 0.8986 |
520
+ | 0.9524 | 500 | 2.6541 | 2.6326 | 0.9097 |
521
+ | 1.1429 | 600 | 2.6628 | 2.5709 | 0.9131 |
522
+ | 1.3333 | 700 | 2.4183 | 2.7987 | 0.9213 |
523
+ | 1.5238 | 800 | 2.5213 | 2.5974 | 0.9197 |
524
+ | 1.7143 | 900 | 2.3733 | 3.1097 | 0.8956 |
525
+ | 1.9048 | 1000 | 2.3562 | 2.9513 | 0.9229 |
526
+ | 2.0952 | 1100 | 2.3511 | 2.9670 | 0.9246 |
527
+ | 2.2857 | 1200 | 2.1765 | 3.2356 | 0.9167 |
528
+ | 2.4762 | 1300 | 2.2738 | 3.1946 | 0.9280 |
529
+ | 2.6667 | 1400 | 2.1162 | 3.2512 | 0.9201 |
530
+ | 2.8571 | 1500 | 2.0996 | 3.0392 | 0.9288 |
531
+ | 3.0 | 1575 | - | - | 0.9308 |
532
+
533
+
534
+ ### Framework Versions
535
+ - Python: 3.10.12
536
+ - Sentence Transformers: 3.0.1
537
+ - Transformers: 4.42.3
538
+ - PyTorch: 2.3.0+cu121
539
+ - Accelerate: 0.32.1
540
+ - Datasets: 2.20.0
541
+ - Tokenizers: 0.19.1
542
+
543
+ ## Citation
544
+
545
+ ### BibTeX
546
+
547
+ #### Sentence Transformers
548
+ ```bibtex
549
+ @inproceedings{reimers-2019-sentence-bert,
550
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
551
+ author = "Reimers, Nils and Gurevych, Iryna",
552
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
553
+ month = "11",
554
+ year = "2019",
555
+ publisher = "Association for Computational Linguistics",
556
+ url = "https://arxiv.org/abs/1908.10084",
557
+ }
558
+ ```
559
+
560
+ #### CoSENTLoss
561
+ ```bibtex
562
+ @online{kexuefm-8847,
563
+ title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
564
+ author={Su Jianlin},
565
+ year={2022},
566
+ month={Jan},
567
+ url={https://kexue.fm/archives/8847},
568
+ }
569
+ ```
570
+
571
+ <!--
572
+ ## Glossary
573
+
574
+ *Clearly define terms in order to be accessible across audiences.*
575
+ -->
576
+
577
+ <!--
578
+ ## Model Card Authors
579
+
580
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
581
+ -->
582
+
583
+ <!--
584
+ ## Model Card Contact
585
+
586
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
587
+ -->
config.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "ymelka/robbert-cosmetic-v2-finetuned",
3
+ "additional_special_tokens_ids": [],
4
+ "architectures": [
5
+ "RobertaModel"
6
+ ],
7
+ "attention_probs_dropout_prob": 0.1,
8
+ "bos_token_id": 0,
9
+ "classifier_dropout": null,
10
+ "cls_token_id": 0,
11
+ "eos_token_id": 3,
12
+ "hidden_act": "gelu",
13
+ "hidden_dropout_prob": 0.1,
14
+ "hidden_size": 768,
15
+ "initializer_range": 0.02,
16
+ "intermediate_size": 3072,
17
+ "layer_norm_eps": 1e-05,
18
+ "mask_token_id": 4,
19
+ "max_position_embeddings": 514,
20
+ "model_type": "roberta",
21
+ "num_attention_heads": 12,
22
+ "num_hidden_layers": 12,
23
+ "pad_token_id": 1,
24
+ "position_embedding_type": "absolute",
25
+ "sep_token_id": 3,
26
+ "tokenizer_class": "RobertaTokenizerFast",
27
+ "torch_dtype": "float32",
28
+ "transformers_version": "4.42.3",
29
+ "type_vocab_size": 1,
30
+ "unk_token_id": 2,
31
+ "use_cache": true,
32
+ "vocab_size": 50000
33
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.42.3",
5
+ "pytorch": "2.3.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dec97140933e2ac34217be3e173b3a0f1df29b6d9165535174aa58b182cc6ee7
3
+ size 497790824
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": true,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": true,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": true,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": true,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": true,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,64 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<s>",
6
+ "lstrip": false,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "<pad>",
14
+ "lstrip": false,
15
+ "normalized": true,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "<unk>",
22
+ "lstrip": false,
23
+ "normalized": true,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "3": {
29
+ "content": "</s>",
30
+ "lstrip": false,
31
+ "normalized": true,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "4": {
37
+ "content": "<mask>",
38
+ "lstrip": true,
39
+ "normalized": true,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ }
44
+ },
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "mask_token": "<mask>",
51
+ "max_length": 512,
52
+ "model_max_length": 512,
53
+ "pad_to_multiple_of": null,
54
+ "pad_token": "<pad>",
55
+ "pad_token_type_id": 0,
56
+ "padding_side": "right",
57
+ "sep_token": "</s>",
58
+ "stride": 0,
59
+ "tokenizer_class": "RobertaTokenizer",
60
+ "trim_offsets": true,
61
+ "truncation_side": "right",
62
+ "truncation_strategy": "longest_first",
63
+ "unk_token": "<unk>"
64
+ }
vocab.json ADDED
The diff for this file is too large to render. See raw diff