Add new SentenceTransformer model.
Browse files- 1_Pooling/config.json +10 -0
- README.md +573 -0
- config.json +33 -0
- config_sentence_transformers.json +10 -0
- merges.txt +0 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +0 -0
- tokenizer_config.json +64 -0
- vocab.json +0 -0
1_Pooling/config.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"word_embedding_dimension": 768,
|
3 |
+
"pooling_mode_cls_token": false,
|
4 |
+
"pooling_mode_mean_tokens": true,
|
5 |
+
"pooling_mode_max_tokens": false,
|
6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
7 |
+
"pooling_mode_weightedmean_tokens": false,
|
8 |
+
"pooling_mode_lasttoken": false,
|
9 |
+
"include_prompt": true
|
10 |
+
}
|
README.md
ADDED
@@ -0,0 +1,573 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
---
|
2 |
+
base_model: ymelka/robbert-cosmetic-v2-finetuned
|
3 |
+
datasets: []
|
4 |
+
language: []
|
5 |
+
library_name: sentence-transformers
|
6 |
+
metrics:
|
7 |
+
- pearson_cosine
|
8 |
+
- spearman_cosine
|
9 |
+
- pearson_manhattan
|
10 |
+
- spearman_manhattan
|
11 |
+
- pearson_euclidean
|
12 |
+
- spearman_euclidean
|
13 |
+
- pearson_dot
|
14 |
+
- spearman_dot
|
15 |
+
- pearson_max
|
16 |
+
- spearman_max
|
17 |
+
pipeline_tag: sentence-similarity
|
18 |
+
tags:
|
19 |
+
- sentence-transformers
|
20 |
+
- sentence-similarity
|
21 |
+
- feature-extraction
|
22 |
+
- generated_from_trainer
|
23 |
+
- dataset_size:4100
|
24 |
+
- loss:CoSENTLoss
|
25 |
+
widget:
|
26 |
+
- source_sentence: Een voedingssupplement speciaal samengesteld voor vrouwen van 26
|
27 |
+
jaar oud om de huid van binnenuit te voeden en te ondersteunen. Dit supplement
|
28 |
+
bevat essentiële voedingsstoffen zoals vitamines, mineralen en antioxidanten die
|
29 |
+
helpen bij het verminderen van talgproductie, het verkleinen van poriën en het
|
30 |
+
verminderen van wallen. Het resultaat is een gezonde en stralende huid.
|
31 |
+
sentences:
|
32 |
+
- 'De L''Oréal Paris Golden Age Anti-Aging Rozige Dagcrème is een versterkende verzorging
|
33 |
+
speciaal ontwikkeld voor vrouwen vanaf 60 jaar met een doffe en rijpere huid.
|
34 |
+
Verrijkt met Neo-Calcium en pioenroos extract, verstevigt deze crème de huid en
|
35 |
+
gaat verslapping tegen, terwijl het zorgt voor een gerevitaliseerde en frisse
|
36 |
+
glans. De actieve ingrediënten zoals glycerine en squalaan hydrateren en voeden
|
37 |
+
de huid intensief. Breng ''s ochtends aan op een gereinigd gezicht en hals voor
|
38 |
+
optimale resultaten. Let op: alleen voor uitwendig gebruik. Inhoud: 50 ml.'
|
39 |
+
- Bionike Defense My Age Gold Rijke Versterkende Crème voedt, versterkt en revitaliseert
|
40 |
+
de volwassen huid van vrouwen van 60 jaar oud. De ultrasmeltende textuur laat
|
41 |
+
een fluweelachtig gevoel achter en bevat het Skin Replenish Complex met calcium
|
42 |
+
en verstevigende peptiden voor een verbeterde elasticiteit en stevigheid. Verrijkt
|
43 |
+
met shea boter en hyaluronzuur voor een opvullend effect en intense hydratatie.
|
44 |
+
Geschikt voor het gezicht, voor een stralende en stevige huid. Breng 's ochtends
|
45 |
+
en/ of 's avonds aan op gereinigd gezicht en hals. Vermijd het oogcontour. Bevat
|
46 |
+
50 ml.
|
47 |
+
- 'De L''Occitane Verbena Eau De Toilette is een verfrissende unisex geur met Provençaalse
|
48 |
+
Verbena die lichaam en geest doet ontwaken. De topnoten van sinaasappel en citroen
|
49 |
+
combineren perfect met de hartnoten van verbena en petitgrain, terwijl de basisnoten
|
50 |
+
van roze en geranium zorgen voor een langdurige geurbeleving. Deze eau de toilette
|
51 |
+
is ideaal om jezelf op te frissen en een energieboost te geven. Spray het op je
|
52 |
+
nek, borst, polsen en haar voor een langdurige geur. Let op: niet geschikt voor
|
53 |
+
inname. De fles bevat 100 ml.'
|
54 |
+
- source_sentence: Een milde gezichtsreiniger speciaal ontwikkeld voor mannen van
|
55 |
+
70 jaar en ouder. De reiniger verwijdert overtollig talg en onzuiverheden, terwijl
|
56 |
+
het de huid hydrateert en verzacht. Ideaal voor het verminderen van talg en droogheid.
|
57 |
+
sentences:
|
58 |
+
- 'Luxéol Gummies Suikervrij Haargroei zijn speciaal ontworpen om de haargroei te
|
59 |
+
stimuleren en te verbeteren. Deze gummies zijn suikervrij en bevatten een unieke
|
60 |
+
mix van actieve ingrediënten zoals biotine, zink en selenium die bijdragen aan
|
61 |
+
het behoud van gezond haar en een gezonde hoofdhuid. De gummies zijn gemakkelijk
|
62 |
+
in te nemen en hebben een aangename smaak. Neem dagelijks 2 gummies in voor het
|
63 |
+
beste resultaat. Let op: raadpleeg een arts voordat u dit product gebruikt als
|
64 |
+
u zwanger bent, borstvoeding geeft of allergisch bent voor een van de ingrediënten.'
|
65 |
+
- 'Duolys Hyal Intensief Anti-Ageing Gezichtsserum is een krachtig serum dat verschillende
|
66 |
+
tekenen van veroudering bestrijdt en beschermt tegen vrije radicalen. De formule
|
67 |
+
bevat vitamine C, vitamine E en hyaluronzuur voor een egale en stralende teint,
|
68 |
+
vervaging van rimpels en een verbeterde huidtextuur. Dit serum is geschikt voor
|
69 |
+
mensen van 40 jaar en ouder en kan worden gebruikt op het gezicht, de nek en het
|
70 |
+
decolleté. Breng ''s ochtends enkele druppels aan op een schone huid en masseer
|
71 |
+
zachtjes in. De pompflacon bevat 15 ml serum en is eenvoudig in gebruik. Let op:
|
72 |
+
vermijd contact met de ogen en bij irritatie stoppen met gebruik.'
|
73 |
+
- 'De Babor Energizing Bi-Phase Body Mousse is een verfrissende en revitaliserende
|
74 |
+
body mousse in een handige pompfles van 200ml. Deze mousse combineert de lichtheid
|
75 |
+
van een mousse met de voedende eigenschappen van olie, waardoor de huid intens
|
76 |
+
gehydrateerd en verzorgd wordt. De formule bevat actieve ingrediënten zoals amandelolie,
|
77 |
+
panthenol en vitamine E die de huid verstevigen, verzachten en beschermen tegen
|
78 |
+
uitdroging. Breng de mousse aan op de huid en masseer zachtjes in voor een energieboost
|
79 |
+
en een zijdezachte huid. Geschikt voor dagelijks gebruik en alle huidtypes. Let
|
80 |
+
op: vermijd contact met de ogen en bij eventuele huidirritatie stop het gebruik.'
|
81 |
+
- source_sentence: Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van
|
82 |
+
vrouwen van 40 jaar en ouder. Deze reiniger helpt roodheid en vlekken te verminderen,
|
83 |
+
terwijl het de huid zacht en gehydrateerd achterlaat.
|
84 |
+
sentences:
|
85 |
+
- De Purito Centella Green Level Calming Toner is een alcoholvrije toner met Centella
|
86 |
+
Asiatica-extract dat de huid kalmeert en de natuurlijke vochtbarrière herstelt.
|
87 |
+
Het bevat hydraterende ingrediënten zoals natriumhyaluronaat en panthenol om de
|
88 |
+
huid te hydrateren en te verzachten. Gebruik een matige hoeveelheid op het gezicht
|
89 |
+
na het reinigen en volg met serum en moisturizer. Vermijd contact met de ogen.
|
90 |
+
Ideaal voor het kalmeren van een geïrriteerde huid door omgevingsstress.
|
91 |
+
- 'Het Korres KF Griekse Yoghurt Diep Hydraterende Gezichtsmasker is een intens
|
92 |
+
hydraterend sheetmasker dat de huid voedt en hydrateert met yoghurt, hyaluronzuur
|
93 |
+
en rode algen extract. Het geeft een verkoelend gevoel en zorgt voor een gerevitaliseerde
|
94 |
+
uitstraling. Geschikt voor alle huidtypen, ideaal voor een vochtarme, doffe en
|
95 |
+
vermoeide huid. Gebruiksaanwijzing: breng het masker aan op een gereinigd gezicht,
|
96 |
+
laat 15-20 minuten intrekken en masseer het overtollige product in de huid. Bewaar
|
97 |
+
het masker voor gebruik in de koelkast voor een extra verkoelend effect. Inhoud:
|
98 |
+
20 ml.'
|
99 |
+
- De Shiseido Men Total Revitalizing Cream Pot 50ml is een hoogwaardige anti-ageing
|
100 |
+
crème speciaal ontwikkeld voor mannen om de 5 belangrijkste tekenen van huidveroudering
|
101 |
+
te bestrijden en de huid 48 uur lang gehydrateerd te houden. Met actieve ingrediënten
|
102 |
+
zoals Rice Bran Oil Complex, Xylitol en Nicotinamide wordt de huid verstevigd,
|
103 |
+
gehydrateerd en beschermd tegen veroudering. Gebruik deze crème 's ochtends en
|
104 |
+
's avonds na het reinigen en/of scheren voor een energieke en gerevitaliseerde
|
105 |
+
huid. Vermijd contact met de ogen en gebruik de crème niet op beschadigde huid.
|
106 |
+
Pot 50 ml.
|
107 |
+
- source_sentence: Een milde gezichtsreiniger speciaal ontwikkeld voor mannen van
|
108 |
+
50 jaar en ouder. Deze reiniger verwijdert onzuiverheden en overtollig talg, terwijl
|
109 |
+
het de huid hydrateert en verzacht. Het is geschikt voor dagelijks gebruik en
|
110 |
+
helpt de huid voor te bereiden op verdere behandelingen.
|
111 |
+
sentences:
|
112 |
+
- 'Uriage Hyséac Schuimende Reinigingsgel is een zachte gezichtsreiniger speciaal
|
113 |
+
ontwikkeld voor de vette huid. Deze reinigingsgel verwijdert onzuiverheden, talg,
|
114 |
+
bacteriën en make-up zonder de huid uit te drogen, waardoor de huid fris en schoon
|
115 |
+
aanvoelt. Met actieve ingrediënten zoals Piroctone Olamine en wilgenroosextract,
|
116 |
+
helpt het de talgproductie te beperken en de huid te kalmeren en te hydrateren.
|
117 |
+
Gebruik de reinigingsgel dagelijks voor een zuivere en stralende huid. Spoel grondig
|
118 |
+
af na gebruik. Geschikt voor de vette huid met neiging tot acne. Inhoud: 150 ml.'
|
119 |
+
- De Clarins Nutri-Lumière Revive Revitaliserende Dagcrème is een innovatieve anti-aging
|
120 |
+
crème die de huidskleur verbetert en de teint laat stralen. Dankzij het vitaliteitsduo
|
121 |
+
en het kaki-extract wordt de huid gerevitaliseerd en verstevigd, terwijl donkere
|
122 |
+
vlekjes verminderen. De crème hydrateert, voedt en laat de huid er jonger en gezonder
|
123 |
+
uitzien. Geschikt voor vrouwen vanaf 60 jaar met een gedevitaliseerde huid. Breng
|
124 |
+
's ochtends aan op een schone huid door zachtjes in te masseren. Niet aanbrengen
|
125 |
+
op een beschadigde huid. Pot 50 ml.
|
126 |
+
- Het René Furterer Absolue Kératine Ultiem Herstellend Masker is een diep regenererende
|
127 |
+
behandeling voor normaal tot fijn haar dat beschadigd, broos en dof is door herhaalde
|
128 |
+
kleuringen en styling. Dit masker herstelt en versterkt het haar, geeft het kracht,
|
129 |
+
glans en zachtheid. De formule bevat natuurlijke herstructurerende actieve stoffen
|
130 |
+
en is siliconenvrij. Gebruik het masker gedurende 4 tot 6 weken na het wassen
|
131 |
+
van het haar, laat het enkele minuten inwerken en spoel het uit. Niet aanbevolen
|
132 |
+
voor extreem beschadigd en droog haar.
|
133 |
+
- source_sentence: Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van
|
134 |
+
vrouwen ouder dan 50. Deze reiniger helpt bij het verwijderen van onzuiverheden
|
135 |
+
en make-up, terwijl het de droogheid en roodheid van de huid verlicht. Het helpt
|
136 |
+
ook om de poriën te verkleinen en de huid te kalmeren.
|
137 |
+
sentences:
|
138 |
+
- 'De Clarins Extra-Firming Anti-Rimpel Rijke Verstevigende Dagcrème is een ideale
|
139 |
+
anti-ageing dagverzorging voor de droge huid, speciaal ontworpen voor vrouwen
|
140 |
+
vanaf 40 jaar. Deze crème zorgt voor een zichtbaar stevigere en energieke huid,
|
141 |
+
vermindert rimpels en herdefinieert het ovaal van het gezicht. De formule bevat
|
142 |
+
actieve ingrediënten zoals shea butter, haverextract en vitamine E die de huid
|
143 |
+
hydrateren, beschermen en verstevigen. Breng ''s ochtends aan op een schone huid
|
144 |
+
voor een egale teint en stralende huid. Let op: vermijd contact met de ogen en
|
145 |
+
bij eventuele irritatie stop het gebruik. Pot 50 ml.'
|
146 |
+
- De Foamie Powder-To-Milk Face Wash Magic Cleanse is een innovatieve gezichtsreiniger
|
147 |
+
die transformeert van poeder naar melk bij contact met water. Deze reiniger verwijdert
|
148 |
+
effectief vuil, make-up en onzuiverheden, terwijl het de huid zacht en gehydrateerd
|
149 |
+
achterlaat. De formule bevat actieve ingrediënten zoals kaolienklei en kokosmelkpoeder
|
150 |
+
die de huid zuiveren en voeden. Gebruik een kleine hoeveelheid poeder en meng
|
151 |
+
het met water om een romige reinigingsmelk te creëren. Masseer zachtjes in op
|
152 |
+
de vochtige huid en spoel af met water. Vermijd contact met de ogen en gebruik
|
153 |
+
het product niet bij een bekende allergie voor een van de ingrediënten. Geef je
|
154 |
+
huid een magische reinigingservaring met Foamie Powder-To-Milk Face Wash Magic
|
155 |
+
Cleanse!
|
156 |
+
- 'De Clarins Zachte Schuimende Verzachtende Reiniger is speciaal ontwikkeld voor
|
157 |
+
de zeer droge en gevoelige huid. Dit reinigingsschuim reinigt de huid grondig,
|
158 |
+
verwijdert make-up en hydrateert intensief. De formule bevat actieve ingrediënten
|
159 |
+
zoals shea butter, Moringa zaad extract en kamille bloem extract, die de huid
|
160 |
+
verzachten en in balans houden. Gebruik de reiniger dagelijks door een kleine
|
161 |
+
hoeveelheid op de vochtige huid aan te brengen en zachtjes in te masseren. Spoel
|
162 |
+
vervolgens af met water. Voor een optimaal resultaat wordt aanbevolen om de reiniger
|
163 |
+
''s ochtends en ''s avonds te gebruiken. Let op: vermijd contact met de ogen en
|
164 |
+
spoel grondig met water bij contact.'
|
165 |
+
model-index:
|
166 |
+
- name: SentenceTransformer based on ymelka/robbert-cosmetic-v2-finetuned
|
167 |
+
results:
|
168 |
+
- task:
|
169 |
+
type: semantic-similarity
|
170 |
+
name: Semantic Similarity
|
171 |
+
dataset:
|
172 |
+
name: dev
|
173 |
+
type: dev
|
174 |
+
metrics:
|
175 |
+
- type: pearson_cosine
|
176 |
+
value: 0.8803605934460041
|
177 |
+
name: Pearson Cosine
|
178 |
+
- type: spearman_cosine
|
179 |
+
value: 0.9341319343714859
|
180 |
+
name: Spearman Cosine
|
181 |
+
- type: pearson_manhattan
|
182 |
+
value: 0.8614551090013277
|
183 |
+
name: Pearson Manhattan
|
184 |
+
- type: spearman_manhattan
|
185 |
+
value: 0.929864658330507
|
186 |
+
name: Spearman Manhattan
|
187 |
+
- type: pearson_euclidean
|
188 |
+
value: 0.8612035194536702
|
189 |
+
name: Pearson Euclidean
|
190 |
+
- type: spearman_euclidean
|
191 |
+
value: 0.9300376469629877
|
192 |
+
name: Spearman Euclidean
|
193 |
+
- type: pearson_dot
|
194 |
+
value: 0.8471812147167395
|
195 |
+
name: Pearson Dot
|
196 |
+
- type: spearman_dot
|
197 |
+
value: 0.9290180545187295
|
198 |
+
name: Spearman Dot
|
199 |
+
- type: pearson_max
|
200 |
+
value: 0.8803605934460041
|
201 |
+
name: Pearson Max
|
202 |
+
- type: spearman_max
|
203 |
+
value: 0.9341319343714859
|
204 |
+
name: Spearman Max
|
205 |
+
---
|
206 |
+
|
207 |
+
# SentenceTransformer based on ymelka/robbert-cosmetic-v2-finetuned
|
208 |
+
|
209 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [ymelka/robbert-cosmetic-v2-finetuned](https://huggingface.co/ymelka/robbert-cosmetic-v2-finetuned). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
210 |
+
|
211 |
+
## Model Details
|
212 |
+
|
213 |
+
### Model Description
|
214 |
+
- **Model Type:** Sentence Transformer
|
215 |
+
- **Base model:** [ymelka/robbert-cosmetic-v2-finetuned](https://huggingface.co/ymelka/robbert-cosmetic-v2-finetuned) <!-- at revision 12eb96695b4dd6222445c8973202325d5d2c61db -->
|
216 |
+
- **Maximum Sequence Length:** 512 tokens
|
217 |
+
- **Output Dimensionality:** 768 tokens
|
218 |
+
- **Similarity Function:** Cosine Similarity
|
219 |
+
<!-- - **Training Dataset:** Unknown -->
|
220 |
+
<!-- - **Language:** Unknown -->
|
221 |
+
<!-- - **License:** Unknown -->
|
222 |
+
|
223 |
+
### Model Sources
|
224 |
+
|
225 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
226 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
227 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
228 |
+
|
229 |
+
### Full Model Architecture
|
230 |
+
|
231 |
+
```
|
232 |
+
SentenceTransformer(
|
233 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
|
234 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
235 |
+
)
|
236 |
+
```
|
237 |
+
|
238 |
+
## Usage
|
239 |
+
|
240 |
+
### Direct Usage (Sentence Transformers)
|
241 |
+
|
242 |
+
First install the Sentence Transformers library:
|
243 |
+
|
244 |
+
```bash
|
245 |
+
pip install -U sentence-transformers
|
246 |
+
```
|
247 |
+
|
248 |
+
Then you can load this model and run inference.
|
249 |
+
```python
|
250 |
+
from sentence_transformers import SentenceTransformer
|
251 |
+
|
252 |
+
# Download from the 🤗 Hub
|
253 |
+
model = SentenceTransformer("ymelka/robbert-cosmetic-similarity-v2")
|
254 |
+
# Run inference
|
255 |
+
sentences = [
|
256 |
+
'Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van vrouwen ouder dan 50. Deze reiniger helpt bij het verwijderen van onzuiverheden en make-up, terwijl het de droogheid en roodheid van de huid verlicht. Het helpt ook om de poriën te verkleinen en de huid te kalmeren.',
|
257 |
+
"De Clarins Zachte Schuimende Verzachtende Reiniger is speciaal ontwikkeld voor de zeer droge en gevoelige huid. Dit reinigingsschuim reinigt de huid grondig, verwijdert make-up en hydrateert intensief. De formule bevat actieve ingrediënten zoals shea butter, Moringa zaad extract en kamille bloem extract, die de huid verzachten en in balans houden. Gebruik de reiniger dagelijks door een kleine hoeveelheid op de vochtige huid aan te brengen en zachtjes in te masseren. Spoel vervolgens af met water. Voor een optimaal resultaat wordt aanbevolen om de reiniger 's ochtends en 's avonds te gebruiken. Let op: vermijd contact met de ogen en spoel grondig met water bij contact.",
|
258 |
+
"De Clarins Extra-Firming Anti-Rimpel Rijke Verstevigende Dagcrème is een ideale anti-ageing dagverzorging voor de droge huid, speciaal ontworpen voor vrouwen vanaf 40 jaar. Deze crème zorgt voor een zichtbaar stevigere en energieke huid, vermindert rimpels en herdefinieert het ovaal van het gezicht. De formule bevat actieve ingrediënten zoals shea butter, haverextract en vitamine E die de huid hydrateren, beschermen en verstevigen. Breng 's ochtends aan op een schone huid voor een egale teint en stralende huid. Let op: vermijd contact met de ogen en bij eventuele irritatie stop het gebruik. Pot 50 ml.",
|
259 |
+
]
|
260 |
+
embeddings = model.encode(sentences)
|
261 |
+
print(embeddings.shape)
|
262 |
+
# [3, 768]
|
263 |
+
|
264 |
+
# Get the similarity scores for the embeddings
|
265 |
+
similarities = model.similarity(embeddings, embeddings)
|
266 |
+
print(similarities.shape)
|
267 |
+
# [3, 3]
|
268 |
+
```
|
269 |
+
|
270 |
+
<!--
|
271 |
+
### Direct Usage (Transformers)
|
272 |
+
|
273 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
274 |
+
|
275 |
+
</details>
|
276 |
+
-->
|
277 |
+
|
278 |
+
<!--
|
279 |
+
### Downstream Usage (Sentence Transformers)
|
280 |
+
|
281 |
+
You can finetune this model on your own dataset.
|
282 |
+
|
283 |
+
<details><summary>Click to expand</summary>
|
284 |
+
|
285 |
+
</details>
|
286 |
+
-->
|
287 |
+
|
288 |
+
<!--
|
289 |
+
### Out-of-Scope Use
|
290 |
+
|
291 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
292 |
+
-->
|
293 |
+
|
294 |
+
## Evaluation
|
295 |
+
|
296 |
+
### Metrics
|
297 |
+
|
298 |
+
#### Semantic Similarity
|
299 |
+
* Dataset: `dev`
|
300 |
+
* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
|
301 |
+
|
302 |
+
| Metric | Value |
|
303 |
+
|:--------------------|:-----------|
|
304 |
+
| pearson_cosine | 0.8804 |
|
305 |
+
| **spearman_cosine** | **0.9341** |
|
306 |
+
| pearson_manhattan | 0.8615 |
|
307 |
+
| spearman_manhattan | 0.9299 |
|
308 |
+
| pearson_euclidean | 0.8612 |
|
309 |
+
| spearman_euclidean | 0.93 |
|
310 |
+
| pearson_dot | 0.8472 |
|
311 |
+
| spearman_dot | 0.929 |
|
312 |
+
| pearson_max | 0.8804 |
|
313 |
+
| spearman_max | 0.9341 |
|
314 |
+
|
315 |
+
<!--
|
316 |
+
## Bias, Risks and Limitations
|
317 |
+
|
318 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
319 |
+
-->
|
320 |
+
|
321 |
+
<!--
|
322 |
+
### Recommendations
|
323 |
+
|
324 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
325 |
+
-->
|
326 |
+
|
327 |
+
## Training Details
|
328 |
+
|
329 |
+
### Training Dataset
|
330 |
+
|
331 |
+
#### Unnamed Dataset
|
332 |
+
|
333 |
+
|
334 |
+
* Size: 4,100 training samples
|
335 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
|
336 |
+
* Approximate statistics based on the first 1000 samples:
|
337 |
+
| | sentence1 | sentence2 | score |
|
338 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
339 |
+
| type | string | string | float |
|
340 |
+
| details | <ul><li>min: 35 tokens</li><li>mean: 56.0 tokens</li><li>max: 86 tokens</li></ul> | <ul><li>min: 88 tokens</li><li>mean: 147.28 tokens</li><li>max: 274 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
|
341 |
+
* Samples:
|
342 |
+
| sentence1 | sentence2 | score |
|
343 |
+
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
|
344 |
+
| <code>Een milde reiniger speciaal ontwikkeld voor de gevoelige huid van een 18-jarige vrouw. Verwijdert onzuiverheden en make-up resten zonder de huid uit te drogen. Helpt bij het verminderen van wallen en verbetert de algehele huidtextuur.</code> | <code>De L'Occitane Immortelle Divine Anti-Aging Olie is een intens voedende gezichtsolie die zorgt voor een zichtbaar stevigere huid. Verrijkt met Immortelle Super Extract, een natuurlijk alternatief voor Retinol, helpt deze olie de tekenen van veroudering te bestrijden en de huid intens te voeden. De olie bevat essentiële olie van Immortelle, een krachtige antioxidant die de huid beschermt en verzacht. Meng 2-3 druppels met je crème en breng het 's morgens en 's avonds aan op het gezicht en de nek voor een stralende en stevige huid. Let op: vermijd contact met de ogen.</code> | <code>0.0376665294170379</code> |
|
345 |
+
| <code>Een voedingssupplement met collageen en hyaluronzuur om de elasticiteit en hydratatie van de huid te verbeteren. Speciaal ontworpen voor oudere vrouwen om tekenen van veroudering te verminderen en de huid van binnenuit te voeden.</code> | <code>Het Couleur Caramel Oogpotlood N°101 Zwart is een oogpotlood dat de look intenser en groter maakt. Het bevat 20% actieve ingrediënten, waaronder biologische carnaubawas die de huid beschermt en verzacht. Dit oogpotlood heeft een natuurlijke, licht poederige afwerking en is geschikt voor alle huidtypes. Het kan gebruikt worden om onvolkomenheden, donkere kringen, wallen onder de ogen en roodheid te vervagen. Breng een kleine hoeveelheid aan met een concealerkwast n°9 voor het beste resultaat. Let op: dit product is niet geschikt voor mensen met allergieën voor een van de ingrediënten.</code> | <code>0.0003183887456543</code> |
|
346 |
+
| <code>Een hydraterende gezichtsverzorging voor vrouwen van 50 jaar en ouder met een hoge mate van talg, wallen en droogheid. Deze verzorging voedt de huid diep en helpt bij het herstellen van de natuurlijke balans. Het vermindert talgproductie, vermindert wallen en hydrateert intensief om droogheid te verminderen.</code> | <code>Vichy Normaderm Verzorging Onzuiverheden Anti-Veroudering Dag 50ml is een specifieke verzorging voor vrouwen vanaf 30 jaar die onzuiverheden en de eerste tekenen van veroudering willen aanpakken. De formule bevat LHA, dermatologische peeling-bestanddelen en vitamine C tegen veroudering voor een dubbele werking: het vermindert onzuiverheden en maakt rimpels gladder. De niet-comedogene hypoallergene formule respecteert de gevoelige huid en de frisse textuur hydrateert en verbetert de gemengde tot vette huid. Breng de crème dagelijks aan op een schone en droge huid, vermijd de oogcontour. Gebruik 1-2 keer per dag.</code> | <code>0.9995593428611756</code> |
|
347 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
348 |
+
```json
|
349 |
+
{
|
350 |
+
"scale": 20.0,
|
351 |
+
"similarity_fct": "pairwise_cos_sim"
|
352 |
+
}
|
353 |
+
```
|
354 |
+
|
355 |
+
### Evaluation Dataset
|
356 |
+
|
357 |
+
#### Unnamed Dataset
|
358 |
+
|
359 |
+
|
360 |
+
* Size: 790 evaluation samples
|
361 |
+
* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
|
362 |
+
* Approximate statistics based on the first 1000 samples:
|
363 |
+
| | sentence1 | sentence2 | score |
|
364 |
+
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------|
|
365 |
+
| type | string | string | float |
|
366 |
+
| details | <ul><li>min: 35 tokens</li><li>mean: 56.52 tokens</li><li>max: 86 tokens</li></ul> | <ul><li>min: 92 tokens</li><li>mean: 145.42 tokens</li><li>max: 231 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.51</li><li>max: 1.0</li></ul> |
|
367 |
+
* Samples:
|
368 |
+
| sentence1 | sentence2 | score |
|
369 |
+
|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------|
|
370 |
+
| <code>Een milde gezichtsreiniger speciaal ontwikkeld voor vrouwen van 35 jaar en ouder. Deze reiniger verwijdert onzuiverheden en overtollig talg, waardoor de huid fris en schoon aanvoelt. Het helpt ook om wallen te verminderen en de huid te hydrateren.</code> | <code>De Clarins Zachte Schuimende Hydraterende Reiniger is een reinigingsproduct dat speciaal is ontwikkeld voor normale tot droge huidtypes. Deze schuimende reiniger reinigt de huid grondig, verwijdert make-up, hydrateert en verwijdert onzuiverheden, waardoor de huid gezond en stralend blijft. De formule bevat actieve ingrediënten zoals glycerine, Aloe barbadensis bladsap poeder en Moringa oleifera zaadextract, die de huid hydrateren en verzachten. Gebruik de reiniger dagelijks door een kleine hoeveelheid op een vochtig gezicht aan te brengen en zachtjes in te masseren, vervolgens af te spoelen met water. Dit product is geschikt voor dagelijks gebruik en is geschikt voor mensen met normale tot droge huidtypes.</code> | <code>0.9994744658470154</code> |
|
371 |
+
| <code>Een voedingssupplement met essentiële vitaminen en mineralen die de huid van binnenuit voeden en beschermen. Speciaal samengesteld voor vrouwen van 20 jaar om de huid te helpen bij het reguleren van talgproductie, het verminderen van vlekken en het verbeteren van de algehele huidconditie. Dit supplement draagt bij aan een gezonde en stralende huid.</code> | <code>De Basis Routine Pack Hygiëne En Hydratatie Routine is speciaal samengesteld voor de gemengde tot vette huid en bevat essentiële producten voor een optimale verzorging. De set bevat een schuimende reinigingsgel om de huid zachtjes te reinigen, een hydratatiebooster die de huidbarrière versterkt en een hydraterende lichaamsmelk die de huid intensief voedt en beschermt. Belangrijke actieve ingrediënten zijn onder andere ceramiden, hyaluronzuur en niacinamide. Gebruik de producten volgens de aanwijzingen voor een gezonde en stralende huid. Geschikt voor volwassenen met een normale tot vette huid en gevoelige huidtypes.</code> | <code>0.9989365935325624</code> |
|
372 |
+
| <code>Een voedingssupplement speciaal samengesteld voor vrouwen van 60 jaar en ouder, om de huid van binnenuit te voeden en te ondersteunen. Dit supplement bevat essentiële vitaminen, mineralen en antioxidanten die helpen bij het verminderen van onzuiverheden, het verbeteren van de huidtextuur en het verminderen van rimpels.</code> | <code>De Clinique Gezicht Zacht Waslotion is een milde reinigingslotion die de natuurlijke hydratatiebalans van de huid beschermt, waardoor deze niet strak of droog aanvoelt. De zachte en niet-drogende formule reinigt de huid grondig zonder deze te irriteren. Geschikt voor drie verschillende huidtypes, deze waslotion is ideaal voor dagelijks gebruik, zowel 's ochtends als 's avonds. De instructies zijn eenvoudig: laat de lotion opschuimen met lauwwarm water, masseer over het gezicht en de hals, spoel af en dep de huid droog. Met een inhoud van 200 ml is dit product een must-have voor een effectieve en zachte reiniging van de huid.</code> | <code>0.0003130408003926</code> |
|
373 |
+
* Loss: [<code>CoSENTLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cosentloss) with these parameters:
|
374 |
+
```json
|
375 |
+
{
|
376 |
+
"scale": 20.0,
|
377 |
+
"similarity_fct": "pairwise_cos_sim"
|
378 |
+
}
|
379 |
+
```
|
380 |
+
|
381 |
+
### Training Hyperparameters
|
382 |
+
#### Non-Default Hyperparameters
|
383 |
+
|
384 |
+
- `eval_strategy`: steps
|
385 |
+
- `learning_rate`: 2e-05
|
386 |
+
- `weight_decay`: 0.01
|
387 |
+
- `warmup_ratio`: 0.1
|
388 |
+
- `bf16`: True
|
389 |
+
- `batch_sampler`: no_duplicates
|
390 |
+
|
391 |
+
#### All Hyperparameters
|
392 |
+
<details><summary>Click to expand</summary>
|
393 |
+
|
394 |
+
- `overwrite_output_dir`: False
|
395 |
+
- `do_predict`: False
|
396 |
+
- `eval_strategy`: steps
|
397 |
+
- `prediction_loss_only`: True
|
398 |
+
- `per_device_train_batch_size`: 8
|
399 |
+
- `per_device_eval_batch_size`: 8
|
400 |
+
- `per_gpu_train_batch_size`: None
|
401 |
+
- `per_gpu_eval_batch_size`: None
|
402 |
+
- `gradient_accumulation_steps`: 1
|
403 |
+
- `eval_accumulation_steps`: None
|
404 |
+
- `learning_rate`: 2e-05
|
405 |
+
- `weight_decay`: 0.01
|
406 |
+
- `adam_beta1`: 0.9
|
407 |
+
- `adam_beta2`: 0.999
|
408 |
+
- `adam_epsilon`: 1e-08
|
409 |
+
- `max_grad_norm`: 1.0
|
410 |
+
- `num_train_epochs`: 3
|
411 |
+
- `max_steps`: -1
|
412 |
+
- `lr_scheduler_type`: linear
|
413 |
+
- `lr_scheduler_kwargs`: {}
|
414 |
+
- `warmup_ratio`: 0.1
|
415 |
+
- `warmup_steps`: 0
|
416 |
+
- `log_level`: passive
|
417 |
+
- `log_level_replica`: warning
|
418 |
+
- `log_on_each_node`: True
|
419 |
+
- `logging_nan_inf_filter`: True
|
420 |
+
- `save_safetensors`: True
|
421 |
+
- `save_on_each_node`: False
|
422 |
+
- `save_only_model`: False
|
423 |
+
- `restore_callback_states_from_checkpoint`: False
|
424 |
+
- `no_cuda`: False
|
425 |
+
- `use_cpu`: False
|
426 |
+
- `use_mps_device`: False
|
427 |
+
- `seed`: 42
|
428 |
+
- `data_seed`: None
|
429 |
+
- `jit_mode_eval`: False
|
430 |
+
- `use_ipex`: False
|
431 |
+
- `bf16`: True
|
432 |
+
- `fp16`: False
|
433 |
+
- `fp16_opt_level`: O1
|
434 |
+
- `half_precision_backend`: auto
|
435 |
+
- `bf16_full_eval`: False
|
436 |
+
- `fp16_full_eval`: False
|
437 |
+
- `tf32`: None
|
438 |
+
- `local_rank`: 0
|
439 |
+
- `ddp_backend`: None
|
440 |
+
- `tpu_num_cores`: None
|
441 |
+
- `tpu_metrics_debug`: False
|
442 |
+
- `debug`: []
|
443 |
+
- `dataloader_drop_last`: False
|
444 |
+
- `dataloader_num_workers`: 0
|
445 |
+
- `dataloader_prefetch_factor`: None
|
446 |
+
- `past_index`: -1
|
447 |
+
- `disable_tqdm`: False
|
448 |
+
- `remove_unused_columns`: True
|
449 |
+
- `label_names`: None
|
450 |
+
- `load_best_model_at_end`: False
|
451 |
+
- `ignore_data_skip`: False
|
452 |
+
- `fsdp`: []
|
453 |
+
- `fsdp_min_num_params`: 0
|
454 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
455 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
456 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
457 |
+
- `deepspeed`: None
|
458 |
+
- `label_smoothing_factor`: 0.0
|
459 |
+
- `optim`: adamw_torch
|
460 |
+
- `optim_args`: None
|
461 |
+
- `adafactor`: False
|
462 |
+
- `group_by_length`: False
|
463 |
+
- `length_column_name`: length
|
464 |
+
- `ddp_find_unused_parameters`: None
|
465 |
+
- `ddp_bucket_cap_mb`: None
|
466 |
+
- `ddp_broadcast_buffers`: False
|
467 |
+
- `dataloader_pin_memory`: True
|
468 |
+
- `dataloader_persistent_workers`: False
|
469 |
+
- `skip_memory_metrics`: True
|
470 |
+
- `use_legacy_prediction_loop`: False
|
471 |
+
- `push_to_hub`: False
|
472 |
+
- `resume_from_checkpoint`: None
|
473 |
+
- `hub_model_id`: None
|
474 |
+
- `hub_strategy`: every_save
|
475 |
+
- `hub_private_repo`: False
|
476 |
+
- `hub_always_push`: False
|
477 |
+
- `gradient_checkpointing`: False
|
478 |
+
- `gradient_checkpointing_kwargs`: None
|
479 |
+
- `include_inputs_for_metrics`: False
|
480 |
+
- `eval_do_concat_batches`: True
|
481 |
+
- `fp16_backend`: auto
|
482 |
+
- `push_to_hub_model_id`: None
|
483 |
+
- `push_to_hub_organization`: None
|
484 |
+
- `mp_parameters`:
|
485 |
+
- `auto_find_batch_size`: False
|
486 |
+
- `full_determinism`: False
|
487 |
+
- `torchdynamo`: None
|
488 |
+
- `ray_scope`: last
|
489 |
+
- `ddp_timeout`: 1800
|
490 |
+
- `torch_compile`: False
|
491 |
+
- `torch_compile_backend`: None
|
492 |
+
- `torch_compile_mode`: None
|
493 |
+
- `dispatch_batches`: None
|
494 |
+
- `split_batches`: None
|
495 |
+
- `include_tokens_per_second`: False
|
496 |
+
- `include_num_input_tokens_seen`: False
|
497 |
+
- `neftune_noise_alpha`: None
|
498 |
+
- `optim_target_modules`: None
|
499 |
+
- `batch_eval_metrics`: False
|
500 |
+
- `eval_on_start`: False
|
501 |
+
- `batch_sampler`: no_duplicates
|
502 |
+
- `multi_dataset_batch_sampler`: proportional
|
503 |
+
|
504 |
+
</details>
|
505 |
+
|
506 |
+
### Training Logs
|
507 |
+
| Epoch | Step | Training Loss | loss | dev_spearman_cosine |
|
508 |
+
|:------:|:----:|:-------------:|:------:|:-------------------:|
|
509 |
+
| 0 | 0 | - | - | 0.7429 |
|
510 |
+
| 0.3899 | 200 | 2.9191 | 2.7784 | 0.8965 |
|
511 |
+
| 0.7797 | 400 | 2.8219 | 2.7003 | 0.9063 |
|
512 |
+
| 1.1696 | 600 | 2.692 | 2.6436 | 0.9120 |
|
513 |
+
| 1.5595 | 800 | 2.5141 | 2.8123 | 0.9187 |
|
514 |
+
| 1.9493 | 1000 | 2.4426 | 2.8005 | 0.9189 |
|
515 |
+
| 2.3392 | 1200 | 2.3149 | 2.7900 | 0.9301 |
|
516 |
+
| 2.7290 | 1400 | 2.2064 | 2.7271 | 0.9356 |
|
517 |
+
| 3.0 | 1539 | - | - | 0.9341 |
|
518 |
+
|
519 |
+
|
520 |
+
### Framework Versions
|
521 |
+
- Python: 3.10.12
|
522 |
+
- Sentence Transformers: 3.0.1
|
523 |
+
- Transformers: 4.42.3
|
524 |
+
- PyTorch: 2.3.0+cu121
|
525 |
+
- Accelerate: 0.32.1
|
526 |
+
- Datasets: 2.20.0
|
527 |
+
- Tokenizers: 0.19.1
|
528 |
+
|
529 |
+
## Citation
|
530 |
+
|
531 |
+
### BibTeX
|
532 |
+
|
533 |
+
#### Sentence Transformers
|
534 |
+
```bibtex
|
535 |
+
@inproceedings{reimers-2019-sentence-bert,
|
536 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
537 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
538 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
539 |
+
month = "11",
|
540 |
+
year = "2019",
|
541 |
+
publisher = "Association for Computational Linguistics",
|
542 |
+
url = "https://arxiv.org/abs/1908.10084",
|
543 |
+
}
|
544 |
+
```
|
545 |
+
|
546 |
+
#### CoSENTLoss
|
547 |
+
```bibtex
|
548 |
+
@online{kexuefm-8847,
|
549 |
+
title={CoSENT: A more efficient sentence vector scheme than Sentence-BERT},
|
550 |
+
author={Su Jianlin},
|
551 |
+
year={2022},
|
552 |
+
month={Jan},
|
553 |
+
url={https://kexue.fm/archives/8847},
|
554 |
+
}
|
555 |
+
```
|
556 |
+
|
557 |
+
<!--
|
558 |
+
## Glossary
|
559 |
+
|
560 |
+
*Clearly define terms in order to be accessible across audiences.*
|
561 |
+
-->
|
562 |
+
|
563 |
+
<!--
|
564 |
+
## Model Card Authors
|
565 |
+
|
566 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
567 |
+
-->
|
568 |
+
|
569 |
+
<!--
|
570 |
+
## Model Card Contact
|
571 |
+
|
572 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
573 |
+
-->
|
config.json
ADDED
@@ -0,0 +1,33 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"_name_or_path": "ymelka/robbert-cosmetic-v2-finetuned",
|
3 |
+
"additional_special_tokens_ids": [],
|
4 |
+
"architectures": [
|
5 |
+
"RobertaModel"
|
6 |
+
],
|
7 |
+
"attention_probs_dropout_prob": 0.1,
|
8 |
+
"bos_token_id": 0,
|
9 |
+
"classifier_dropout": null,
|
10 |
+
"cls_token_id": 0,
|
11 |
+
"eos_token_id": 3,
|
12 |
+
"hidden_act": "gelu",
|
13 |
+
"hidden_dropout_prob": 0.1,
|
14 |
+
"hidden_size": 768,
|
15 |
+
"initializer_range": 0.02,
|
16 |
+
"intermediate_size": 3072,
|
17 |
+
"layer_norm_eps": 1e-05,
|
18 |
+
"mask_token_id": 4,
|
19 |
+
"max_position_embeddings": 514,
|
20 |
+
"model_type": "roberta",
|
21 |
+
"num_attention_heads": 12,
|
22 |
+
"num_hidden_layers": 12,
|
23 |
+
"pad_token_id": 1,
|
24 |
+
"position_embedding_type": "absolute",
|
25 |
+
"sep_token_id": 3,
|
26 |
+
"tokenizer_class": "RobertaTokenizerFast",
|
27 |
+
"torch_dtype": "float32",
|
28 |
+
"transformers_version": "4.42.3",
|
29 |
+
"type_vocab_size": 1,
|
30 |
+
"unk_token_id": 2,
|
31 |
+
"use_cache": true,
|
32 |
+
"vocab_size": 50000
|
33 |
+
}
|
config_sentence_transformers.json
ADDED
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"__version__": {
|
3 |
+
"sentence_transformers": "3.0.1",
|
4 |
+
"transformers": "4.42.3",
|
5 |
+
"pytorch": "2.3.0+cu121"
|
6 |
+
},
|
7 |
+
"prompts": {},
|
8 |
+
"default_prompt_name": null,
|
9 |
+
"similarity_fn_name": null
|
10 |
+
}
|
merges.txt
ADDED
The diff for this file is too large to render.
See raw diff
|
|
model.safetensors
ADDED
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
1 |
+
version https://git-lfs.github.com/spec/v1
|
2 |
+
oid sha256:981778c5cebc8722e3e6c9c1f5936bb451bb6c1391987e5ec908231b769b206d
|
3 |
+
size 497790824
|
modules.json
ADDED
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
[
|
2 |
+
{
|
3 |
+
"idx": 0,
|
4 |
+
"name": "0",
|
5 |
+
"path": "",
|
6 |
+
"type": "sentence_transformers.models.Transformer"
|
7 |
+
},
|
8 |
+
{
|
9 |
+
"idx": 1,
|
10 |
+
"name": "1",
|
11 |
+
"path": "1_Pooling",
|
12 |
+
"type": "sentence_transformers.models.Pooling"
|
13 |
+
}
|
14 |
+
]
|
sentence_bert_config.json
ADDED
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"max_seq_length": 512,
|
3 |
+
"do_lower_case": false
|
4 |
+
}
|
special_tokens_map.json
ADDED
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"bos_token": {
|
3 |
+
"content": "<s>",
|
4 |
+
"lstrip": false,
|
5 |
+
"normalized": true,
|
6 |
+
"rstrip": false,
|
7 |
+
"single_word": false
|
8 |
+
},
|
9 |
+
"cls_token": {
|
10 |
+
"content": "<s>",
|
11 |
+
"lstrip": false,
|
12 |
+
"normalized": true,
|
13 |
+
"rstrip": false,
|
14 |
+
"single_word": false
|
15 |
+
},
|
16 |
+
"eos_token": {
|
17 |
+
"content": "</s>",
|
18 |
+
"lstrip": false,
|
19 |
+
"normalized": true,
|
20 |
+
"rstrip": false,
|
21 |
+
"single_word": false
|
22 |
+
},
|
23 |
+
"mask_token": {
|
24 |
+
"content": "<mask>",
|
25 |
+
"lstrip": true,
|
26 |
+
"normalized": true,
|
27 |
+
"rstrip": false,
|
28 |
+
"single_word": false
|
29 |
+
},
|
30 |
+
"pad_token": {
|
31 |
+
"content": "<pad>",
|
32 |
+
"lstrip": false,
|
33 |
+
"normalized": true,
|
34 |
+
"rstrip": false,
|
35 |
+
"single_word": false
|
36 |
+
},
|
37 |
+
"sep_token": {
|
38 |
+
"content": "</s>",
|
39 |
+
"lstrip": false,
|
40 |
+
"normalized": true,
|
41 |
+
"rstrip": false,
|
42 |
+
"single_word": false
|
43 |
+
},
|
44 |
+
"unk_token": {
|
45 |
+
"content": "<unk>",
|
46 |
+
"lstrip": false,
|
47 |
+
"normalized": true,
|
48 |
+
"rstrip": false,
|
49 |
+
"single_word": false
|
50 |
+
}
|
51 |
+
}
|
tokenizer.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|
tokenizer_config.json
ADDED
@@ -0,0 +1,64 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
+
{
|
2 |
+
"add_prefix_space": false,
|
3 |
+
"added_tokens_decoder": {
|
4 |
+
"0": {
|
5 |
+
"content": "<s>",
|
6 |
+
"lstrip": false,
|
7 |
+
"normalized": true,
|
8 |
+
"rstrip": false,
|
9 |
+
"single_word": false,
|
10 |
+
"special": true
|
11 |
+
},
|
12 |
+
"1": {
|
13 |
+
"content": "<pad>",
|
14 |
+
"lstrip": false,
|
15 |
+
"normalized": true,
|
16 |
+
"rstrip": false,
|
17 |
+
"single_word": false,
|
18 |
+
"special": true
|
19 |
+
},
|
20 |
+
"2": {
|
21 |
+
"content": "<unk>",
|
22 |
+
"lstrip": false,
|
23 |
+
"normalized": true,
|
24 |
+
"rstrip": false,
|
25 |
+
"single_word": false,
|
26 |
+
"special": true
|
27 |
+
},
|
28 |
+
"3": {
|
29 |
+
"content": "</s>",
|
30 |
+
"lstrip": false,
|
31 |
+
"normalized": true,
|
32 |
+
"rstrip": false,
|
33 |
+
"single_word": false,
|
34 |
+
"special": true
|
35 |
+
},
|
36 |
+
"4": {
|
37 |
+
"content": "<mask>",
|
38 |
+
"lstrip": true,
|
39 |
+
"normalized": true,
|
40 |
+
"rstrip": false,
|
41 |
+
"single_word": false,
|
42 |
+
"special": true
|
43 |
+
}
|
44 |
+
},
|
45 |
+
"bos_token": "<s>",
|
46 |
+
"clean_up_tokenization_spaces": true,
|
47 |
+
"cls_token": "<s>",
|
48 |
+
"eos_token": "</s>",
|
49 |
+
"errors": "replace",
|
50 |
+
"mask_token": "<mask>",
|
51 |
+
"max_length": 512,
|
52 |
+
"model_max_length": 512,
|
53 |
+
"pad_to_multiple_of": null,
|
54 |
+
"pad_token": "<pad>",
|
55 |
+
"pad_token_type_id": 0,
|
56 |
+
"padding_side": "right",
|
57 |
+
"sep_token": "</s>",
|
58 |
+
"stride": 0,
|
59 |
+
"tokenizer_class": "RobertaTokenizer",
|
60 |
+
"trim_offsets": true,
|
61 |
+
"truncation_side": "right",
|
62 |
+
"truncation_strategy": "longest_first",
|
63 |
+
"unk_token": "<unk>"
|
64 |
+
}
|
vocab.json
ADDED
The diff for this file is too large to render.
See raw diff
|
|