SANIAAFTAR commited on
Commit
4b9aca4
1 Parent(s): bcff152

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,601 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
3
+ datasets: []
4
+ language: []
5
+ library_name: sentence-transformers
6
+ pipeline_tag: sentence-similarity
7
+ tags:
8
+ - sentence-transformers
9
+ - sentence-similarity
10
+ - feature-extraction
11
+ - generated_from_trainer
12
+ - dataset_size:4001
13
+ - loss:MultipleNegativesRankingLoss
14
+ widget:
15
+ - source_sentence: "البطاطا والسمك يتصدران قائمة المواد الغذائية الخطرة\n سبق أن حذر\
16
+ \ العلماء من أن العديد من المواد الغذائية التي يتناولها الإنسان بصورة منتظمة يمكن\
17
+ \ أن تشكل خطورة على حياته والآن وضع الخبراء قائمة بهذه المواد الغذائية الخطرة\
18
+ \ على حياة الإنسان التي من ضمنها البطاطا وسمك التونا سمك التوناوضع العلماء هذه\
19
+ \ القائمة استنادا إلى المعطيات التي حصلوا عليها خلال عدد من الدراسات والبحوث العلمية\
20
+ \ فمثلا ادرجت البطاطا ضمن هذه القائمة بسبب المواد السامة الموجودة في أوراق وسيقان\
21
+ \ نباتاتها حيث تتوغل هذه المواد السامة الى داخل الدرنات وخاصة عند تعرضها لأشعة\
22
+ \ الشمس مما يسبب تناولها تسمم الشخص الذي يتناولها لذلك ينصح الخبراء بعدم تناول\
23
+ \ البطاطا ذات اللون الأخضر لكونها سامة جدا أما سمك التونا فإنه ادرج ضمن هذه القائمة\
24
+ \ بسبب نسبة الزئبق العالية في جسمه لأنه كما هو معروف الزئبق من المعادن الثقيلة\
25
+ \ وسام جدا للإنسان ويتراكم في جسم سمك التونا بنسبة عالية تصل الى عشرة أضعاف نسبته\
26
+ \ في الأسماك التي تشكل غذاءه فمثلا يحتوي سمك الرنجة على اقل من جزء من المليون\
27
+ \ في في سمك القرش يصل الى جزء واحد من المليون لحم سمك التوناكما ادرج الخبراء في\
28
+ \ القائمة إضافة الى البطاطا الخضراء وسمك التونا العسل غير المصفى ونوى عدد من الفواكه\
29
+ \ مثل التفاح والمشمش والخوخ والدراق وغيرها هذه النوى تحتوي على نسبة عالية من سم\
30
+ \ السيانيد الذي يتراكم في جسم الإنسان وعند بلوغه مستوى معينا يسبب اضطراب في عمل\
31
+ \ خلايا الجسم أما المذاق المر لنوى الفواكه فسببه مادة أميغدالين التي تعتبر الرئيسي\
32
+ \ لحمض سيان الماء سيانيد الهيدروجين حيث ان تناول غم من اللوز المر أو غم من نوى\
33
+ \ المشمش يسبب تسمما قاتلا ميديك فوروم رو "
34
+ sentences:
35
+ - أظهرت الدراسات أن الحميات الغذائية الشخصية تساعد في مكافحة البدانة والسكري. يؤثر
36
+ مستوى السكر في الدم في وتيرة تخفيض الوزن والشفاء. يجب التخلي عن المواد الغذائية
37
+ التي تسبب اضطراب مستوى السكر في الدم. الحميات الغذائية الشخصية تساعد في المحافظة
38
+ على مستوى السكر في الدم وتساعد في تخفيض الوزن وعلاج مرض السكري.
39
+ - البطاطا والسمك التونا من بين المواد الغذائية الخطرة التي يمكن أن تشكل خطورة على
40
+ حياة الإنسان. البطاطا بسبب المواد السامة الموجودة في أوراق وسيقان نباتاتها، في
41
+ حين أن سمك التونا بسبب نسبة الزئبق العالية في جسمه. كما أن العسل غير المصفى ونوى
42
+ عدد من الفواكه مثل التفاح والمشمش والخوخ والدراق وغيرها تحتوي على نسبة عالية من
43
+ سم السيانيد.
44
+ - ال علماء يتوصلون لعلاج جديد لمرض الزهايمر، والذي يهدف إلى إيقاف فقدان الذاكرة
45
+ تدريجيا. تم إعطاء المرضى جرعات من الدواء الذي يعتمد على خلايا المناعة، وتمت ملاحظة
46
+ تراجع عملية التدهور في قدراتهم الإدراكية. النتائج تشير إلى أن اللويحات هي جزء
47
+ من مسببات المرض وليست من نتائجه.
48
+ - source_sentence: "فطر سحري يقضي على مرضين مميتين\n اكتشف الخبراء خواص دوائية فريدة\
49
+ \ في مادة النيسين الطبيعية التي تستخدم ف�� حفظ المواد الغذائية والموجودة في الحليب\
50
+ \ ومشتقاته مادة الـ نيسين هي مضاد حيوي طبيعي وتستخدم في الصناعات الغذائية كمادة\
51
+ \ حافظة طبيعية يتم الحصول عليها من الحليب ومشتقاته وهي قادرة على تدمير الخلايا\
52
+ \ السرطانية ومكافحة البكتريا المقاومة لمضادات الحيوية درس العلماء مفعول مادة النيسين\
53
+ \ في تدمير الأورام السرطانية والبكتريا في الفم حيث بعد مضي أسابيع تقلص حجم الأورام\
54
+ \ بصورة ملحوظة كما لم تكتشف بكتريا مقاومة لمضادات الحيوية الحليب ومشتقاته غني\
55
+ \ بمادة نيسينوقد اختبرت هذه المادة على الجرذان المخبرية بإعطائها جرعة تعادل ملغ\
56
+ \ لكل كيلوغرام من وزنها فبينت النتائج تقلص الأورام في رقبتها ورأسها بنسبة بالمائة\
57
+ \ وبعد نجاح اختبار مادة النيسين على الجرذان قرر العلماء في المرحلة الثانية من\
58
+ \ الدراسة أنها ستكون دراسة مخصصة لاختبارها سريريا على البشر بغية تحديد مفعولها\
59
+ \ والأعراض الجانبية التي قد تظهر من استخدامها ميديكفوروم رو"
60
+ sentences:
61
+ - اكتشف الخبراء خواص دوائية فريدة في مادة النيسين الطبيعية التي تدمير الخلايا السرطانية
62
+ ومكافحة البكتريا المقاومة لمضادات الحيوية. درست مادة النيسين في تدمير الأورام
63
+ السرطانية والبكتريا في الفم، وتقلص حجم الأورام بصورة ملحوظة. اختبرت المادة على
64
+ الجرذان المخبرية، وتحديد مفعولها والأعراض الجانبية التي قد تظهر من استخدامها سريريا
65
+ على البشر.
66
+ - ارتفاع ضغط الدم من أهم أعراض أمراض الكلى المبكرة، والتي تتمتع الكلى بنظام تنقية
67
+ فريد يعمل على تنظيف الدم من السموم. إصابة وحدات التصفية الصغيرة في الكليتين بالخلل
68
+ تؤدي إلى الإصابة بأمراض الكلى المزمنة. ارتفاع ضغط الدم يعد أول مؤشر على وجود خلل
69
+ ما في وظيفة الكلى، ويؤدي إلى عرقلة وظيفة الكلية في تصفية السموم من الدم.
70
+ - يعد تلوث الهواء أحد العوامل الرئيسية التي تزيد مخاطر الإصابة بأمراض القلب، خاصة
71
+ لدى الأشخاص المصابين بمرض السكري. التعرض لمستويات مرتفعة من تلوث الهواء يرفع من
72
+ نسبة السكر والكوليسترول في الدم، بالإضافة إلى عوامل أخرى ترفع من خطر الإصابة بأمراض
73
+ القلب. الدراسة أظهرت أن التعرض لمستويات مرتفعة من تلوث الهواء في الأشهر الثلاثة
74
+ الماضية كان مرتبطا بارتفاع خطر تأثر المشتركين بالعوامل التي ترفع من خطر الإصابة
75
+ بأمراض القلب.
76
+ - source_sentence: "البلوغ المبكر للفتيات يزيد خطر الإصابة بالاكتئاب\n كشفت دراسة\
77
+ \ صينية حديثة أن الفتيات اللاتي يصلن إلى سن البلوغ أبكر من قريناتهن يواجهن خطر\
78
+ \ الإصابة باضطراب الأكل والكآبة أكثر من غيرهن واستند الباحثون إلى بيانات بشأن\
79
+ \ عمر البلوغ واكتئاب المراهقين لنحو طفل ولدوا في هونغ كونغ في عام وأشار الباحثون\
80
+ \ في مجلة طب الأطفال إلى أن توقيت نمو الأعضاء التناسلية ليست له صلة بوجود اكتئاب\
81
+ \ لدى الذكور أما بالنسبة للإناث فكل تأخر في وقت بروز الثديين يؤدي إلى تراجع احتمال\
82
+ \ الاكتئاب بنسبة وفق ما تظهره الدراسة وقالت ماري سكولنغ وهي باحثة في جامعة هونغ\
83
+ \ كونغ سي يو ان واي للصحة العامة إن نمو الأثداء لدى الفتيات أوضح من نمو الأعضاء\
84
+ \ التناسلية لدى الفتيان مضيفة إن نمو الصدر يعطي الفتيات انطباعا بأنهم أصبحن أكثر\
85
+ \ نضجا الأمر الذي يصعب عليهن التكيف معه وقام الباحثون بمراجعة الملفات الصحية بشأن\
86
+ \ ن��و الأعضاء التناسلية للأطفال وبيانات بشأن الاكتئاب أكملها المشاركون وآباؤهم\
87
+ \ عندما كان عمر المراهقين عاما تقريبا في المتوسط بهدف فهم الصلة بين توقيت البلوغ\
88
+ \ واكتئاب المراهقين وكانت إحدى الدراسات السابقة قد أشارت إلى ان الفتيات اللائي\
89
+ \ يصلن إلى سن البلوغ مبكرا يواجهن أكثر من غيرهن خطر التعرض لعدد من مشكلات الصحة\
90
+ \ السلوكية بما في ذلك اضطراب الأكل وقالت كارولين مكارثي وهي طبيبة أطفال وباحثة\
91
+ \ نفسية في جامعة واشنطن ومعهد سياتل لأبحاث الأطفال ولم تشارك في هذه الدراسة إن\
92
+ \ زيادة خطر الاكتئاب المرتبط بالنمو المبكر لا تنطبق على الصبيان وهو الأمر الذي\
93
+ \ قد يعود للاختلافات البيولوجية في عملية البلوغ أو لحقيقة أن النضج الجسدي بالنسبة\
94
+ \ للفتيان يعد بشكل عام تجربة إيجابية من الناحية الاجتماعية وأضاف طبيب الأطفال\
95
+ \ بول كابلويتز أخصائي الغدد الصماء في ناشيونال هيلث سيستم بالعاصمة واشنطن والذي\
96
+ \ لم يكن أيضا جزءا من الدراسة إن الفتيات اللائي يبدأن البلوغ والحيض مبكرا بأكثر\
97
+ \ من عامين يشعرن غالبا وإن لم يكن دائما بالقلق من الظهور وبأنهن مختلفات عن الفتيات\
98
+ \ الأخريات كما أنهن يبدين غير مستعدات للتعامل مع الجوانب الصحية المتعلقة بنزول\
99
+ \ الحيض ورغم ما توصل إليه الباحثون فقد لا تنطبق النتائج المتعلقة بالفتيات في هونج\
100
+ \ كونج على غيرهن في مناطق أخرى من العالم دوتشي فيله "
101
+ sentences:
102
+ - أعلن حاكم ولاية لويزيانا بوبي جيندال ترشحه للانتخابات التمهيدية للحزب الجمهوري،
103
+ ليصبح المرشح الـ 13 في سباق الانتخابات الرئاسية الأمريكية. أعلن جيندال ترشحه عبر
104
+ تغريدة على تويتر، ثم ألقى خطابا أمام أنصاره قرب نيو أورلينز. يعد جيندال المرشح
105
+ الوحيد الذي أعد سيناريو بديلا عن إصلاح النظام الصحي أوباماكير.
106
+ - البلوغ المبكر للفتيات يزيد خطر الإصابة بالاكتئاب والكآبة، وفقاً لدراسة صينية حديثة.
107
+ كل تأخر في وقت بروز الثديين يؤدي إلى تراجع احتمال الاكتئاب بنسبة. النمو المبكر
108
+ للأثداء لدى الفتيات يصعب عليهن التكيف معه.
109
+ - أكد الرئيس الأوكراني بيترو بوروشينكو اهتمام كييف بتطوير التعاون العسكري مع الناتو،
110
+ وذكّر بالتدريبات المشتركة بين الجانبين. قيم الجنرال بريدلاف المستوى الحالي من
111
+ التعاون بين العسكريين الأمريكيين والأوكرانيين إيجابيا. يخطط البنتاغون لتزويد أوكرانيا
112
+ برادارات قوية لمساعدتها على مواجهة قوات الدفاتع الشعبي في منطقة دونباس.
113
+ - source_sentence: "مستشارو الناتو يبحثون في أوديسا استعادة قدرات القوات البحرية الأوكرانية\n\
114
+ \ يبحث فريق استشاري من حلف شمال الأطلسي في ميناء أوديسا الأوكراني مشروعا لاستعادة\
115
+ \ قدرات القوات البحرية الأوكرانية وأفاد المكتب الإعلامي لوزارة الدفاع الأوكرانية\
116
+ \ الأربعاء يوليو تموز بأن مجموعة من مستشاري الناتو وصلت إلى المدينة الثلاثاء وأكد\
117
+ \ بيان صادر عن المكتب يجري اليوم تنسيق المواقف بشأن المشروع الأولي الخاص باستعادة\
118
+ \ قدرات ووسائل القوات البحرية التابعة للقوات المسلحة الأوكرانية في الأركان العامة\
119
+ \ للقوات المسلحة ووزارة الدفاع الأوكرانية يذكر كذلك أن الجانبين تعرفا على نهج\
120
+ \ الإمكانيات العاجلة وإعداد هيكلية نظام الإدارة والرقابة في الملاحة البحرية إضافة\
121
+ \ إلى معايير ومتطلبات الناتو بشأن تدريب القوات تجدر الإشارة إلى أن أوكرانيا فقدت\
122
+ \ جزءا من قواتها البحرية وقاعدة الأسطول في مدينة سيفاستوبل بعد انضمام شبه جزيرة\
123
+ \ القرم إلى الاتحاد الروسي في مارس آذار عام الماضي وقررت الحكومة الأوكرانية نقل\
124
+ \ مقر القوات البحرية إلى ميناء أوديسا نوفوستي "
125
+ sentences:
126
+ - يبحث فريق من مستشاري الناتو في أوديسا لاستعادة قدرات القوات البحرية الأوكرانية.
127
+ يتعاون الجانبان على نهج الإمكانيات العاجلة وإعداد هيكلية نظام الإدارة والرقابة
128
+ في الملاحة البحرية. سيعود المقر الرئيسي للقوات البحرية الأوكرانية إلى أوديسا بعد
129
+ أن فقدت قاعدة الأسطول في سيفاستوبل بعد انضمام القرم إلى روسيا.
130
+ - يحتفل العالم اليوم العالمي للبصر في الثاني من أكتوبر كل سنة، لتعزيز التوعية والقضاء
131
+ على العمى. يصادف هذا اليوم في أكتوبر الجاري، ويهدف إلى توعية المجتمع الدولي بالمرضى
132
+ العيون والعمى. يصيب مليون شخص في العالم بالعمى، ويعيش 100% منهم في البلدان الفقيرة.
133
+ - يقر مؤسس فيسبوك مارك زوكربيرغ وزوجته بريسيلا تشان بانهم يهدفان إلى القضاء على
134
+ جميع الأمراض بحلول نهاية القرن الحالي. ويتبرعان بـ 3 مليارات دولار على مدى السنوات
135
+ المقبلة لتمويل البحوث العلمية وتطوير أدوات البحث. ويأملان أن يؤدي ذلك إلى علاج
136
+ ومكافحة جميع الأمراض خلال العام المقبل أو أقل. ويقومون بتبرع الجمعية الخيرية تشان
137
+ زوكربيرغ إنيشاتيف بمبلغ مليون دولار لتمويل مركز البحوث العلمية الجديد في سان فرانسيسكو.
138
+ - source_sentence: "المشتبه به بتنفيذ هجوم ليون يعترف بجريمته\n اعترف ياسين صالحي\
139
+ \ المتهم بالهجوم على مصنع للغاز قرب مدينة ليون شرق فرنسا وقتله شخصا بطريقة وحشية\
140
+ \ اعترف بارتكابه الجريمة منفذ هجوم ليون يبدأ الإدلاء باعترافاته واعترف صالحي عاما\
141
+ \ للمحققين بأنه قتل إرفيه كورنارا الذي عمل معه في موقف للسيارات قبل قيادة سيارته\
142
+ \ إلى المصنع في منطقة سان كونتان فالافييه حيث حاول التسبب في انفجار بالمكان وكان\
143
+ \ فحص أحد الهواتف لصالحي كشف التقطاه صورة سيلفي مع الرأس المقطوعة قبل اعتقاله\
144
+ \ وكان أرسل الصورة عبر واتساب إلى رقم هاتف كندي وقال مصدر قريب من التحقيق في فرنسا\
145
+ \ الأحد يونيو حزيران إن الشرطة ربطت بينه وبين متشدد موجود الآن في سوريا وأضاف\
146
+ \ أن رقم الهاتف يخص مواطنا فرنسيا في سوريا منذ العام الماضي وذكرت تقارير إعلامية\
147
+ \ فرنسية أن الصالحي أبلغ الشرطة أنه اختلف مع كورنارا قبل ارتكابه الجريمة وأكد\
148
+ \ أحد زملائهما في العمل أن الرجلين اختلفا قبل يومين "
149
+ sentences:
150
+ - أعلن خبراء شركة أمريكية لصناعة الأدوية عن نتائج اختبار دواء جديد قادر على تقليص
151
+ كمية بروتين بيتا اميلويد في دماغ المصابين بمرض الزهايمر، مما يبطئ تطور المرض بنسبة
152
+ 100%. أظهرت النتائج أن المرضى الذين بدأوا بتناول الدواء الجديد في نهاية مدة الاختبار
153
+ تعادلت سرعة انخفاض قدراتهم الادراكية مع الذين تناولوه في بداية مدة الاختبار. يبطئ
154
+ هذا الدواء فعلا تطور مرض الزهايمر.
155
+ - هنأ الرئيس الروسي فلاديمير بوتين نظيره الكازاخستاني نور سلطان نزاربايف بعيد ميلاده
156
+ الـ75، وتعبر عن إسهامه الشخصي في تطوير علاقات التحالف والشراكة الاستراتيجية بين
157
+ روسيا وكازاخستان. وأشاد بوتين بعمل نزاربايف في ضمان السلام والوفاق وبناء دولة
158
+ ديمقراطية حديثة في كازاخستان. كما هنأ نزاربايف بعيد ميلاده ومنحه وسام ألكسندر
159
+ نيفسكي.
160
+ - أدان ياسين صالحي المتهم بالهجوم على مصنع للغاز قرب ليون فرنسا قتلا شخصا بطريقة
161
+ وحشية. اعترف صالحي بارتكابه الجريمة وبدأ الإدلاء باعترافاته. كشفت التحقيقات أن
162
+ صالحي أرسل صورة سيلفي مع الرأس المقطوعة قبل اعتقاله عبر واتساب إلى رقم هاتف كندي.
163
+ ---
164
+
165
+ # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
166
+
167
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
168
+
169
+ ## Model Details
170
+
171
+ ### Model Description
172
+ - **Model Type:** Sentence Transformer
173
+ - **Base model:** [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) <!-- at revision 79f2382ceacceacdf38563d7c5d16b9ff8d725d6 -->
174
+ - **Maximum Sequence Length:** 128 tokens
175
+ - **Output Dimensionality:** 768 tokens
176
+ - **Similarity Function:** Cosine Similarity
177
+ <!-- - **Training Dataset:** Unknown -->
178
+ <!-- - **Language:** Unknown -->
179
+ <!-- - **License:** Unknown -->
180
+
181
+ ### Model Sources
182
+
183
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
184
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
185
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
186
+
187
+ ### Full Model Architecture
188
+
189
+ ```
190
+ SentenceTransformer(
191
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
192
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
193
+ )
194
+ ```
195
+
196
+ ## Usage
197
+
198
+ ### Direct Usage (Sentence Transformers)
199
+
200
+ First install the Sentence Transformers library:
201
+
202
+ ```bash
203
+ pip install -U sentence-transformers
204
+ ```
205
+
206
+ Then you can load this model and run inference.
207
+ ```python
208
+ from sentence_transformers import SentenceTransformer
209
+
210
+ # Download from the 🤗 Hub
211
+ model = SentenceTransformer("SANIAAFTAR/bge-base-en-v1.5-finetuned_ragds_v1")
212
+ # Run inference
213
+ sentences = [
214
+ 'المشتبه به بتنفيذ هجوم ليون يعترف بجريمته\n اعترف ياسين صالحي المتهم بالهجوم على مصنع للغاز قرب مدينة ليون شرق فرنسا وقتله شخصا بطريقة وحشية اعترف بارتكابه الجريمة منفذ هجوم ليون يبدأ الإدلاء باعترافاته واعترف صالحي عاما للمحققين بأنه قتل إرفيه كورنارا الذي عمل معه في موقف للسيارات قبل قيادة سيارته إلى المصنع في منطقة سان كونتان فالافييه حيث حاول التسبب في انفجار بالمكان وكان فحص أحد الهواتف لصالحي كشف التقطاه صورة سيلفي مع الرأس المقطوعة قبل اعتقاله وكان أرسل الصورة عبر واتساب إلى رقم هاتف كندي وقال مصدر قريب من التحقيق في فرنسا الأحد يونيو حزيران إن الشرطة ربطت بينه وبين متشدد موجود الآن في سوريا وأضاف أن رقم الهاتف يخص مواطنا فرنسيا في سوريا منذ العام الماضي وذكرت تقارير إعلامية فرنسية أن الصالحي أبلغ الشرطة أنه اختلف مع كورنارا قبل ارتكابه الجريمة وأكد أحد زملائهما في العمل أن الرجلين اختلفا قبل يومين ',
215
+ 'أدان ياسين صالحي المتهم بالهجوم على مصنع للغاز قرب ليون فرنسا قتلا شخصا بطريقة وحشية. اعترف صالحي بارتكابه الجريمة وبدأ الإدلاء باعترافاته. كشفت التحقيقات أن صالحي أرسل صورة سيلفي مع الرأس المقطوعة قبل اعتقاله عبر واتساب إلى رقم هاتف كندي.',
216
+ 'هنأ الرئيس الروسي فلاديمير بوتين نظيره الكازاخستاني نور سلطان نزاربايف بعيد ميلاده الـ75، وتعبر عن إسهامه الشخصي في تطوير علاقات التحالف والشراكة الاستراتيجية بين روسيا وكازاخ��تان. وأشاد بوتين بعمل نزاربايف في ضمان السلام والوفاق وبناء دولة ديمقراطية حديثة في كازاخستان. كما هنأ نزاربايف بعيد ميلاده ومنحه وسام ألكسندر نيفسكي.',
217
+ ]
218
+ embeddings = model.encode(sentences)
219
+ print(embeddings.shape)
220
+ # [3, 768]
221
+
222
+ # Get the similarity scores for the embeddings
223
+ similarities = model.similarity(embeddings, embeddings)
224
+ print(similarities.shape)
225
+ # [3, 3]
226
+ ```
227
+
228
+ <!--
229
+ ### Direct Usage (Transformers)
230
+
231
+ <details><summary>Click to see the direct usage in Transformers</summary>
232
+
233
+ </details>
234
+ -->
235
+
236
+ <!--
237
+ ### Downstream Usage (Sentence Transformers)
238
+
239
+ You can finetune this model on your own dataset.
240
+
241
+ <details><summary>Click to expand</summary>
242
+
243
+ </details>
244
+ -->
245
+
246
+ <!--
247
+ ### Out-of-Scope Use
248
+
249
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
250
+ -->
251
+
252
+ <!--
253
+ ## Bias, Risks and Limitations
254
+
255
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
256
+ -->
257
+
258
+ <!--
259
+ ### Recommendations
260
+
261
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
262
+ -->
263
+
264
+ ## Training Details
265
+
266
+ ### Training Dataset
267
+
268
+ #### Unnamed Dataset
269
+
270
+
271
+ * Size: 4,001 training samples
272
+ * Columns: <code>positive</code> and <code>anchor</code>
273
+ * Approximate statistics based on the first 1000 samples:
274
+ | | positive | anchor |
275
+ |:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
276
+ | type | string | string |
277
+ | details | <ul><li>min: 128 tokens</li><li>mean: 128.0 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 38 tokens</li><li>mean: 84.99 tokens</li><li>max: 128 tokens</li></ul> |
278
+ * Samples:
279
+ | positive | anchor |
280
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
281
+ | <code>فيديو .. ثلاثون عاماً على كارثة ملعب هيسل<br> أحيا العالم الذكرى الثلاثين على مجزرة ملعب هيسل في العاصمة البلجيكية بروكسل التي ذهب ضحيتها شخصا إضافة إلى إصابة أعداد كبيرة وقد حدثت مأساة مروعة في الـ من مايو أيار عام قبل ساعة من بداية المباراة النهائية لبطولة كأس الأندية الأوروبية بين يوفنتوس الإيطالي وليفربول الإنكليزي في ملعب هيسل بالعاصمة البلجيكية بروكسل حينها قامت مجموعة كبيرة من الهولينغنز وهم مشجعو ليفربول بكسر سياج هش يفصل بينهم وبين جماهير يوفنتوس فحصل تدافع كبير أدى إلى انهياره ومقتل شخصا وإصابة عدد كبير من المشجعين وجرت المباراة رغم الكارثة وانتهت بفوز يوفنتوس على ليفربول بهدف وحيد سجله ميشيل بلاتيني الرئيس الحالي للاتحاد الأوروبي لكرة القدم من ركلة جزاء واستعاد بلاتيني الذكرى بالقول قبل عاماً شاركت في نهائي كأس أوروبا للأندية بإستاد هيسيل في بروكسل وواصلت اللعب في هذه المباراة النهائية وأضاف لم تغب أبدا هذه الليلة عن تفكيري ولم تسقط أيضا من ذاكرة أي شخص كان موجودا في تلك الليلة كما يتذكرها جميع من فقدوا أحباء لهم والذين تغيرت حياتهم خلال دقائق معدودة وتابع بلاتيني قوله بعد عاماً أنا رئيس الاتحاد الأوروبي لكرة القدم المنظمة التي نظمت هذه المباراة وأنا أعمل كل يوم مع زملائي وأصدقائي في الاتحادات الوطنية وبطولات الدوري والأندية لضمان عدم تكرار أحداث تلك الليلة المرعبة وتسببت الكارثة في حرمان الأندية الإنكليزية من المشاركة في المسابقات الأوربية لفترة بلغت مواسم فيما حُرم ليفربول من المشاركة لمدة مواسم </code> | <code>عاشر عاماً على كارثة ملعب هيسل في بروكسل، حيث قتل شخص واحد وإصيب الكثيرين نتيجة تدافع كبير بين مشجعي ليفربول ويوفنتوس قبل المباراة النهائية لبطولة كأس الأندية الأوروبية. قام الرئيس الحالي للاتحاد الأوروبي لكرة القدم ميشيل بلاتيني بالذكرى هذه الكارثة والتحذير من تكرارها. الكارثة أدت إلى حرمان الأندية الإنكليزية من المشاركة في المسابقات الأوربية لفترة طويلة.</code> |
282
+ | <code>كفيتوفا ترافق إيراني إلى رابع أدوار رولان غاروس .. (صور)<br> تأهلت التشيكية بترا كفيتوفا والإيطالية ساره إيراني إلى الدور الرابع لبطولة فرنسا المفتوحة ثانية البطولات الأربع الكبرى للتنس التي تقام حاليا على ملاعب رولان غاروس الرملية واجتازت بترا كفيتوفا المصنفة رابعة عقبة منافستها الرومانية إرينا كاميليا بيغو المصنفة بفوزها عليها بمجموعتين متتاليتين بنتيجة و في المباراة التي جرت بينهما السبت مايو أيار وستكون بترا في الدور المقبل على موعد مع السويسرية تيميا باشينسكي المصنفة الـ التي تغلبت بدورها على الأمريكية ماديسون كيز بمجموعتين من دون رد بواقع و بينما جاء تأهل ساره إيراني على حساب الألمانية أندريا بيتكوفيتش المصنفة عاشرة عقب فوزها عليها بمجموعتين متتاليتين بنتيجة واحدة و وستلعب ساره المصنفة في الدور الرابع مع الألمانية الأخرى جوليا جورجي�� الفائزة على الأمريكية إيرينا فالكوني بالنتيجة ذاتها بمجموعتين متتاليتين بواقع و </code> | <code>تأهلت بترا كفيتوفا التشيكية وساره إيراني الإيطالية إلى الدور الرابع لبطولة فرنسا المفتوحة بعد فوزيهما على منافستيهما. سوف يلعب بترا ضد تيميا باشينسكي السويسرية، بينما سوف يلعب ساره ضد جوليا جورجيس الألمانية.</code> |
283
+ | <code>أرسنال بطلا لكأس الاتحاد الإنكليزي للمرة الـ 12 في تاريخه<br> أحرز أرسنال لقب مسابقة كأس الاتحاد الإنكليزي لكرة القدم على حساب أستون فيلا بفوزه عيله في المباراة النهائية التي جمعتهما السبت مايو أيار في ملعب ويمبلي بالعاصمة لندن وتوالى على تسجيل رباعية المدفعجية كل من ثيو والكوت والمهاجم التشيلي أليكسيس سانشيز والمدافع الألماني بير ميرتيساكر والمهاجم الفرنسي أوليفيه جيرو في الدقائق الـ و و و على التوالي وفاز أرسنال بلقب بطل كأس الاتحاد الإنكليزي للمرة الـ في تاريخه وانفرد بالرقم القياسي بفارق لقب عن مانشستر يونايتد صاحب المركز الثاني وقاد الفرنسي أرسين فينغر مدرب أرسنال فريقه إلى رفع الكأس للمرة السادسة منذ توليه تدريب الكنرز في عام وكرر بذلك الإنجاز التاريخي الذي حققه جورج رامساي مدرب أستون فيلا بفوزه باللقب ست مرات بين عامي و بينما أخفق أستون فيلا في الفوز بلقب طال انتظاره كثيرا إذ لم يعانق الكأس منذ عام وتوقف رصيده عند سبعة ألقاب ويتقاسم مع ليفربول وتشيلسي المركز الرابع بفارق لقب خلف توتنهام صاحب المركز الثالث </code> | <code>أحرز أرسنال لقب كأس الاتحاد الإنكليزي لكرة القدم للمرة الـ 12 في تاريخه، بعد فوزه على أستون فيلا في المباراة النهائية. سجل أربعة أهداف في المباراة، كل من ثيو والكوت وأليكسيس سانشيز وبير ميرتيساكر وأوليفيه جيرو. هذا اللقب هو السادس الذي يفوز به أرسنال منذ تولي أرسين فينغر تدريب الفريق.</code> |
284
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
285
+ ```json
286
+ {
287
+ "scale": 20.0,
288
+ "similarity_fct": "cos_sim"
289
+ }
290
+ ```
291
+
292
+ ### Evaluation Dataset
293
+
294
+ #### Unnamed Dataset
295
+
296
+
297
+ * Size: 998 evaluation samples
298
+ * Columns: <code>positive</code> and <code>anchor</code>
299
+ * Approximate statistics based on the first 1000 samples:
300
+ | | positive | anchor |
301
+ |:--------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
302
+ | type | string | string |
303
+ | details | <ul><li>min: 128 tokens</li><li>mean: 128.0 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 50 tokens</li><li>mean: 86.91 tokens</li><li>max: 128 tokens</li></ul> |
304
+ * Samples:
305
+ | positive | anchor |
306
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
307
+ | <code>منتدى الجيش – 2015 العسكري الدولي يكشف عن منظومة إسكندر الروسية الجديدة (فيديو)<br> نسخة جديدة لمنظومة إسكندر أم للصواريخ التكتيكية سيكشف عنها منتدى الجيش العسكري التقني الدولي الذي يقام في الفترة يونيو حزيران الجاري بضواحي موسكو وقال المتحدث باسم المنطقة العسكرية الغربية للقوات المسلحة الروسية العقيد كوتشيتكوف إن المنظومة تتصف بقدرات نارية عالية وبدقة إطلاق الصواريخ وبتدمير الأهداف بشتى أنواعها وبالقدرة على المناورة وستتاح للمشاركين في المنتدى وضيوفه فرصة للاطلاع على هذا السلاح الخطير ويمكنهم التقاط صور فوتوغرافية للمنظومة التي ستكون في حالة الاستعداد لإطلاق الصواريخ يذكر أن المنظومة لم يكشف سابقا عن مواصفاتها وقدراتها في حالة الاستعداد القتالي باستثناء سيرها في داخل المسير�� الميكانيكية في الاستعراض العسكري يوم عيد النصر بموسكو يوم مايو أيار الماضي جدير بالذكر أن منظومة إسكندر يمكنها أن تتزود بمختلف أنواع الصواريخ بما فيها الصواريخ الباليستية والصواريخ المجنحة التي يبلغ مدى إطلاقها كيلومتر سلاح روسيا </code> | <code>كشف منتدى الجيش العسكري الدولي عن منظومة إسكندر الروسية الجديدة، والتي تتصف بقدرات نارية عالية وبدقة إطلاق الصواريخ. ستتاح الفرصة للاطلاع على هذا السلاح الخطير خلال المنتدى، والذي سيكون في حالة الاستعداد لإطلاق الصواريخ. يمكن أن تتزود المنظومة بمختلف أنواع الصواريخ، بما فيها الصواريخ الباليستية والصواريخ المجنحة.</code> |
308
+ | <code>إيران تعزي عائلات الضحايا السعوديين في مشهد<br> قدمت إيران الأربعاء يونيو حزيران تعازيها لعائلات الضحايا الأربع بعد واقعة تسميم زوار سعوديين في مدينة مشهد إيران اعتقال أشخاص لهم صلة بتسميم زوار سعوديين في مشهد الرياض تستدعي السفير الإيراني إثر حادث التسمم الذي تعرض له سعوديون في إيران وقالت المتحدثة باسم الخارجية الإيرانية مرضية أفخم نأسف لما حصل ونقدم أحر تعازينا للعائلات التي فقدت أقاربها وأضافت أن إيران معروفة بحسن ضيافتها آملة في أن تحل هذه المسألة في أسرع وقت يأتي هذا التصريح بعد استدعاء وزارة الخارجية السعودية الثلاثاء السفير الإيراني في الرياض مطالبة السلطات الإيرانية بكشف ظروف وملابسات حادثة التسمم الجماعي الذي تسبب في مقتل سعوديين وإصابة آخرين بتسمم في فندق في مدينة مشهد شمالي إيران يذكر أن جميع من لقوا حتفهم كانوا من الأطفال أكبرهم طفلة تبلغ عاما و أطفال دون سن الثالثة وقد تسمموا جميعا بمادة تستخدم في رش المبيدات الحشرية بالفندق أ ف ب</code> | <code>قدمت إيران تعازيها لعائلات الضحايا السعوديين الذين توفيوا نتيجة تسميم في مدينة مشهد الإيرانية، ونقدم أحر تعازينا للعائلات التي فقدت أقاربها. وتعهدت إيران بالتحقيق في الحادثة والكشف عن ملابساتها. وقد تم استدعاء السفير الإيراني في الرياض بعد الحادثة.</code> |
309
+ | <code>بوتين: كافة عناصر تسوية الأزمة الأوكرانية حاضرة في اتفاقات مينسك<br> أعلن الرئيس الروسي فلاديمير بوتين أن موسكو وروما متفقتان على أن لا بديل عن الطرق السلمية لتسوية الأزمة في أوكرانيا وأن إيطاليا تدعو بدورها إلى تنفيذ اتفاقات مينسك بالكامل وقال بوتين إن اتفاقات مينسك تنطوي على كافة عناصر التسوية الرئيسية السياسية والعسكرية والاقتصادية الاجتماعية والإنسانية للأزمة إلا أنها لا تنفذ بالكامل بل بشكل انتقائي وبشأن العلاقات مع مجموعة أكد الرئيس بوتين أن روسيا مستعدة لتطوير العلاقات الثنائية مع دول السبع الكبار إذا أرادت الأخيرة ذلك وقال بوتين ردا على سؤال من الصحفيين لا توجد لدينا أية علاقات مع مجموعة السبع الكبار مشيرا في الوقت ذاته إلى أن هذه المجموعة لم تمثل أبدا منظمة دولية بل هي منتدى للقوى الكبرى لتبادل الآراء يتخذ قرارات غير ملزمة وأضاف الرئيس الروسي أن هناك أطرا ومنظمات أخرى للتعاون والحوار بين الدول مشيرا إلى مجموعة العشرين ومنظمة شنغهاي للتعاون وأشار بوتين إلى أن موسكو عملت بنشاط في إطار وكانت تقدم وجهة نظر بديلة في هذه المجموعة قائلا قرر شركاؤنا أنهم ليسوا بحاجة إلى هذه الرؤية البديلة إن ذلك قرارهم وتمنى الرئيس الروسي النجاح لمجموعة مضيفا أن أية اتصالات ومناقشات يجب أن تخدم كما يبدو لي تطوير العلاقات الدولية بدوره أكد رئيس الوزراء الإيطالي أن الأجندة الدولية حاليا معقدة جدا وروسيا هي من أهم اللاعبين الدوليين إلى جانب أوروبا وأمريكا داعيا إلى التعاون من أجل مواجهة التحديات المشتركة والإرهاب الدولي قبل كل شيء وأشار رينتسي إلى أن تنشيط التطرف والإرهاب يؤدي إلى قتل مدنيين مسالمين ويبقى الخط الأحمر معربا عن قناعته بأن الحوار مع موسكو بشأن مكافحة الإرهاب سيستمر موفدة قناة إلى روما </code> | <code>أعلن الرئيس الروسي فلاديمير بوتين أن موسكو وروما متفقتان على أن لا بديل عن الطرق السلمية لتسوية الأزمة في أوكرانيا، وأن اتفاقات مينسك تنطوي على كافة عناصر التسوية الرئيسية. وأكد أن روسيا مستعدة لتطوير العلاقات الثنائية مع دول السبع الكبار إذا أرادت الأخيرة ذلك. وأضاف أن هناك أطرا ومنظمات أخرى للتعاون والحوار بين الدول، مثل مجموعة العشرين ومنظمة شنغهاي للتعاون.</code> |
310
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
311
+ ```json
312
+ {
313
+ "scale": 20.0,
314
+ "similarity_fct": "cos_sim"
315
+ }
316
+ ```
317
+
318
+ ### Training Hyperparameters
319
+ #### Non-Default Hyperparameters
320
+
321
+ - `eval_strategy`: steps
322
+ - `per_device_train_batch_size`: 10
323
+ - `per_device_eval_batch_size`: 10
324
+ - `num_train_epochs`: 12
325
+ - `warmup_ratio`: 0.1
326
+ - `fp16`: True
327
+ - `batch_sampler`: no_duplicates
328
+
329
+ #### All Hyperparameters
330
+ <details><summary>Click to expand</summary>
331
+
332
+ - `overwrite_output_dir`: False
333
+ - `do_predict`: False
334
+ - `eval_strategy`: steps
335
+ - `prediction_loss_only`: True
336
+ - `per_device_train_batch_size`: 10
337
+ - `per_device_eval_batch_size`: 10
338
+ - `per_gpu_train_batch_size`: None
339
+ - `per_gpu_eval_batch_size`: None
340
+ - `gradient_accumulation_steps`: 1
341
+ - `eval_accumulation_steps`: None
342
+ - `torch_empty_cache_steps`: None
343
+ - `learning_rate`: 5e-05
344
+ - `weight_decay`: 0.0
345
+ - `adam_beta1`: 0.9
346
+ - `adam_beta2`: 0.999
347
+ - `adam_epsilon`: 1e-08
348
+ - `max_grad_norm`: 1.0
349
+ - `num_train_epochs`: 12
350
+ - `max_steps`: -1
351
+ - `lr_scheduler_type`: linear
352
+ - `lr_scheduler_kwargs`: {}
353
+ - `warmup_ratio`: 0.1
354
+ - `warmup_steps`: 0
355
+ - `log_level`: passive
356
+ - `log_level_replica`: warning
357
+ - `log_on_each_node`: True
358
+ - `logging_nan_inf_filter`: True
359
+ - `save_safetensors`: True
360
+ - `save_on_each_node`: False
361
+ - `save_only_model`: False
362
+ - `restore_callback_states_from_checkpoint`: False
363
+ - `no_cuda`: False
364
+ - `use_cpu`: False
365
+ - `use_mps_device`: False
366
+ - `seed`: 42
367
+ - `data_seed`: None
368
+ - `jit_mode_eval`: False
369
+ - `use_ipex`: False
370
+ - `bf16`: False
371
+ - `fp16`: True
372
+ - `fp16_opt_level`: O1
373
+ - `half_precision_backend`: auto
374
+ - `bf16_full_eval`: False
375
+ - `fp16_full_eval`: False
376
+ - `tf32`: None
377
+ - `local_rank`: 0
378
+ - `ddp_backend`: None
379
+ - `tpu_num_cores`: None
380
+ - `tpu_metrics_debug`: False
381
+ - `debug`: []
382
+ - `dataloader_drop_last`: False
383
+ - `dataloader_num_workers`: 0
384
+ - `dataloader_prefetch_factor`: None
385
+ - `past_index`: -1
386
+ - `disable_tqdm`: False
387
+ - `remove_unused_columns`: True
388
+ - `label_names`: None
389
+ - `load_best_model_at_end`: False
390
+ - `ignore_data_skip`: False
391
+ - `fsdp`: []
392
+ - `fsdp_min_num_params`: 0
393
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
394
+ - `fsdp_transformer_layer_cls_to_wrap`: None
395
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
396
+ - `deepspeed`: None
397
+ - `label_smoothing_factor`: 0.0
398
+ - `optim`: adamw_torch
399
+ - `optim_args`: None
400
+ - `adafactor`: False
401
+ - `group_by_length`: False
402
+ - `length_column_name`: length
403
+ - `ddp_find_unused_parameters`: None
404
+ - `ddp_bucket_cap_mb`: None
405
+ - `ddp_broadcast_buffers`: False
406
+ - `dataloader_pin_memory`: True
407
+ - `dataloader_persistent_workers`: False
408
+ - `skip_memory_metrics`: True
409
+ - `use_legacy_prediction_loop`: False
410
+ - `push_to_hub`: False
411
+ - `resume_from_checkpoint`: None
412
+ - `hub_model_id`: None
413
+ - `hub_strategy`: every_save
414
+ - `hub_private_repo`: False
415
+ - `hub_always_push`: False
416
+ - `gradient_checkpointing`: False
417
+ - `gradient_checkpointing_kwargs`: None
418
+ - `include_inputs_for_metrics`: False
419
+ - `eval_do_concat_batches`: True
420
+ - `fp16_backend`: auto
421
+ - `push_to_hub_model_id`: None
422
+ - `push_to_hub_organization`: None
423
+ - `mp_parameters`:
424
+ - `auto_find_batch_size`: False
425
+ - `full_determinism`: False
426
+ - `torchdynamo`: None
427
+ - `ray_scope`: last
428
+ - `ddp_timeout`: 1800
429
+ - `torch_compile`: False
430
+ - `torch_compile_backend`: None
431
+ - `torch_compile_mode`: None
432
+ - `dispatch_batches`: None
433
+ - `split_batches`: None
434
+ - `include_tokens_per_second`: False
435
+ - `include_num_input_tokens_seen`: False
436
+ - `neftune_noise_alpha`: None
437
+ - `optim_target_modules`: None
438
+ - `batch_eval_metrics`: False
439
+ - `eval_on_start`: False
440
+ - `eval_use_gather_object`: False
441
+ - `batch_sampler`: no_duplicates
442
+ - `multi_dataset_batch_sampler`: proportional
443
+
444
+ </details>
445
+
446
+ ### Training Logs
447
+ | Epoch | Step | Training Loss | loss |
448
+ |:-------:|:----:|:-------------:|:------:|
449
+ | 0.1247 | 50 | 0.0437 | - |
450
+ | 0.2494 | 100 | 0.0149 | 0.0044 |
451
+ | 0.3741 | 150 | 0.0032 | - |
452
+ | 0.4988 | 200 | 0.0687 | 0.0058 |
453
+ | 0.6234 | 250 | 0.0262 | - |
454
+ | 0.7481 | 300 | 0.0687 | 0.0075 |
455
+ | 0.8728 | 350 | 0.1276 | - |
456
+ | 0.9975 | 400 | 0.0104 | 0.0049 |
457
+ | 1.1222 | 450 | 0.0208 | - |
458
+ | 1.2469 | 500 | 0.0091 | 0.0047 |
459
+ | 1.3716 | 550 | 0.0032 | - |
460
+ | 1.4963 | 600 | 0.051 | 0.0105 |
461
+ | 1.6209 | 650 | 0.0295 | - |
462
+ | 1.7456 | 700 | 0.0202 | 0.0104 |
463
+ | 1.8703 | 750 | 0.0649 | - |
464
+ | 1.9950 | 800 | 0.002 | 0.0068 |
465
+ | 2.1197 | 850 | 0.0112 | - |
466
+ | 2.2444 | 900 | 0.0098 | 0.0079 |
467
+ | 2.3691 | 950 | 0.0018 | - |
468
+ | 2.4938 | 1000 | 0.0063 | 0.0094 |
469
+ | 2.6185 | 1050 | 0.0096 | - |
470
+ | 2.7431 | 1100 | 0.0048 | 0.0101 |
471
+ | 2.8678 | 1150 | 0.0756 | - |
472
+ | 2.9925 | 1200 | 0.0009 | 0.0115 |
473
+ | 3.1172 | 1250 | 0.002 | - |
474
+ | 3.2419 | 1300 | 0.0006 | 0.0100 |
475
+ | 3.3666 | 1350 | 0.0002 | - |
476
+ | 3.4913 | 1400 | 0.0035 | 0.0103 |
477
+ | 3.6160 | 1450 | 0.0033 | - |
478
+ | 3.7406 | 1500 | 0.0006 | 0.0080 |
479
+ | 3.8653 | 1550 | 0.0047 | - |
480
+ | 3.9900 | 1600 | 0.0002 | 0.0087 |
481
+ | 4.1147 | 1650 | 0.0011 | - |
482
+ | 4.2394 | 1700 | 0.0005 | 0.0075 |
483
+ | 4.3641 | 1750 | 0.0001 | - |
484
+ | 4.4888 | 1800 | 0.0005 | 0.0082 |
485
+ | 4.6135 | 1850 | 0.0003 | - |
486
+ | 4.7382 | 1900 | 0.0002 | 0.0068 |
487
+ | 4.8628 | 1950 | 0.0054 | - |
488
+ | 4.9875 | 2000 | 0.0001 | 0.0053 |
489
+ | 5.1122 | 2050 | 0.0003 | - |
490
+ | 5.2369 | 2100 | 0.0001 | 0.0059 |
491
+ | 5.3616 | 2150 | 0.0 | - |
492
+ | 5.4863 | 2200 | 0.0001 | 0.0054 |
493
+ | 5.6110 | 2250 | 0.0001 | - |
494
+ | 5.7357 | 2300 | 0.0001 | 0.0055 |
495
+ | 5.8603 | 2350 | 0.0302 | - |
496
+ | 5.9850 | 2400 | 0.0001 | 0.0057 |
497
+ | 6.1097 | 2450 | 0.0002 | - |
498
+ | 6.2344 | 2500 | 0.0001 | 0.0071 |
499
+ | 6.3591 | 2550 | 0.0 | - |
500
+ | 6.4838 | 2600 | 0.0001 | 0.0065 |
501
+ | 6.6085 | 2650 | 0.0001 | - |
502
+ | 6.7332 | 2700 | 0.0001 | 0.0064 |
503
+ | 6.8579 | 2750 | 0.0 | - |
504
+ | 6.9825 | 2800 | 0.0 | 0.0063 |
505
+ | 7.1072 | 2850 | 0.0 | - |
506
+ | 7.2319 | 2900 | 0.0 | 0.0062 |
507
+ | 7.3566 | 2950 | 0.0 | - |
508
+ | 7.4813 | 3000 | 0.0 | 0.0060 |
509
+ | 7.6060 | 3050 | 0.0 | - |
510
+ | 7.7307 | 3100 | 0.0 | 0.0059 |
511
+ | 7.8554 | 3150 | 0.0 | - |
512
+ | 7.9800 | 3200 | 0.0 | 0.0059 |
513
+ | 8.1047 | 3250 | 0.0 | - |
514
+ | 8.2294 | 3300 | 0.0 | 0.0059 |
515
+ | 8.3541 | 3350 | 0.0 | - |
516
+ | 8.4788 | 3400 | 0.0 | 0.0057 |
517
+ | 8.6035 | 3450 | 0.0 | - |
518
+ | 8.7282 | 3500 | 0.0 | 0.0057 |
519
+ | 8.8529 | 3550 | 0.0 | - |
520
+ | 8.9776 | 3600 | 0.0 | 0.0057 |
521
+ | 9.1022 | 3650 | 0.0 | - |
522
+ | 9.2269 | 3700 | 0.0 | 0.0057 |
523
+ | 9.3516 | 3750 | 0.0 | - |
524
+ | 9.4763 | 3800 | 0.0 | 0.0054 |
525
+ | 9.6010 | 3850 | 0.0 | - |
526
+ | 9.7257 | 3900 | 0.0 | 0.0054 |
527
+ | 9.8504 | 3950 | 0.0 | - |
528
+ | 9.9751 | 4000 | 0.0 | 0.0054 |
529
+ | 10.0998 | 4050 | 0.0 | - |
530
+ | 10.2244 | 4100 | 0.0 | 0.0054 |
531
+ | 10.3491 | 4150 | 0.0 | - |
532
+ | 10.4738 | 4200 | 0.0 | 0.0054 |
533
+ | 10.5985 | 4250 | 0.0 | - |
534
+ | 10.7232 | 4300 | 0.0 | 0.0053 |
535
+ | 10.8479 | 4350 | 0.0 | - |
536
+ | 10.9726 | 4400 | 0.0 | 0.0053 |
537
+ | 11.0973 | 4450 | 0.0 | - |
538
+ | 11.2219 | 4500 | 0.0 | 0.0053 |
539
+ | 11.3466 | 4550 | 0.0 | - |
540
+ | 11.4713 | 4600 | 0.0 | 0.0053 |
541
+ | 11.5960 | 4650 | 0.0 | - |
542
+ | 11.7207 | 4700 | 0.0 | 0.0053 |
543
+ | 11.8454 | 4750 | 0.0 | - |
544
+ | 11.9701 | 4800 | 0.0 | 0.0053 |
545
+
546
+
547
+ ### Framework Versions
548
+ - Python: 3.11.2
549
+ - Sentence Transformers: 3.0.1
550
+ - Transformers: 4.43.3
551
+ - PyTorch: 2.4.0+cu121
552
+ - Accelerate: 0.34.2
553
+ - Datasets: 3.0.0
554
+ - Tokenizers: 0.19.1
555
+
556
+ ## Citation
557
+
558
+ ### BibTeX
559
+
560
+ #### Sentence Transformers
561
+ ```bibtex
562
+ @inproceedings{reimers-2019-sentence-bert,
563
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
564
+ author = "Reimers, Nils and Gurevych, Iryna",
565
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
566
+ month = "11",
567
+ year = "2019",
568
+ publisher = "Association for Computational Linguistics",
569
+ url = "https://arxiv.org/abs/1908.10084",
570
+ }
571
+ ```
572
+
573
+ #### MultipleNegativesRankingLoss
574
+ ```bibtex
575
+ @misc{henderson2017efficient,
576
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
577
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
578
+ year={2017},
579
+ eprint={1705.00652},
580
+ archivePrefix={arXiv},
581
+ primaryClass={cs.CL}
582
+ }
583
+ ```
584
+
585
+ <!--
586
+ ## Glossary
587
+
588
+ *Clearly define terms in order to be accessible across audiences.*
589
+ -->
590
+
591
+ <!--
592
+ ## Model Card Authors
593
+
594
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
595
+ -->
596
+
597
+ <!--
598
+ ## Model Card Contact
599
+
600
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
601
+ -->
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "sentence-transformers/paraphrase-multilingual-mpnet-base-v2",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 514,
18
+ "model_type": "xlm-roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "output_past": true,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.43.3",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 250002
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.0.1",
4
+ "transformers": "4.43.3",
5
+ "pytorch": "2.4.0+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7e978f525a1c63a4a00bc2a97788f53021b5aa9a277b06d691673748534eeb05
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,61 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "mask_token": "<mask>",
49
+ "max_length": 128,
50
+ "model_max_length": 128,
51
+ "pad_to_multiple_of": null,
52
+ "pad_token": "<pad>",
53
+ "pad_token_type_id": 0,
54
+ "padding_side": "right",
55
+ "sep_token": "</s>",
56
+ "stride": 0,
57
+ "tokenizer_class": "XLMRobertaTokenizer",
58
+ "truncation_side": "right",
59
+ "truncation_strategy": "longest_first",
60
+ "unk_token": "<unk>"
61
+ }