bloomz-mt / evaluation_xnlihtmt /xnlimt /merged.csv

Add files

44fd161 about 2 years ago

2.85 kB

	dataset,prompt,metric,value
	xnli_ar,GPT-3 style_armt,accuracy,0.3333333333333333
	xnli_ar,MNLI crowdsource_armt,accuracy,0.4542168674698795
	xnli_ar,can we infer_armt,accuracy,0.41967871485943775
	xnli_ar,guaranteed/possible/impossible_armt,accuracy,0.3795180722891566
	xnli_ar,justified in saying_armt,accuracy,0.44016064257028115
	xnli_ar,median,accuracy,0.41967871485943775
	xnli_es,GPT-3 style_esmt,accuracy,0.5381526104417671
	xnli_es,MNLI crowdsource_esmt,accuracy,0.4951807228915663
	xnli_es,can we infer_esmt,accuracy,0.4951807228915663
	xnli_es,guaranteed/possible/impossible_esmt,accuracy,0.3349397590361446
	xnli_es,justified in saying_esmt,accuracy,0.4955823293172691
	xnli_es,median,accuracy,0.4951807228915663
	xnli_fr,GPT-3 style_frmt,accuracy,0.4746987951807229
	xnli_fr,MNLI crowdsource_frmt,accuracy,0.3538152610441767
	xnli_fr,can we infer_frmt,accuracy,0.5481927710843374
	xnli_fr,guaranteed/possible/impossible_frmt,accuracy,0.5200803212851406
	xnli_fr,justified in saying_frmt,accuracy,0.5317269076305221
	xnli_fr,median,accuracy,0.5200803212851406
	xnli_hi,GPT-3 style_himt,accuracy,0.43734939759036146
	xnli_hi,MNLI crowdsource_himt,accuracy,0.3333333333333333
	xnli_hi,can we infer_himt,accuracy,0.4795180722891566
	xnli_hi,guaranteed/possible/impossible_himt,accuracy,0.44136546184738956
	xnli_hi,justified in saying_himt,accuracy,0.4931726907630522
	xnli_hi,median,accuracy,0.44136546184738956
	xnli_sw,GPT-3 style_swmt,accuracy,0.3357429718875502
	xnli_sw,MNLI crowdsource_swmt,accuracy,0.3353413654618474
	xnli_sw,can we infer_swmt,accuracy,0.3682730923694779
	xnli_sw,guaranteed/possible/impossible_swmt,accuracy,0.351004016064257
	xnli_sw,justified in saying_swmt,accuracy,0.36305220883534134
	xnli_sw,median,accuracy,0.351004016064257
	xnli_ur,GPT-3 style_urmt,accuracy,0.3586345381526104
	xnli_ur,MNLI crowdsource_urmt,accuracy,0.3369477911646586
	xnli_ur,can we infer_urmt,accuracy,0.351004016064257
	xnli_ur,guaranteed/possible/impossible_urmt,accuracy,0.3337349397590361
	xnli_ur,justified in saying_urmt,accuracy,0.3381526104417671
	xnli_ur,median,accuracy,0.3381526104417671
	xnli_vi,GPT-3 style_vimt,accuracy,0.3333333333333333
	xnli_vi,MNLI crowdsource_vimt,accuracy,0.3333333333333333
	xnli_vi,can we infer_vimt,accuracy,0.3333333333333333
	xnli_vi,guaranteed/possible/impossible_vimt,accuracy,0.3333333333333333
	xnli_vi,justified in saying_vimt,accuracy,0.3333333333333333
	xnli_vi,median,accuracy,0.3333333333333333
	xnli_zh,GPT-3 style_zhmt,accuracy,0.5224899598393574
	xnli_zh,MNLI crowdsource_zhmt,accuracy,0.4542168674698795
	xnli_zh,can we infer_zhmt,accuracy,0.5184738955823294
	xnli_zh,guaranteed/possible/impossible_zhmt,accuracy,0.334136546184739
	xnli_zh,justified in saying_zhmt,accuracy,0.4955823293172691
	xnli_zh,median,accuracy,0.4955823293172691
	multiple,average,multiple,0.4242971887550201