результаты русскоязычных бенчмарков
нет планов протестировать/выложить результаты бенчмарков тут например https://mera.a-ai.ru/ru/leaderboard ?
или какие-то другие общедоступные русскоязычные бенчмарки? у меня получались результаты близкие к исходной llama3 в тотале, да и с suzume. Непонятно как в итоге объективно оценить, что дает дополнительный тюнинг :(
Так в карточке модели есть результаты на SbS. А MERA бессмысленна, она не форматирует промпт, а модель в таком режиме вообще любую чушь может выдавать.
а разве там требуется какое-то дополнительное форматирование промпта? мне казалось там transformes по указанному в tokenizer_config.json
"chat_template": "{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}",
должен сам справляться?
SbS тоже полезен, но хотелось бы еще какую-то более общую метрику. Не сказать, чтобы в восторге от MERA, но что есть и локально можно тест провести, правда для оценки все равно отправлять...
Кстати ruMMLU верна в какой-то степени коррелирует с позицией в SbS. Было бы интересно в SbS с оригинальной LLama3 тоже сравнить.
Должен, только в Мере он не используется, потому что код старее, чем chat_template. См. https://github.com/ai-forever/MERA/issues/4
эх, печально. можно бы и пропатчить, но такая примитивщина резко снижает доверие и в целом к тесту...
alpaca_eval локально не потяну, с llama-70b, с chatgpt так тем более.