--- license: llama2 --- # `moneyforward/houou-instruction-7b-v2` # Overview The model was trained by supervised fine-tuning (SFT) using an instruction dataset (4802 data) created through joint research with the Institute of Physical and Chemical Research (RIKEN). **The instruction data is the first dataset created from scratch, written in Japanese.** The data details is [here](https://liat-aip.sakura.ne.jp/wp/llm%E3%81%AE%E3%81%9F%E3%82%81%E3%81%AE%E6%97%A5%E6%9C%AC%E8%AA%9E%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%A9%E3%82%AF%E3%82%B7%E3%83%A7%E3%83%B3%E3%83%87%E3%83%BC%E3%82%BF%E4%BD%9C%E6%88%90/). As a pre-trained model, we used [rinna/youri-7b](https://huggingface.co/rinna/youri-7b). * **Authors** - [Atsushi Kojima](https://huggingface.co/atsushi-mf) - Ikuo Kitagishi --- # How to use the model ~~~~python import torch from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("moneyforward/houou-instruction-7b-v2") model = AutoModelForCausalLM.from_pretrained("moneyforward/houou-instruction-7b-v2") if torch.cuda.is_available(): model = model.to("cuda") instruction = "日本のおすすめの観光地を3つ教えてください。" input = "" if input == "": prompt = f""" 以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。 ### 指示: {instruction} ### 応答: """ else: prompt = f""" 以下は、タスクを説明する指示と、文脈のある入力の組み合わせです。要求を適切に満たす応答を書きなさい。 ### 指示: {instruction} ### 入力: {input} ### 応答: """ token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt") with torch.no_grad(): output_ids = model.generate( token_ids.to(model.device), max_new_tokens=2048, do_sample=True, temperature=0.5, pad_token_id=tokenizer.pad_token_id, bos_token_id=tokenizer.bos_token_id, eos_token_id=tokenizer.eos_token_id, ) output = tokenizer.decode(output_ids.tolist()[0]) output = output.split("### 応答:")[1] print(output) """ 日本は四季折々の美しい風景や、数々の伝統文化を持つ国です。観光地も数多くありますが、その中から3つ、おすすめの観光地をご紹介します。 1)京都府:清水寺、金閣寺、伏見稲荷大社  京都は、日本の歴史上とても重要な役割を果たした場所です。清水寺では、「音羽の滝」の水を飲むと美容効果があるといわれています。金閣寺はその名の通り、金で覆われた三層の建造物です。伏見稲荷大社は稲荷神社の総本山で、奥社へ向かう参道に並ぶ鳥居の数は圧巻です。 2)北海道:知床五湖、美瑛町(ケンとメリーの木、パッチワークの丘など)、旭川市(旭山動物園)  知床半島は、世界自然遺産に登録されています。知床五湖は、その知床半島の自然を満喫できるハイキングコースです。美瑛町は、丘陵地に色とりどりの花が植えられたパッチワークのような風景が広がっています。旭川市にある旭山動物園は、人気がある動物園で、夜行性動物の見やすさが工夫されています。 3)東京都:浅草(浅草寺、仲見世通り、東京スカイツリー)、上野恩賜公園(上野の森美術館、国立西洋美術館など)、日本橋(三越前の日本国道路元標、R.M.V.日本橋など)  東京にも観光地はたくさんあります。浅草は、昔ながらの下町の雰囲気が残り、老若男女を問わず楽しめる観光地です。上野には、美術館や博物館が多く、上野恩賜公園(上野の森)内を散策するだけでも十分に楽しめます。日本橋は、国道路元標やR.M.V.日本橋など、歴史を感じられる橋であり、最新の技術を感じられる橋でもあります。  この他にも日本には魅力的な観光地がたくさんあります。ぜひ訪れてみてください。 """ ~~~~ # Evaluation results of [rakuda-benchmark](https://huggingface.co/datasets/yuzuai/rakuda-questions) We evaluated the performance of houou-instruction-v1 through GPT-4 automatic evaluation. As for the comparison model, we used gpt-3.5-turbo-1106. | houou-instruction-v2
win rate| gpt-3.5-turbo-1106 win rate | tie | | -- | -- |-- | | **67.5** | 30 | 2.5 | --- # License [The llama2 license](https://ai.meta.com/llama/license/) We have permission from RIKEN to use RIKEN's instruction data for this initiative.