Spaces:

John6666
/

text2tag-llm

Running on Zero

John6666 commited on Aug 22

Commit

8f20fda

•

1 Parent(s): 7d22dbb

Upload 2 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -42,7 +42,7 @@ with gr.Blocks(theme="NoCrypt/miku@>=1.2.2", fill_width=True, css="") as app:
             with gr.Accordion("Additional inputs", open=False):
                 chat_format = gr.Dropdown(choices=get_llm_formats(), value=get_dolphin_model_format(get_dolphin_models()[0][1]), label="Message format")
                 chat_sysmsg = gr.Textbox(value=get_dolphin_sysprompt(), label="System message")
-                chat_tokens = gr.Slider(minimum=1, maximum=4096, value=1024, step=1, label="Max tokens")
                 chat_temperature = gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature")
                 chat_topp = gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p")
                 chat_topk = gr.Slider(minimum=0, maximum=100, value=40, step=1, label="Top-k")

             with gr.Accordion("Additional inputs", open=False):
                 chat_format = gr.Dropdown(choices=get_llm_formats(), value=get_dolphin_model_format(get_dolphin_models()[0][1]), label="Message format")
                 chat_sysmsg = gr.Textbox(value=get_dolphin_sysprompt(), label="System message")
+                chat_tokens = gr.Slider(minimum=1, maximum=4096, value=512, step=1, label="Max tokens")
                 chat_temperature = gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature")
                 chat_topp = gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p")
                 chat_topk = gr.Slider(minimum=0, maximum=100, value=40, step=1, label="Top-k")

llmdolphin.py CHANGED Viewed

@@ -694,8 +694,7 @@ def dolphin_respond(
         flash_attn=True,
         n_gpu_layers=81, # 81
         n_batch=1024,
-        n_ctx=4096, #8192
-        n_threads=8,
     )
     provider = LlamaCppPythonProvider(llm)
@@ -790,7 +789,6 @@ def dolphin_respond_auto(
         n_gpu_layers=81, # 81
         n_batch=1024,
         n_ctx=4096, #8192
-        n_threads=8,
     )
     provider = LlamaCppPythonProvider(llm)

         flash_attn=True,
         n_gpu_layers=81, # 81
         n_batch=1024,
+        n_ctx=8192, #8192
     )
     provider = LlamaCppPythonProvider(llm)
         n_gpu_layers=81, # 81
         n_batch=1024,
         n_ctx=4096, #8192
     )
     provider = LlamaCppPythonProvider(llm)