glm-chat

Running on Zero

vilarin commited on Aug 16

Commit

9a43acc

•

1 Parent(s): 27d1730

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -35,7 +35,7 @@ model = AutoModelForCausalLM.from_pretrained(
 tokenizer = AutoTokenizer.from_pretrained("THUDM/LongWriter-glm4-9b",trust_remote_code=True)
-@spaces.GPU
 def stream_chat(message: str, history: list, temperature: float, max_length: int):
     print(f'message is - {message}')
     print(f'history is - {history}')
@@ -61,13 +61,12 @@ def stream_chat(message: str, history: list, temperature: float, max_length: int
     )
     gen_kwargs = {**input_ids, **generate_kwargs}
-    with torch.no_grad():
-        thread = Thread(target=model.generate, kwargs=gen_kwargs)
-        thread.start()
-        buffer = ""
-        for new_text in streamer:
-            buffer += new_text
-            yield buffer
 chatbot = gr.Chatbot(height=600, placeholder = PLACEHOLDER)

 tokenizer = AutoTokenizer.from_pretrained("THUDM/LongWriter-glm4-9b",trust_remote_code=True)
+@spaces.GPU()
 def stream_chat(message: str, history: list, temperature: float, max_length: int):
     print(f'message is - {message}')
     print(f'history is - {history}')
     )
     gen_kwargs = {**input_ids, **generate_kwargs}
+    thread = Thread(target=model.generate, kwargs=gen_kwargs)
+    thread.start()
+    buffer = ""
+    for new_text in streamer:
+        buffer += new_text
+        yield buffer
 chatbot = gr.Chatbot(height=600, placeholder = PLACEHOLDER)