hf-llm-api

Build error

Hansimov commited on Apr 19

Commit

0f710a2

•

1 Parent(s): 2fb53c8

:zap: [Enhance] Quieter openai auth, use cffi to request hf-chat id, and console token count for exceeds

Files changed (3) hide show

messagers/token_checker.py CHANGED Viewed

@@ -40,5 +40,7 @@ class TokenChecker:
     def check_token_limit(self):
         if self.get_token_redundancy() <= 0:
-            raise ValueError(f"Prompt exceeded token limit: {self.get_token_limit()}")
         return True

     def check_token_limit(self):
         if self.get_token_redundancy() <= 0:
+            raise ValueError(
+                f"Prompt exceeded token limit: {self.count_tokens()} > {self.get_token_limit()}"
+            )
         return True

networks/huggingchat_streamer.py CHANGED Viewed

@@ -1,7 +1,9 @@
 import copy
 import json
 import re
 import requests
 from tclogger import logger
@@ -30,7 +32,7 @@ class HuggingchatRequester:
         request_body.update(extra_body)
         logger.note(f"> hf-chat ID:", end=" ")
-        res = requests.post(
             request_url,
             headers=HUGGINGCHAT_POST_HEADERS,
             json=request_body,

 import copy
 import json
 import re
 import requests
+from curl_cffi import requests as cffi_requests
 from tclogger import logger
         request_body.update(extra_body)
         logger.note(f"> hf-chat ID:", end=" ")
+        res = cffi_requests.post(
             request_url,
             headers=HUGGINGCHAT_POST_HEADERS,
             json=request_body,

networks/openai_streamer.py CHANGED Viewed

@@ -171,18 +171,21 @@ class OpenaiStreamer:
     def check_token_limit(self, messages: list[dict]):
         token_limit = TOKEN_LIMIT_MAP[self.model]
-        token_redundancy = int(
-            token_limit - TOKEN_RESERVED - self.count_tokens(messages)
-        )
         if token_redundancy <= 0:
-            raise ValueError(f"Prompt exceeded token limit: {token_limit}")
         return True
-    def chat_response(self, messages: list[dict]):
         self.check_token_limit(messages)
         requester = OpenaiRequester()
         requester.auth()
-        return requester.chat_completions(messages, verbose=False)
     def chat_return_generator(self, stream_response: requests.Response, verbose=False):
         content_offset = 0

     def check_token_limit(self, messages: list[dict]):
         token_limit = TOKEN_LIMIT_MAP[self.model]
+        token_count = self.count_tokens(messages)
+        token_redundancy = int(token_limit - TOKEN_RESERVED - token_count)
         if token_redundancy <= 0:
+            raise ValueError(
+                f"Prompt exceeded token limit: {token_count} > {token_limit}"
+            )
         return True
+    def chat_response(self, messages: list[dict], verbose=False):
         self.check_token_limit(messages)
+        logger.enter_quiet(not verbose)
         requester = OpenaiRequester()
         requester.auth()
+        logger.exit_quiet(not verbose)
+        return requester.chat_completions(messages, verbose=verbose)
     def chat_return_generator(self, stream_response: requests.Response, verbose=False):
         content_offset = 0