Service-text

Runtime error

App Files Files Community

Uhhy commited on Aug 31

Commit

6fc515c

•

1 Parent(s): a17dc9a

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -12

app.py CHANGED Viewed

@@ -20,18 +20,25 @@ model_configs = [
     {"repo_id": "Ffftdtd5dtft/gemma-2-27b-Q2_K-GGUF", "filename": "gemma-2-27b-q2_k.gguf"},
 ]
-# Cargar un modelo
 def load_model(model_config):
     return Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename'])
-# Cargar todos los modelos simultáneamente
 def load_all_models():
     with ThreadPoolExecutor(max_workers=len(model_configs)) as executor:
         futures = [executor.submit(load_model, config) for config in model_configs]
-        models = [future.result() for future in as_completed(futures)]
     return models
-# Cargar modelos en memoria
 llms = load_all_models()
 class ChatRequest(BaseModel):
@@ -40,7 +47,6 @@ class ChatRequest(BaseModel):
     top_p: float = 0.95
     temperature: float = 0.7
-# Función para generar respuestas de chat
 def generate_chat_response(request, llm):
     try:
         user_input = normalize_input(request.message)
@@ -72,13 +78,10 @@ def filter_duplicates(responses):
     return unique_responses
 def select_best_response(responses):
-    # Eliminar respuestas duplicadas
     unique_responses = filter_duplicates(responses)
-    # Deduplicar respuestas
     unique_responses = list(set(unique_responses))
-    # Filtrar respuestas coherentes
     coherent_responses = filter_by_coherence(unique_responses)
-    # Seleccionar la mejor respuesta
     best_response = filter_by_similarity(coherent_responses)
     return best_response
@@ -97,6 +100,7 @@ def filter_by_similarity(responses):
     return best_response
 def worker_function(llm, request, progress_bar):
     response = generate_chat_response(request, llm)
     progress_bar.update(1)
     return response
@@ -111,9 +115,7 @@ async def generate_chat(request: ChatRequest):
     responses = []
     num_models = len(llms)
-    # Crear barra de progreso
     with tqdm(total=num_models, desc="Generando respuestas", unit="modelo") as progress_bar:
-        # Ejecutar modelos en paralelo
         with ThreadPoolExecutor(max_workers=num_models) as executor:
             futures = [executor.submit(worker_function, llm, request, progress_bar) for llm in llms]
             for future in as_completed(futures):
@@ -123,7 +125,6 @@ async def generate_chat(request: ChatRequest):
                 except Exception as exc:
                     print(f"Error en la generación de respuesta: {exc}")
-    # Seleccionar la mejor respuesta
     best_response = select_best_response(responses)
     print(f"Mejor respuesta seleccionada: {best_response}")

     {"repo_id": "Ffftdtd5dtft/gemma-2-27b-Q2_K-GGUF", "filename": "gemma-2-27b-q2_k.gguf"},
 ]
 def load_model(model_config):
+    print(f"Cargando modelo {model_config['repo_id']}...")
     return Llama.from_pretrained(repo_id=model_config['repo_id'], filename=model_config['filename'])
 def load_all_models():
+    print("Iniciando carga de modelos...")
     with ThreadPoolExecutor(max_workers=len(model_configs)) as executor:
         futures = [executor.submit(load_model, config) for config in model_configs]
+        models = []
+        for future in tqdm(as_completed(futures), total=len(model_configs), desc="Cargando modelos", unit="modelo"):
+            try:
+                model = future.result()
+                models.append(model)
+                print(f"Modelo cargado exitosamente: {model_configs[len(models)-1]['repo_id']}")
+            except Exception as e:
+                print(f"Error al cargar el modelo: {e}")
+    print("Todos los modelos han sido cargados.")
     return models
 llms = load_all_models()
 class ChatRequest(BaseModel):
     top_p: float = 0.95
     temperature: float = 0.7
 def generate_chat_response(request, llm):
     try:
         user_input = normalize_input(request.message)
     return unique_responses
 def select_best_response(responses):
+    print("Filtrando respuestas...")
     unique_responses = filter_duplicates(responses)
     unique_responses = list(set(unique_responses))
     coherent_responses = filter_by_coherence(unique_responses)
     best_response = filter_by_similarity(coherent_responses)
     return best_response
     return best_response
 def worker_function(llm, request, progress_bar):
+    print(f"Generando respuesta con el modelo...")
     response = generate_chat_response(request, llm)
     progress_bar.update(1)
     return response
     responses = []
     num_models = len(llms)
     with tqdm(total=num_models, desc="Generando respuestas", unit="modelo") as progress_bar:
         with ThreadPoolExecutor(max_workers=num_models) as executor:
             futures = [executor.submit(worker_function, llm, request, progress_bar) for llm in llms]
             for future in as_completed(futures):
                 except Exception as exc:
                     print(f"Error en la generación de respuesta: {exc}")
     best_response = select_best_response(responses)
     print(f"Mejor respuesta seleccionada: {best_response}")