Spaces:

datasets-topics
/

topics-generator

Sleeping

asoria HF staff commited on Oct 10

Commit

c79877a

•

1 Parent(s): 4d7b893

Try to fix pickle error

Files changed (1) hide show

app.py CHANGED Viewed

@@ -137,7 +137,7 @@ def calculate_embeddings(docs):
 @spaces.GPU
-def fit_model(base_model, docs, embeddings):
     new_model = BERTopic(
         "english",
         # Sub-models
@@ -154,15 +154,7 @@ def fit_model(base_model, docs, embeddings):
     logging.debug("Fitting new model")
     new_model.fit(docs, embeddings)
     logging.debug("End fitting new model")
-    if base_model is None:
-        return new_model, new_model
-    updated_model = BERTopic.merge_models([base_model, new_model])
-    nr_new_topics = len(set(updated_model.topics_)) - len(set(base_model.topics_))
-    new_topics = list(updated_model.topic_labels_.values())[-nr_new_topics:]
-    logging.info(f"The following topics are newly found: {new_topics}")
-    return updated_model, new_model
 def generate_topics(dataset, config, split, column, nested_column):
@@ -188,7 +180,18 @@ def generate_topics(dataset, config, split, column, nested_column):
         )
         embeddings = calculate_embeddings(docs)
-        base_model, _ = fit_model(base_model, docs, embeddings)
         repr_model_topics = {
             key: label[0][0].split("\n")[0]

 @spaces.GPU
+def fit_model(docs, embeddings):
     new_model = BERTopic(
         "english",
         # Sub-models
     logging.debug("Fitting new model")
     new_model.fit(docs, embeddings)
     logging.debug("End fitting new model")
+    return new_model
 def generate_topics(dataset, config, split, column, nested_column):
         )
         embeddings = calculate_embeddings(docs)
+        new_model = fit_model(docs, embeddings)
+        if base_model is None:
+            base_model = new_model
+        else:
+            updated_model = BERTopic.merge_models([base_model, new_model])
+            nr_new_topics = len(set(updated_model.topics_)) - len(
+                set(base_model.topics_)
+            )
+            new_topics = list(updated_model.topic_labels_.values())[-nr_new_topics:]
+            logging.info(f"The following topics are newly found: {new_topics}")
+            base_model = updated_model
         repr_model_topics = {
             key: label[0][0].split("\n")[0]