patch datasets save_to_disk

Browse files

Files changed (2) hide show

geneformer/classifier.py +8 -8
geneformer/tokenizer.py +1 -2

geneformer/classifier.py CHANGED Viewed

@@ -445,8 +445,8 @@ class Classifier:
             test_data_output_path = (
                 Path(output_directory) / f"{output_prefix}_labeled_test"
             ).with_suffix(".dataset")
-            data_dict["train"].save_to_disk(train_data_output_path)
-            data_dict["test"].save_to_disk(test_data_output_path)
         elif (test_size is not None) and (self.classifier == "cell"):
             if 1 > test_size > 0:
                 if attr_to_split is None:
@@ -461,8 +461,8 @@ class Classifier:
                     test_data_output_path = (
                         Path(output_directory) / f"{output_prefix}_labeled_test"
                     ).with_suffix(".dataset")
-                    data_dict["train"].save_to_disk(train_data_output_path)
-                    data_dict["test"].save_to_disk(test_data_output_path)
                 else:
                     data_dict, balance_df = cu.balance_attr_splits(
                         data,
@@ -483,19 +483,19 @@ class Classifier:
                     test_data_output_path = (
                         Path(output_directory) / f"{output_prefix}_labeled_test"
                     ).with_suffix(".dataset")
-                    data_dict["train"].save_to_disk(train_data_output_path)
-                    data_dict["test"].save_to_disk(test_data_output_path)
             else:
                 data_output_path = (
                     Path(output_directory) / f"{output_prefix}_labeled"
                 ).with_suffix(".dataset")
-                data.save_to_disk(data_output_path)
                 print(data_output_path)
         else:
             data_output_path = (
                 Path(output_directory) / f"{output_prefix}_labeled"
             ).with_suffix(".dataset")
-            data.save_to_disk(data_output_path)
     def train_all_data(
         self,

             test_data_output_path = (
                 Path(output_directory) / f"{output_prefix}_labeled_test"
             ).with_suffix(".dataset")
+            data_dict["train"].save_to_disk(str(train_data_output_path))
+            data_dict["test"].save_to_disk(str(test_data_output_path))
         elif (test_size is not None) and (self.classifier == "cell"):
             if 1 > test_size > 0:
                 if attr_to_split is None:
                     test_data_output_path = (
                         Path(output_directory) / f"{output_prefix}_labeled_test"
                     ).with_suffix(".dataset")
+                    data_dict["train"].save_to_disk(str(train_data_output_path))
+                    data_dict["test"].save_to_disk(str(test_data_output_path))
                 else:
                     data_dict, balance_df = cu.balance_attr_splits(
                         data,
                     test_data_output_path = (
                         Path(output_directory) / f"{output_prefix}_labeled_test"
                     ).with_suffix(".dataset")
+                    data_dict["train"].save_to_disk(str(train_data_output_path))
+                    data_dict["test"].save_to_disk(str(test_data_output_path))
             else:
                 data_output_path = (
                     Path(output_directory) / f"{output_prefix}_labeled"
                 ).with_suffix(".dataset")
+                data.save_to_disk(str(data_output_path))
                 print(data_output_path)
         else:
             data_output_path = (
                 Path(output_directory) / f"{output_prefix}_labeled"
             ).with_suffix(".dataset")
+            data.save_to_disk(str(data_output_path))
     def train_all_data(
         self,

geneformer/tokenizer.py CHANGED Viewed

@@ -55,7 +55,6 @@ logger = logging.getLogger(__name__)
 GENE_MEDIAN_FILE = Path(__file__).parent / "gene_median_dictionary.pkl"
 TOKEN_DICTIONARY_FILE = Path(__file__).parent / "token_dictionary.pkl"
 def rank_genes(gene_vector, gene_tokens):
     """
     Rank gene expression vector.
@@ -176,7 +175,7 @@ class TranscriptomeTokenizer:
         )
         output_path = (Path(output_directory) / output_prefix).with_suffix(".dataset")
-        tokenized_dataset.save_to_disk(output_path)
     def tokenize_files(
         self, data_directory, file_format: Literal["loom", "h5ad"] = "loom"

 GENE_MEDIAN_FILE = Path(__file__).parent / "gene_median_dictionary.pkl"
 TOKEN_DICTIONARY_FILE = Path(__file__).parent / "token_dictionary.pkl"
 def rank_genes(gene_vector, gene_tokens):
     """
     Rank gene expression vector.
         )
         output_path = (Path(output_directory) / output_prefix).with_suffix(".dataset")
+        tokenized_dataset.save_to_disk(str(output_path))
     def tokenize_files(
         self, data_directory, file_format: Literal["loom", "h5ad"] = "loom"