Spaces:

JetBrains-Research
/

commit-message-editing-visualization

Sleeping

App Files Files Community

Petr Tsvetkov commited on Apr 7

Commit

5f3a4af

•

1 Parent(s): 0c136d8

Synthetic dataset visualization

Browse files

Files changed (5) hide show

change_visualizer.py +32 -0
config.py +8 -0
generate_annotated_diffs.py +7 -0
generate_synthetic_dataset.py +2 -1
hf_data_loader.py +10 -3

change_visualizer.py CHANGED Viewed

@@ -5,6 +5,9 @@ import generate_annotated_diffs
 df_manual = generate_annotated_diffs.manual_data_with_annotated_diffs()
 n_diffs_manual = len(df_manual)
 def update_manual_view(diff_idx):
     diff_idx -= 1
@@ -14,6 +17,14 @@ def update_manual_view(diff_idx):
         'session'], f"https://github.com/{df_manual.iloc[diff_idx]['repo']}/commit/{df_manual.iloc[diff_idx]['hash']}"
 if __name__ == '__main__':
     with gr.Blocks(theme=gr.themes.Soft()) as application:
         with gr.Tab("Manual"):
@@ -36,7 +47,28 @@ if __name__ == '__main__':
             slider_manual.change(update_manual_view, inputs=slider_manual,
                                  outputs=view_manual)
         application.load(update_manual_view, inputs=slider_manual,
                          outputs=view_manual)
     application.launch()

 df_manual = generate_annotated_diffs.manual_data_with_annotated_diffs()
 n_diffs_manual = len(df_manual)
+df_synthetic = generate_annotated_diffs.synthetic_data_with_annotated_diffs()
+n_diffs_synthetic = len(df_synthetic)
 def update_manual_view(diff_idx):
     diff_idx -= 1
         'session'], f"https://github.com/{df_manual.iloc[diff_idx]['repo']}/commit/{df_manual.iloc[diff_idx]['hash']}"
+def update_synthetic_view(diff_idx):
+    diff_idx -= 1
+    return (df_synthetic.iloc[diff_idx]['annotated_diff'], df_synthetic.iloc[diff_idx]['initial_msg_pred'],
+            df_synthetic.iloc[diff_idx][
+                'get_annotated_diff'],
+            f"https://github.com/{df_synthetic.iloc[diff_idx]['repo']}/commit/{df_synthetic.iloc[diff_idx]['hash']}")
 if __name__ == '__main__':
     with gr.Blocks(theme=gr.themes.Soft()) as application:
         with gr.Tab("Manual"):
             slider_manual.change(update_manual_view, inputs=slider_manual,
                                  outputs=view_manual)
+        with gr.Tab("Synthetic"):
+            slider_synthetic = gr.Slider(minimum=1, maximum=n_diffs_synthetic, step=1, value=1,
+                                         label=f"Sample number (total: {n_diffs_synthetic})")
+            diff_view_synthetic = gr.Highlightedtext(combine_adjacent=True, color_map={'+': "green", '-': "red"})
+            start_view_synthetic = gr.Textbox(interactive=False, label="Start message", container=True)
+            end_view_synthetic = gr.Textbox(interactive=False, label="End message", container=True)
+            link_view_synthetic = gr.Markdown()
+            view_synthetic = [
+                diff_view_synthetic,
+                start_view_synthetic,
+                end_view_synthetic,
+                link_view_synthetic
+            ]
+            slider_synthetic.change(update_synthetic_view, inputs=slider_synthetic,
+                                    outputs=view_synthetic)
         application.load(update_manual_view, inputs=slider_manual,
                          outputs=view_manual)
+        application.load(update_synthetic_view, inputs=slider_synthetic,
+                         outputs=view_synthetic)
     application.launch()

config.py CHANGED Viewed

@@ -4,9 +4,17 @@ from pathlib import Path
 GRAZIE_API_JWT_TOKEN = os.environ.get("GRAZIE_API_JWT_TOKEN")
 HF_TOKEN = os.environ.get('HF_TOKEN')
 HF_RAW_DATASET_NAME = "petrtsv-jb/commit-msg-rewriting"
 HF_RAW_DATASET_SPLIT = 'train'
 CACHE_DIR = Path("cache")
 CACHE_DIR.mkdir(exist_ok=True)

 GRAZIE_API_JWT_TOKEN = os.environ.get("GRAZIE_API_JWT_TOKEN")
 HF_TOKEN = os.environ.get('HF_TOKEN')
 HF_RAW_DATASET_NAME = "petrtsv-jb/commit-msg-rewriting"
 HF_RAW_DATASET_SPLIT = 'train'
+HF_FULL_COMMITS_DATASET_NAME = "JetBrains-Research/lca-commit-message-generation"
+HF_FULL_COMMITS_DATASET_SUBNAME = "commitchronicle-py-long"
+HF_FULL_COMMITS_DATASET_SPLIT = "test"
+HF_SYNTHETIC_DATASET_NAME = "petrtsv-jb/synthetic-commit-msg-rewriting"
+HF_SYNTHETIC_DATASET_SPLIT = 'train'
 CACHE_DIR = Path("cache")
 CACHE_DIR.mkdir(exist_ok=True)

generate_annotated_diffs.py CHANGED Viewed

@@ -36,3 +36,10 @@ def manual_data_with_annotated_diffs():
     annotated = df.apply(annotated_diff_for_row_manual_df, axis=1)
     df['annotated_diff'] = annotated
     return df

     annotated = df.apply(annotated_diff_for_row_manual_df, axis=1)
     df['annotated_diff'] = annotated
     return df
+def synthetic_data_with_annotated_diffs():
+    df = hf_data_loader.load_synthetic_dataset_as_pandas()
+    annotated = df.apply(annotated_diff_for_row_synthetic_df, axis=1)
+    df['annotated_diff'] = annotated
+    return df

generate_synthetic_dataset.py CHANGED Viewed

@@ -58,7 +58,8 @@ def generate_synthetic_dataset():
     initial_messages_pred = []
     for prompt in tqdm(df['initial_msg_prompt']):
-        initial_messages_pred.append(generate_initial_msg(prompt))
     df['initial_msg_pred'] = initial_messages_pred

     initial_messages_pred = []
     for prompt in tqdm(df['initial_msg_prompt']):
+        output = generate_initial_msg(prompt)
+        initial_messages_pred.append(output)
     df['initial_msg_pred'] = initial_messages_pred

hf_data_loader.py CHANGED Viewed

@@ -11,8 +11,15 @@ def load_raw_rewriting_dataset_as_pandas():
 def load_full_commit_dataset_as_pandas():
-    return load_dataset("JetBrains-Research/lca-commit-message-generation",
-                        "commitchronicle-py-long",
-                        split="test",
                         cache_dir=config.CACHE_DIR).to_pandas().rename(
         columns={'message': 'reference'})

 def load_full_commit_dataset_as_pandas():
+    return load_dataset(path=config.HF_FULL_COMMITS_DATASET_NAME,
+                        name=config.HF_FULL_COMMITS_DATASET_SUBNAME,
+                        split=config.HF_FULL_COMMITS_DATASET_SPLIT,
                         cache_dir=config.CACHE_DIR).to_pandas().rename(
         columns={'message': 'reference'})
+def load_synthetic_dataset_as_pandas():
+    load_dataset(config.HF_SYNTHETIC_DATASET_NAME,
+                 split=config.HF_SYNTHETIC_DATASET_SPLIT,
+                 token=config.HF_TOKEN,
+                 cache_dir=config.CACHE_DIR).to_pandas()