{
  "best_metric": 1.0,
  "best_model_checkpoint": "train_authorship/train_outputs/05-21-2024_13:13:45/checkpoint-6",
  "epoch": 2.5,
  "eval_steps": 2,
  "global_step": 10,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.5,
      "grad_norm": 6.089840412139893,
      "learning_rate": 2.5e-05,
      "loss": 1.1456,
      "step": 2
    },
    {
      "epoch": 0.5,
      "eval_acc_product": 0.0,
      "eval_h_acc": 0.7692307692307693,
      "eval_loss": 1.0893480777740479,
      "eval_overall_acc": 0.5897435897435898,
      "eval_pp_acc": 1.0,
      "eval_qq_acc": 0.0,
      "eval_runtime": 0.2361,
      "eval_samples_per_second": 165.177,
      "eval_steps_per_second": 4.235,
      "step": 2
    },
    {
      "epoch": 1.0,
      "grad_norm": 6.872375965118408,
      "learning_rate": 5e-05,
      "loss": 1.12,
      "step": 4
    },
    {
      "epoch": 1.0,
      "eval_acc_product": 0.1301775147928994,
      "eval_h_acc": 0.8461538461538461,
      "eval_loss": 1.0048478841781616,
      "eval_overall_acc": 0.6666666666666666,
      "eval_pp_acc": 0.15384615384615385,
      "eval_qq_acc": 1.0,
      "eval_runtime": 0.2352,
      "eval_samples_per_second": 165.814,
      "eval_steps_per_second": 4.252,
      "step": 4
    },
    {
      "epoch": 1.5,
      "grad_norm": 6.280738830566406,
      "learning_rate": 4.722222222222222e-05,
      "loss": 0.9317,
      "step": 6
    },
    {
      "epoch": 1.5,
      "eval_acc_product": 1.0,
      "eval_h_acc": 1.0,
      "eval_loss": 0.4365764558315277,
      "eval_overall_acc": 1.0,
      "eval_pp_acc": 1.0,
      "eval_qq_acc": 1.0,
      "eval_runtime": 0.2356,
      "eval_samples_per_second": 165.51,
      "eval_steps_per_second": 4.244,
      "step": 6
    },
    {
      "epoch": 2.0,
      "grad_norm": 8.260248184204102,
      "learning_rate": 4.4444444444444447e-05,
      "loss": 0.3742,
      "step": 8
    },
    {
      "epoch": 2.0,
      "eval_acc_product": 1.0,
      "eval_h_acc": 1.0,
      "eval_loss": 0.09832292050123215,
      "eval_overall_acc": 1.0,
      "eval_pp_acc": 1.0,
      "eval_qq_acc": 1.0,
      "eval_runtime": 0.2365,
      "eval_samples_per_second": 164.897,
      "eval_steps_per_second": 4.228,
      "step": 8
    },
    {
      "epoch": 2.5,
      "grad_norm": 3.575946807861328,
      "learning_rate": 4.166666666666667e-05,
      "loss": 0.1006,
      "step": 10
    },
    {
      "epoch": 2.5,
      "eval_acc_product": 1.0,
      "eval_h_acc": 1.0,
      "eval_loss": 0.011917746625840664,
      "eval_overall_acc": 1.0,
      "eval_pp_acc": 1.0,
      "eval_qq_acc": 1.0,
      "eval_runtime": 0.2364,
      "eval_samples_per_second": 164.977,
      "eval_steps_per_second": 4.23,
      "step": 10
    }
  ],
  "logging_steps": 2,
  "max_steps": 40,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 10,
  "save_steps": 2,
  "total_flos": 190740783974448.0,
  "train_batch_size": 64,
  "trial_name": null,
  "trial_params": null
}