Add a2/completion/checkpoint-2712

Browse files

Files changed (13) hide show

.gitattributes +1 -0
a2/completion/checkpoint-2712/added_tokens.json +28 -0
a2/completion/checkpoint-2712/config.json +32 -0
a2/completion/checkpoint-2712/generation_config.json +6 -0
a2/completion/checkpoint-2712/merges.txt +0 -0
a2/completion/checkpoint-2712/model.safetensors +3 -0
a2/completion/checkpoint-2712/scaler.pt +3 -0
a2/completion/checkpoint-2712/scheduler.pt +3 -0
a2/completion/checkpoint-2712/special_tokens_map.json +31 -0
a2/completion/checkpoint-2712/tokenizer.json +3 -0
a2/completion/checkpoint-2712/tokenizer_config.json +246 -0
a2/completion/checkpoint-2712/trainer_state.json +239 -0
a2/completion/checkpoint-2712/vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 a2/completion/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 a2/completion/checkpoint-1356/tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 a2/completion/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 a2/completion/checkpoint-1356/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+a2/completion/checkpoint-2712/tokenizer.json filter=lfs diff=lfs merge=lfs -text

a2/completion/checkpoint-2712/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

a2/completion/checkpoint-2712/config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "activation_function": "gelu",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": null,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 151645,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_embd": 1024,
+  "n_head": 16,
+  "n_inner": null,
+  "n_layer": 24,
+  "n_positions": 2048,
+  "pad_token_id": 151643,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.0",
+  "use_cache": true,
+  "vocab_size": 151669
+}

a2/completion/checkpoint-2712/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": 151645,
+  "pad_token_id": 151643,
+  "transformers_version": "4.53.0"
+}

a2/completion/checkpoint-2712/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

a2/completion/checkpoint-2712/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25ca46d7c51e4f3bb9f96da8b6928a307b6d442cac223281615ee2f46cacda12
+size 1838900736

a2/completion/checkpoint-2712/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b0dafc82bcf4b1c98b828570ab6f490dfe43149e03c929d7fc6122d37d104159
+size 1383

a2/completion/checkpoint-2712/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18e17cf4cfe03b4b817120b532ba7e396d999864ee08f75f6c3dd964b1a2412f
+size 1465

a2/completion/checkpoint-2712/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

a2/completion/checkpoint-2712/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:574de68a0f63f2004784a421c7d42c2b2786c05cb38542d2ed3525757a1f7fde
+size 11422932

a2/completion/checkpoint-2712/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,246 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "max_length": 512,
+  "model_max_length": 131072,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|endoftext|>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "stride": 0,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": null
+}

a2/completion/checkpoint-2712/trainer_state.json ADDED Viewed

	@@ -0,0 +1,239 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 2712,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07374631268436578,
+      "grad_norm": 2.3976473808288574,
+      "learning_rate": 4.926991150442478e-05,
+      "loss": 7.2626,
+      "step": 100
+    },
+    {
+      "epoch": 0.14749262536873156,
+      "grad_norm": 3.085752487182617,
+      "learning_rate": 4.8532448377581126e-05,
+      "loss": 5.118,
+      "step": 200
+    },
+    {
+      "epoch": 0.22123893805309736,
+      "grad_norm": 3.1417922973632812,
+      "learning_rate": 4.7794985250737464e-05,
+      "loss": 4.6592,
+      "step": 300
+    },
+    {
+      "epoch": 0.2949852507374631,
+      "grad_norm": 3.0027577877044678,
+      "learning_rate": 4.705752212389381e-05,
+      "loss": 4.3722,
+      "step": 400
+    },
+    {
+      "epoch": 0.3687315634218289,
+      "grad_norm": 2.5502541065216064,
+      "learning_rate": 4.632005899705015e-05,
+      "loss": 4.1234,
+      "step": 500
+    },
+    {
+      "epoch": 0.4424778761061947,
+      "grad_norm": 2.6267709732055664,
+      "learning_rate": 4.558259587020649e-05,
+      "loss": 3.9828,
+      "step": 600
+    },
+    {
+      "epoch": 0.5162241887905604,
+      "grad_norm": 2.364206314086914,
+      "learning_rate": 4.484513274336283e-05,
+      "loss": 3.8663,
+      "step": 700
+    },
+    {
+      "epoch": 0.5899705014749262,
+      "grad_norm": 2.8979170322418213,
+      "learning_rate": 4.410766961651918e-05,
+      "loss": 3.7611,
+      "step": 800
+    },
+    {
+      "epoch": 0.6637168141592921,
+      "grad_norm": 2.5105957984924316,
+      "learning_rate": 4.337020648967552e-05,
+      "loss": 3.618,
+      "step": 900
+    },
+    {
+      "epoch": 0.7374631268436578,
+      "grad_norm": 2.793271780014038,
+      "learning_rate": 4.263274336283186e-05,
+      "loss": 3.5201,
+      "step": 1000
+    },
+    {
+      "epoch": 0.8112094395280236,
+      "grad_norm": 2.612252950668335,
+      "learning_rate": 4.189528023598821e-05,
+      "loss": 3.4934,
+      "step": 1100
+    },
+    {
+      "epoch": 0.8849557522123894,
+      "grad_norm": 2.8699395656585693,
+      "learning_rate": 4.1157817109144546e-05,
+      "loss": 3.4027,
+      "step": 1200
+    },
+    {
+      "epoch": 0.9587020648967551,
+      "grad_norm": 2.758632183074951,
+      "learning_rate": 4.0420353982300885e-05,
+      "loss": 3.3962,
+      "step": 1300
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 3.288789987564087,
+      "eval_runtime": 18.9315,
+      "eval_samples_per_second": 127.354,
+      "eval_steps_per_second": 7.976,
+      "step": 1356
+    },
+    {
+      "epoch": 1.0324483775811208,
+      "grad_norm": 2.836648464202881,
+      "learning_rate": 3.968289085545723e-05,
+      "loss": 3.2942,
+      "step": 1400
+    },
+    {
+      "epoch": 1.1061946902654867,
+      "grad_norm": 2.569132089614868,
+      "learning_rate": 3.894542772861357e-05,
+      "loss": 3.1295,
+      "step": 1500
+    },
+    {
+      "epoch": 1.1799410029498525,
+      "grad_norm": 2.712193250656128,
+      "learning_rate": 3.8207964601769915e-05,
+      "loss": 3.0838,
+      "step": 1600
+    },
+    {
+      "epoch": 1.2536873156342183,
+      "grad_norm": 2.9676578044891357,
+      "learning_rate": 3.747050147492625e-05,
+      "loss": 3.0715,
+      "step": 1700
+    },
+    {
+      "epoch": 1.3274336283185841,
+      "grad_norm": 2.5203654766082764,
+      "learning_rate": 3.67330383480826e-05,
+      "loss": 3.0622,
+      "step": 1800
+    },
+    {
+      "epoch": 1.4011799410029497,
+      "grad_norm": 2.3672962188720703,
+      "learning_rate": 3.5995575221238944e-05,
+      "loss": 2.9971,
+      "step": 1900
+    },
+    {
+      "epoch": 1.4749262536873156,
+      "grad_norm": 2.5039596557617188,
+      "learning_rate": 3.5258112094395276e-05,
+      "loss": 2.9881,
+      "step": 2000
+    },
+    {
+      "epoch": 1.5486725663716814,
+      "grad_norm": 2.587226152420044,
+      "learning_rate": 3.452064896755162e-05,
+      "loss": 2.915,
+      "step": 2100
+    },
+    {
+      "epoch": 1.6224188790560472,
+      "grad_norm": 2.8577704429626465,
+      "learning_rate": 3.378318584070797e-05,
+      "loss": 2.9573,
+      "step": 2200
+    },
+    {
+      "epoch": 1.696165191740413,
+      "grad_norm": 2.520150899887085,
+      "learning_rate": 3.3045722713864306e-05,
+      "loss": 2.9095,
+      "step": 2300
+    },
+    {
+      "epoch": 1.7699115044247788,
+      "grad_norm": 2.763072967529297,
+      "learning_rate": 3.230825958702065e-05,
+      "loss": 2.8751,
+      "step": 2400
+    },
+    {
+      "epoch": 1.8436578171091447,
+      "grad_norm": 2.539698600769043,
+      "learning_rate": 3.1570796460176996e-05,
+      "loss": 2.8752,
+      "step": 2500
+    },
+    {
+      "epoch": 1.9174041297935103,
+      "grad_norm": 2.599785327911377,
+      "learning_rate": 3.0833333333333335e-05,
+      "loss": 2.8176,
+      "step": 2600
+    },
+    {
+      "epoch": 1.991150442477876,
+      "grad_norm": 2.660834789276123,
+      "learning_rate": 3.009587020648968e-05,
+      "loss": 2.8026,
+      "step": 2700
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 2.860244035720825,
+      "eval_runtime": 18.9481,
+      "eval_samples_per_second": 127.242,
+      "eval_steps_per_second": 7.969,
+      "step": 2712
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 6780,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 4.029818053695898e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

a2/completion/checkpoint-2712/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff