text2sql-sft-v5-lora / trainer_state.json

Model save

b4b274d verified 4 months ago

37 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 180,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 0.20347688694992463,
	"learning_rate": 0.0,
	"loss": 1.3486,
	"num_tokens": 386694.0,
	"step": 1
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 0.20625713198769136,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 1.355,
	"num_tokens": 763332.0,
	"step": 2
	},
	{
	"epoch": 0.05,
	"grad_norm": 0.20639089022094934,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 1.3491,
	"num_tokens": 1139716.0,
	"step": 3
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 0.19787801171510724,
	"learning_rate": 5e-06,
	"loss": 1.3138,
	"num_tokens": 1538652.0,
	"step": 4
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 0.21155316191785659,
	"learning_rate": 6.666666666666667e-06,
	"loss": 1.3685,
	"num_tokens": 1906687.0,
	"step": 5
	},
	{
	"epoch": 0.1,
	"grad_norm": 0.20333238528313927,
	"learning_rate": 8.333333333333334e-06,
	"loss": 1.3338,
	"num_tokens": 2291916.0,
	"step": 6
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 0.20704300202558082,
	"learning_rate": 1e-05,
	"loss": 1.343,
	"num_tokens": 2681760.0,
	"step": 7
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 0.200172510985878,
	"learning_rate": 9.999266547540887e-06,
	"loss": 1.3083,
	"num_tokens": 3083275.0,
	"step": 8
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.21021419665409874,
	"learning_rate": 9.997066429253546e-06,
	"loss": 1.3093,
	"num_tokens": 3492333.0,
	"step": 9
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.22102553079194487,
	"learning_rate": 9.993400362330058e-06,
	"loss": 1.3402,
	"num_tokens": 3874036.0,
	"step": 10
	},
	{
	"epoch": 0.18333333333333332,
	"grad_norm": 0.21451572907277383,
	"learning_rate": 9.988269541830775e-06,
	"loss": 1.3099,
	"num_tokens": 4288115.0,
	"step": 11
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.222157701705125,
	"learning_rate": 9.98167564029477e-06,
	"loss": 1.3221,
	"num_tokens": 4688262.0,
	"step": 12
	},
	{
	"epoch": 0.21666666666666667,
	"grad_norm": 0.22082321401094135,
	"learning_rate": 9.97362080719462e-06,
	"loss": 1.3055,
	"num_tokens": 5091722.0,
	"step": 13
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 0.2334913037364633,
	"learning_rate": 9.96410766823572e-06,
	"loss": 1.3477,
	"num_tokens": 5471288.0,
	"step": 14
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.22036578370503598,
	"learning_rate": 9.95313932450037e-06,
	"loss": 1.2598,
	"num_tokens": 5889666.0,
	"step": 15
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.23194405129651766,
	"learning_rate": 9.94071935143687e-06,
	"loss": 1.2894,
	"num_tokens": 6300311.0,
	"step": 16
	},
	{
	"epoch": 0.2833333333333333,
	"grad_norm": 0.23407585318591353,
	"learning_rate": 9.926851797694012e-06,
	"loss": 1.2854,
	"num_tokens": 6715155.0,
	"step": 17
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.23135459279620388,
	"learning_rate": 9.911541183801312e-06,
	"loss": 1.2558,
	"num_tokens": 7135255.0,
	"step": 18
	},
	{
	"epoch": 0.31666666666666665,
	"grad_norm": 0.2527426391154934,
	"learning_rate": 9.89479250069539e-06,
	"loss": 1.3322,
	"num_tokens": 7508317.0,
	"step": 19
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.2581964091634313,
	"learning_rate": 9.876611208093055e-06,
	"loss": 1.3495,
	"num_tokens": 7875185.0,
	"step": 20
	},
	{
	"epoch": 0.35,
	"grad_norm": 0.2539169503082972,
	"learning_rate": 9.857003232711535e-06,
	"loss": 1.2926,
	"num_tokens": 8278743.0,
	"step": 21
	},
	{
	"epoch": 0.36666666666666664,
	"grad_norm": 0.264414189314964,
	"learning_rate": 9.835974966336504e-06,
	"loss": 1.3231,
	"num_tokens": 8653905.0,
	"step": 22
	},
	{
	"epoch": 0.38333333333333336,
	"grad_norm": 0.2596398381573962,
	"learning_rate": 9.813533263738486e-06,
	"loss": 1.3017,
	"num_tokens": 9043909.0,
	"step": 23
	},
	{
	"epoch": 0.4,
	"grad_norm": 0.2590655726065642,
	"learning_rate": 9.789685440438353e-06,
	"loss": 1.2981,
	"num_tokens": 9435837.0,
	"step": 24
	},
	{
	"epoch": 0.4166666666666667,
	"grad_norm": 0.26113224709818267,
	"learning_rate": 9.764439270322612e-06,
	"loss": 1.3079,
	"num_tokens": 9830459.0,
	"step": 25
	},
	{
	"epoch": 0.43333333333333335,
	"grad_norm": 0.2655126515114832,
	"learning_rate": 9.737802983109287e-06,
	"loss": 1.3126,
	"num_tokens": 10213657.0,
	"step": 26
	},
	{
	"epoch": 0.45,
	"grad_norm": 0.2546059490248653,
	"learning_rate": 9.709785261665205e-06,
	"loss": 1.2483,
	"num_tokens": 10635429.0,
	"step": 27
	},
	{
	"epoch": 0.4666666666666667,
	"grad_norm": 0.2588892922300372,
	"learning_rate": 9.680395239175563e-06,
	"loss": 1.2663,
	"num_tokens": 11041197.0,
	"step": 28
	},
	{
	"epoch": 0.48333333333333334,
	"grad_norm": 0.25601357046830475,
	"learning_rate": 9.6496424961667e-06,
	"loss": 1.2446,
	"num_tokens": 11456416.0,
	"step": 29
	},
	{
	"epoch": 0.5,
	"grad_norm": 0.27770472577518,
	"learning_rate": 9.617537057383055e-06,
	"loss": 1.3317,
	"num_tokens": 11819187.0,
	"step": 30
	},
	{
	"epoch": 0.5166666666666667,
	"grad_norm": 0.25330373961895997,
	"learning_rate": 9.584089388519307e-06,
	"loss": 1.2292,
	"num_tokens": 12245580.0,
	"step": 31
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.2670015137570281,
	"learning_rate": 9.549310392808782e-06,
	"loss": 1.2598,
	"num_tokens": 12656812.0,
	"step": 32
	},
	{
	"epoch": 0.55,
	"grad_norm": 0.272889308733812,
	"learning_rate": 9.51321140746922e-06,
	"loss": 1.2713,
	"num_tokens": 13051662.0,
	"step": 33
	},
	{
	"epoch": 0.5666666666666667,
	"grad_norm": 0.26187078843325307,
	"learning_rate": 9.475804200007104e-06,
	"loss": 1.2418,
	"num_tokens": 13460138.0,
	"step": 34
	},
	{
	"epoch": 0.5833333333333334,
	"grad_norm": 0.28115825416534995,
	"learning_rate": 9.437100964381674e-06,
	"loss": 1.2872,
	"num_tokens": 13839611.0,
	"step": 35
	},
	{
	"epoch": 0.6,
	"grad_norm": 0.27101603479796127,
	"learning_rate": 9.397114317029975e-06,
	"loss": 1.2638,
	"num_tokens": 14235849.0,
	"step": 36
	},
	{
	"epoch": 0.6166666666666667,
	"grad_norm": 0.27422617182381553,
	"learning_rate": 9.355857292754152e-06,
	"loss": 1.2492,
	"num_tokens": 14628658.0,
	"step": 37
	},
	{
	"epoch": 0.6333333333333333,
	"grad_norm": 0.2759519060802432,
	"learning_rate": 9.31334334047239e-06,
	"loss": 1.2475,
	"num_tokens": 15022722.0,
	"step": 38
	},
	{
	"epoch": 0.65,
	"grad_norm": 0.27417759664328156,
	"learning_rate": 9.269586318834841e-06,
	"loss": 1.253,
	"num_tokens": 15412919.0,
	"step": 39
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.2724381262102165,
	"learning_rate": 9.224600491706009e-06,
	"loss": 1.2361,
	"num_tokens": 15808067.0,
	"step": 40
	},
	{
	"epoch": 0.6833333333333333,
	"grad_norm": 0.27167034827946607,
	"learning_rate": 9.178400523515013e-06,
	"loss": 1.2219,
	"num_tokens": 16216305.0,
	"step": 41
	},
	{
	"epoch": 0.7,
	"grad_norm": 0.278161266618282,
	"learning_rate": 9.131001474475318e-06,
	"loss": 1.2385,
	"num_tokens": 16614956.0,
	"step": 42
	},
	{
	"epoch": 0.7166666666666667,
	"grad_norm": 0.2719974106719481,
	"learning_rate": 9.082418795675397e-06,
	"loss": 1.2342,
	"num_tokens": 17017704.0,
	"step": 43
	},
	{
	"epoch": 0.7333333333333333,
	"grad_norm": 0.2770889606164237,
	"learning_rate": 9.032668324042027e-06,
	"loss": 1.2288,
	"num_tokens": 17417441.0,
	"step": 44
	},
	{
	"epoch": 0.75,
	"grad_norm": 0.26682098089617995,
	"learning_rate": 8.981766277177764e-06,
	"loss": 1.207,
	"num_tokens": 17836960.0,
	"step": 45
	},
	{
	"epoch": 0.7666666666666667,
	"grad_norm": 0.2766994928342326,
	"learning_rate": 8.929729248074364e-06,
	"loss": 1.2211,
	"num_tokens": 18229148.0,
	"step": 46
	},
	{
	"epoch": 0.7833333333333333,
	"grad_norm": 0.2711486975317484,
	"learning_rate": 8.87657419970381e-06,
	"loss": 1.2009,
	"num_tokens": 18629493.0,
	"step": 47
	},
	{
	"epoch": 0.8,
	"grad_norm": 0.2797352969899827,
	"learning_rate": 8.822318459488744e-06,
	"loss": 1.2246,
	"num_tokens": 19016532.0,
	"step": 48
	},
	{
	"epoch": 0.8166666666666667,
	"grad_norm": 0.27267187676057414,
	"learning_rate": 8.76697971365409e-06,
	"loss": 1.2109,
	"num_tokens": 19420153.0,
	"step": 49
	},
	{
	"epoch": 0.8333333333333334,
	"grad_norm": 0.280274042203503,
	"learning_rate": 8.71057600146172e-06,
	"loss": 1.243,
	"num_tokens": 19799943.0,
	"step": 50
	},
	{
	"epoch": 0.85,
	"grad_norm": 0.2697272976062216,
	"learning_rate": 8.65312570933004e-06,
	"loss": 1.1983,
	"num_tokens": 20211312.0,
	"step": 51
	},
	{
	"epoch": 0.8666666666666667,
	"grad_norm": 0.2760610482181004,
	"learning_rate": 8.594647564840407e-06,
	"loss": 1.2089,
	"num_tokens": 20601752.0,
	"step": 52
	},
	{
	"epoch": 0.8833333333333333,
	"grad_norm": 0.26980844262247333,
	"learning_rate": 8.535160630632312e-06,
	"loss": 1.1872,
	"num_tokens": 21018915.0,
	"step": 53
	},
	{
	"epoch": 0.9,
	"grad_norm": 0.2670251155691136,
	"learning_rate": 8.474684298189402e-06,
	"loss": 1.1572,
	"num_tokens": 21431176.0,
	"step": 54
	},
	{
	"epoch": 0.9166666666666666,
	"grad_norm": 0.27706551281453934,
	"learning_rate": 8.413238281518225e-06,
	"loss": 1.2052,
	"num_tokens": 21813557.0,
	"step": 55
	},
	{
	"epoch": 0.9333333333333333,
	"grad_norm": 0.27497110779177597,
	"learning_rate": 8.350842610721908e-06,
	"loss": 1.2038,
	"num_tokens": 22194786.0,
	"step": 56
	},
	{
	"epoch": 0.95,
	"grad_norm": 0.2769879410931276,
	"learning_rate": 8.287517625470754e-06,
	"loss": 1.2091,
	"num_tokens": 22567671.0,
	"step": 57
	},
	{
	"epoch": 0.9666666666666667,
	"grad_norm": 0.27322345022544986,
	"learning_rate": 8.223283968371945e-06,
	"loss": 1.1946,
	"num_tokens": 22950599.0,
	"step": 58
	},
	{
	"epoch": 0.9833333333333333,
	"grad_norm": 0.2684318343815342,
	"learning_rate": 8.158162578240479e-06,
	"loss": 1.1776,
	"num_tokens": 23343994.0,
	"step": 59
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.2642150542616249,
	"learning_rate": 8.09217468327358e-06,
	"loss": 1.1754,
	"num_tokens": 23741790.0,
	"step": 60
	},
	{
	"epoch": 1.0166666666666666,
	"grad_norm": 0.27624640531200356,
	"learning_rate": 8.025341794130722e-06,
	"loss": 1.2066,
	"num_tokens": 24119088.0,
	"step": 61
	},
	{
	"epoch": 1.0333333333333334,
	"grad_norm": 0.26107106750383646,
	"learning_rate": 7.957685696921637e-06,
	"loss": 1.1654,
	"num_tokens": 24525980.0,
	"step": 62
	},
	{
	"epoch": 1.05,
	"grad_norm": 0.265974744467562,
	"learning_rate": 7.889228446104492e-06,
	"loss": 1.1749,
	"num_tokens": 24923505.0,
	"step": 63
	},
	{
	"epoch": 1.0666666666666667,
	"grad_norm": 0.24949808024054398,
	"learning_rate": 7.8199923572966e-06,
	"loss": 1.1444,
	"num_tokens": 25357629.0,
	"step": 64
	},
	{
	"epoch": 1.0833333333333333,
	"grad_norm": 0.2565612036460563,
	"learning_rate": 7.75e-06,
	"loss": 1.154,
	"num_tokens": 25764560.0,
	"step": 65
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.2477745857863104,
	"learning_rate": 7.679274190244288e-06,
	"loss": 1.1228,
	"num_tokens": 26191304.0,
	"step": 66
	},
	{
	"epoch": 1.1166666666666667,
	"grad_norm": 0.258895924602746,
	"learning_rate": 7.607837983149057e-06,
	"loss": 1.1831,
	"num_tokens": 26571577.0,
	"step": 67
	},
	{
	"epoch": 1.1333333333333333,
	"grad_norm": 0.2469334775500094,
	"learning_rate": 7.535714665408422e-06,
	"loss": 1.1398,
	"num_tokens": 26977355.0,
	"step": 68
	},
	{
	"epoch": 1.15,
	"grad_norm": 0.24532411612887967,
	"learning_rate": 7.462927747700054e-06,
	"loss": 1.1327,
	"num_tokens": 27386485.0,
	"step": 69
	},
	{
	"epoch": 1.1666666666666667,
	"grad_norm": 0.24488318952652433,
	"learning_rate": 7.389500957021192e-06,
	"loss": 1.1393,
	"num_tokens": 27796862.0,
	"step": 70
	},
	{
	"epoch": 1.1833333333333333,
	"grad_norm": 0.2519440956249067,
	"learning_rate": 7.31545822895414e-06,
	"loss": 1.1681,
	"num_tokens": 28173474.0,
	"step": 71
	},
	{
	"epoch": 1.2,
	"grad_norm": 0.25924293527453895,
	"learning_rate": 7.240823699863777e-06,
	"loss": 1.199,
	"num_tokens": 28525368.0,
	"step": 72
	},
	{
	"epoch": 1.2166666666666668,
	"grad_norm": 0.23840487943542193,
	"learning_rate": 7.165621699029615e-06,
	"loss": 1.125,
	"num_tokens": 28932221.0,
	"step": 73
	},
	{
	"epoch": 1.2333333333333334,
	"grad_norm": 0.2399941384081776,
	"learning_rate": 7.0898767407149614e-06,
	"loss": 1.1409,
	"num_tokens": 29318980.0,
	"step": 74
	},
	{
	"epoch": 1.25,
	"grad_norm": 0.2415610307343174,
	"learning_rate": 7.013613516175788e-06,
	"loss": 1.1627,
	"num_tokens": 29692583.0,
	"step": 75
	},
	{
	"epoch": 1.2666666666666666,
	"grad_norm": 0.2379496675858682,
	"learning_rate": 6.93685688561191e-06,
	"loss": 1.1414,
	"num_tokens": 30070786.0,
	"step": 76
	},
	{
	"epoch": 1.2833333333333332,
	"grad_norm": 0.2232222159706024,
	"learning_rate": 6.859631870063077e-06,
	"loss": 1.0842,
	"num_tokens": 30493521.0,
	"step": 77
	},
	{
	"epoch": 1.3,
	"grad_norm": 0.24018487371689082,
	"learning_rate": 6.781963643252651e-06,
	"loss": 1.1551,
	"num_tokens": 30867731.0,
	"step": 78
	},
	{
	"epoch": 1.3166666666666667,
	"grad_norm": 0.2220727500217713,
	"learning_rate": 6.703877523381495e-06,
	"loss": 1.1066,
	"num_tokens": 31278707.0,
	"step": 79
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.22248227512031088,
	"learning_rate": 6.6253989648747845e-06,
	"loss": 1.1136,
	"num_tokens": 31686041.0,
	"step": 80
	},
	{
	"epoch": 1.35,
	"grad_norm": 0.22314141984344454,
	"learning_rate": 6.546553550084398e-06,
	"loss": 1.1208,
	"num_tokens": 32077613.0,
	"step": 81
	},
	{
	"epoch": 1.3666666666666667,
	"grad_norm": 0.23480292959822424,
	"learning_rate": 6.46736698094961e-06,
	"loss": 1.1651,
	"num_tokens": 32436972.0,
	"step": 82
	},
	{
	"epoch": 1.3833333333333333,
	"grad_norm": 0.2246435233255602,
	"learning_rate": 6.387865070618801e-06,
	"loss": 1.1314,
	"num_tokens": 32820896.0,
	"step": 83
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.2119082631339848,
	"learning_rate": 6.308073735034923e-06,
	"loss": 1.0982,
	"num_tokens": 33232148.0,
	"step": 84
	},
	{
	"epoch": 1.4166666666666667,
	"grad_norm": 0.2193164071065741,
	"learning_rate": 6.228018984487443e-06,
	"loss": 1.1228,
	"num_tokens": 33617847.0,
	"step": 85
	},
	{
	"epoch": 1.4333333333333333,
	"grad_norm": 0.21099593611304157,
	"learning_rate": 6.147726915133536e-06,
	"loss": 1.0973,
	"num_tokens": 34013743.0,
	"step": 86
	},
	{
	"epoch": 1.45,
	"grad_norm": 0.20511115499955337,
	"learning_rate": 6.067223700491303e-06,
	"loss": 1.0974,
	"num_tokens": 34426281.0,
	"step": 87
	},
	{
	"epoch": 1.4666666666666668,
	"grad_norm": 0.21317751989751124,
	"learning_rate": 5.986535582907739e-06,
	"loss": 1.1069,
	"num_tokens": 34820833.0,
	"step": 88
	},
	{
	"epoch": 1.4833333333333334,
	"grad_norm": 0.21269502102858076,
	"learning_rate": 5.905688865004295e-06,
	"loss": 1.115,
	"num_tokens": 35204582.0,
	"step": 89
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.21167063431095542,
	"learning_rate": 5.8247099011027745e-06,
	"loss": 1.1103,
	"num_tokens": 35593390.0,
	"step": 90
	},
	{
	"epoch": 1.5166666666666666,
	"grad_norm": 0.1972785443846935,
	"learning_rate": 5.74362508863438e-06,
	"loss": 1.0748,
	"num_tokens": 36016331.0,
	"step": 91
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.2045550078663756,
	"learning_rate": 5.662460859534714e-06,
	"loss": 1.0957,
	"num_tokens": 36413156.0,
	"step": 92
	},
	{
	"epoch": 1.55,
	"grad_norm": 0.20540235044977084,
	"learning_rate": 5.581243671627522e-06,
	"loss": 1.1125,
	"num_tokens": 36798646.0,
	"step": 93
	},
	{
	"epoch": 1.5666666666666667,
	"grad_norm": 0.21302477169893083,
	"learning_rate": 5.500000000000001e-06,
	"loss": 1.1283,
	"num_tokens": 37163989.0,
	"step": 94
	},
	{
	"epoch": 1.5833333333333335,
	"grad_norm": 0.19913299220506073,
	"learning_rate": 5.418756328372477e-06,
	"loss": 1.0911,
	"num_tokens": 37561194.0,
	"step": 95
	},
	{
	"epoch": 1.6,
	"grad_norm": 0.20283661583890317,
	"learning_rate": 5.337539140465287e-06,
	"loss": 1.0993,
	"num_tokens": 37949527.0,
	"step": 96
	},
	{
	"epoch": 1.6166666666666667,
	"grad_norm": 0.19832616156846167,
	"learning_rate": 5.256374911365621e-06,
	"loss": 1.0863,
	"num_tokens": 38339423.0,
	"step": 97
	},
	{
	"epoch": 1.6333333333333333,
	"grad_norm": 0.1874399133837087,
	"learning_rate": 5.175290098897229e-06,
	"loss": 1.0578,
	"num_tokens": 38766377.0,
	"step": 98
	},
	{
	"epoch": 1.65,
	"grad_norm": 0.20183772138662948,
	"learning_rate": 5.094311134995707e-06,
	"loss": 1.1014,
	"num_tokens": 39147856.0,
	"step": 99
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 0.18935820133852294,
	"learning_rate": 5.013464417092263e-06,
	"loss": 1.06,
	"num_tokens": 39566905.0,
	"step": 100
	},
	{
	"epoch": 1.6833333333333333,
	"grad_norm": 0.19500218855771653,
	"learning_rate": 4.932776299508699e-06,
	"loss": 1.0898,
	"num_tokens": 39958103.0,
	"step": 101
	},
	{
	"epoch": 1.7,
	"grad_norm": 0.1984120119983971,
	"learning_rate": 4.852273084866464e-06,
	"loss": 1.0953,
	"num_tokens": 40340633.0,
	"step": 102
	},
	{
	"epoch": 1.7166666666666668,
	"grad_norm": 0.18662319109011208,
	"learning_rate": 4.771981015512559e-06,
	"loss": 1.0499,
	"num_tokens": 40751526.0,
	"step": 103
	},
	{
	"epoch": 1.7333333333333334,
	"grad_norm": 0.18850360756901802,
	"learning_rate": 4.6919262649650775e-06,
	"loss": 1.0612,
	"num_tokens": 41164499.0,
	"step": 104
	},
	{
	"epoch": 1.75,
	"grad_norm": 0.18948839687314148,
	"learning_rate": 4.6121349293812015e-06,
	"loss": 1.0602,
	"num_tokens": 41570804.0,
	"step": 105
	},
	{
	"epoch": 1.7666666666666666,
	"grad_norm": 0.1952823503095174,
	"learning_rate": 4.532633019050392e-06,
	"loss": 1.0828,
	"num_tokens": 41958143.0,
	"step": 106
	},
	{
	"epoch": 1.7833333333333332,
	"grad_norm": 0.2004697749452997,
	"learning_rate": 4.453446449915605e-06,
	"loss": 1.0882,
	"num_tokens": 42328835.0,
	"step": 107
	},
	{
	"epoch": 1.8,
	"grad_norm": 0.20043715480843116,
	"learning_rate": 4.374601035125218e-06,
	"loss": 1.1103,
	"num_tokens": 42695932.0,
	"step": 108
	},
	{
	"epoch": 1.8166666666666667,
	"grad_norm": 0.18541923140804248,
	"learning_rate": 4.296122476618507e-06,
	"loss": 1.0526,
	"num_tokens": 43099402.0,
	"step": 109
	},
	{
	"epoch": 1.8333333333333335,
	"grad_norm": 0.1862223406993093,
	"learning_rate": 4.21803635674735e-06,
	"loss": 1.0582,
	"num_tokens": 43497618.0,
	"step": 110
	},
	{
	"epoch": 1.85,
	"grad_norm": 0.1824176306793717,
	"learning_rate": 4.140368129936923e-06,
	"loss": 1.0536,
	"num_tokens": 43910914.0,
	"step": 111
	},
	{
	"epoch": 1.8666666666666667,
	"grad_norm": 0.18615542429330748,
	"learning_rate": 4.0631431143880915e-06,
	"loss": 1.0666,
	"num_tokens": 44306362.0,
	"step": 112
	},
	{
	"epoch": 1.8833333333333333,
	"grad_norm": 0.19057891231928828,
	"learning_rate": 3.986386483824212e-06,
	"loss": 1.0591,
	"num_tokens": 44690072.0,
	"step": 113
	},
	{
	"epoch": 1.9,
	"grad_norm": 0.18144852235493494,
	"learning_rate": 3.91012325928504e-06,
	"loss": 1.0461,
	"num_tokens": 45097796.0,
	"step": 114
	},
	{
	"epoch": 1.9166666666666665,
	"grad_norm": 0.17892493822741345,
	"learning_rate": 3.834378300970385e-06,
	"loss": 1.0363,
	"num_tokens": 45507999.0,
	"step": 115
	},
	{
	"epoch": 1.9333333333333333,
	"grad_norm": 0.18970747368366223,
	"learning_rate": 3.759176300136225e-06,
	"loss": 1.0763,
	"num_tokens": 45893001.0,
	"step": 116
	},
	{
	"epoch": 1.95,
	"grad_norm": 0.1926227682132123,
	"learning_rate": 3.684541771045862e-06,
	"loss": 1.0789,
	"num_tokens": 46266011.0,
	"step": 117
	},
	{
	"epoch": 1.9666666666666668,
	"grad_norm": 0.18713312349431102,
	"learning_rate": 3.6104990429788102e-06,
	"loss": 1.0664,
	"num_tokens": 46654457.0,
	"step": 118
	},
	{
	"epoch": 1.9833333333333334,
	"grad_norm": 0.17762644990094084,
	"learning_rate": 3.5370722522999468e-06,
	"loss": 1.0371,
	"num_tokens": 47068222.0,
	"step": 119
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.17598895038174286,
	"learning_rate": 3.4642853345915796e-06,
	"loss": 1.0344,
	"num_tokens": 47486208.0,
	"step": 120
	},
	{
	"epoch": 2.0166666666666666,
	"grad_norm": 0.19047491721871096,
	"learning_rate": 3.392162016850945e-06,
	"loss": 1.0609,
	"num_tokens": 47861567.0,
	"step": 121
	},
	{
	"epoch": 2.033333333333333,
	"grad_norm": 0.179431227403987,
	"learning_rate": 3.3207258097557136e-06,
	"loss": 1.0465,
	"num_tokens": 48258885.0,
	"step": 122
	},
	{
	"epoch": 2.05,
	"grad_norm": 0.18620030502711396,
	"learning_rate": 3.2500000000000015e-06,
	"loss": 1.077,
	"num_tokens": 48642658.0,
	"step": 123
	},
	{
	"epoch": 2.066666666666667,
	"grad_norm": 0.17601175312392317,
	"learning_rate": 3.180007642703402e-06,
	"loss": 1.0278,
	"num_tokens": 49052624.0,
	"step": 124
	},
	{
	"epoch": 2.0833333333333335,
	"grad_norm": 0.17518089510620072,
	"learning_rate": 3.1107715538955107e-06,
	"loss": 1.0214,
	"num_tokens": 49459791.0,
	"step": 125
	},
	{
	"epoch": 2.1,
	"grad_norm": 0.18939640492202073,
	"learning_rate": 3.042314303078364e-06,
	"loss": 1.0784,
	"num_tokens": 49827854.0,
	"step": 126
	},
	{
	"epoch": 2.1166666666666667,
	"grad_norm": 0.17031698650894725,
	"learning_rate": 2.9746582058692803e-06,
	"loss": 1.0305,
	"num_tokens": 50245908.0,
	"step": 127
	},
	{
	"epoch": 2.1333333333333333,
	"grad_norm": 0.1809232668791668,
	"learning_rate": 2.9078253167264225e-06,
	"loss": 1.0624,
	"num_tokens": 50630892.0,
	"step": 128
	},
	{
	"epoch": 2.15,
	"grad_norm": 0.17353712561408433,
	"learning_rate": 2.841837421759521e-06,
	"loss": 1.0378,
	"num_tokens": 51034329.0,
	"step": 129
	},
	{
	"epoch": 2.1666666666666665,
	"grad_norm": 0.17970079826518376,
	"learning_rate": 2.7767160316280583e-06,
	"loss": 1.0503,
	"num_tokens": 51424755.0,
	"step": 130
	},
	{
	"epoch": 2.183333333333333,
	"grad_norm": 0.17266580648638577,
	"learning_rate": 2.712482374529247e-06,
	"loss": 1.0549,
	"num_tokens": 51824755.0,
	"step": 131
	},
	{
	"epoch": 2.2,
	"grad_norm": 0.17701164265308508,
	"learning_rate": 2.6491573892780944e-06,
	"loss": 1.0562,
	"num_tokens": 52216263.0,
	"step": 132
	},
	{
	"epoch": 2.216666666666667,
	"grad_norm": 0.18143247436396157,
	"learning_rate": 2.586761718481776e-06,
	"loss": 1.0555,
	"num_tokens": 52598901.0,
	"step": 133
	},
	{
	"epoch": 2.2333333333333334,
	"grad_norm": 0.18534031298473655,
	"learning_rate": 2.5253157018105994e-06,
	"loss": 1.0889,
	"num_tokens": 52970634.0,
	"step": 134
	},
	{
	"epoch": 2.25,
	"grad_norm": 0.17602172639297559,
	"learning_rate": 2.464839369367688e-06,
	"loss": 1.0482,
	"num_tokens": 53361046.0,
	"step": 135
	},
	{
	"epoch": 2.2666666666666666,
	"grad_norm": 0.1686806926873599,
	"learning_rate": 2.405352435159595e-06,
	"loss": 1.0276,
	"num_tokens": 53778131.0,
	"step": 136
	},
	{
	"epoch": 2.283333333333333,
	"grad_norm": 0.17635036831945994,
	"learning_rate": 2.34687429066996e-06,
	"loss": 1.0325,
	"num_tokens": 54168768.0,
	"step": 137
	},
	{
	"epoch": 2.3,
	"grad_norm": 0.1802907676645608,
	"learning_rate": 2.28942399853828e-06,
	"loss": 1.0574,
	"num_tokens": 54548763.0,
	"step": 138
	},
	{
	"epoch": 2.3166666666666664,
	"grad_norm": 0.16174507905935168,
	"learning_rate": 2.2330202863459123e-06,
	"loss": 0.9965,
	"num_tokens": 54983583.0,
	"step": 139
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.1681042526520144,
	"learning_rate": 2.1776815405112567e-06,
	"loss": 1.029,
	"num_tokens": 55390401.0,
	"step": 140
	},
	{
	"epoch": 2.35,
	"grad_norm": 0.17190618755323878,
	"learning_rate": 2.12342580029619e-06,
	"loss": 1.0338,
	"num_tokens": 55790352.0,
	"step": 141
	},
	{
	"epoch": 2.3666666666666667,
	"grad_norm": 0.17063472360536117,
	"learning_rate": 2.0702707519256365e-06,
	"loss": 1.0331,
	"num_tokens": 56198140.0,
	"step": 142
	},
	{
	"epoch": 2.3833333333333333,
	"grad_norm": 0.17429459442868253,
	"learning_rate": 2.0182337228222366e-06,
	"loss": 1.0451,
	"num_tokens": 56586902.0,
	"step": 143
	},
	{
	"epoch": 2.4,
	"grad_norm": 0.17254688247815245,
	"learning_rate": 1.9673316759579752e-06,
	"loss": 1.0341,
	"num_tokens": 56980540.0,
	"step": 144
	},
	{
	"epoch": 2.4166666666666665,
	"grad_norm": 0.16911763310007524,
	"learning_rate": 1.9175812043246034e-06,
	"loss": 1.0303,
	"num_tokens": 57379690.0,
	"step": 145
	},
	{
	"epoch": 2.4333333333333336,
	"grad_norm": 0.1803163513113741,
	"learning_rate": 1.8689985255246834e-06,
	"loss": 1.055,
	"num_tokens": 57759503.0,
	"step": 146
	},
	{
	"epoch": 2.45,
	"grad_norm": 0.17971016887952232,
	"learning_rate": 1.821599476484987e-06,
	"loss": 1.0493,
	"num_tokens": 58137010.0,
	"step": 147
	},
	{
	"epoch": 2.466666666666667,
	"grad_norm": 0.1697204076438841,
	"learning_rate": 1.7753995082939932e-06,
	"loss": 1.0359,
	"num_tokens": 58540304.0,
	"step": 148
	},
	{
	"epoch": 2.4833333333333334,
	"grad_norm": 0.17332591146494206,
	"learning_rate": 1.7304136811651595e-06,
	"loss": 1.0302,
	"num_tokens": 58940195.0,
	"step": 149
	},
	{
	"epoch": 2.5,
	"grad_norm": 0.17140575088650803,
	"learning_rate": 1.6866566595276108e-06,
	"loss": 1.0417,
	"num_tokens": 59334134.0,
	"step": 150
	},
	{
	"epoch": 2.5166666666666666,
	"grad_norm": 0.1778607882313274,
	"learning_rate": 1.6441427072458493e-06,
	"loss": 1.0546,
	"num_tokens": 59715949.0,
	"step": 151
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 0.17001188018404773,
	"learning_rate": 1.602885682970026e-06,
	"loss": 1.0291,
	"num_tokens": 60116409.0,
	"step": 152
	},
	{
	"epoch": 2.55,
	"grad_norm": 0.16633871689470098,
	"learning_rate": 1.5628990356183267e-06,
	"loss": 1.0071,
	"num_tokens": 60525002.0,
	"step": 153
	},
	{
	"epoch": 2.5666666666666664,
	"grad_norm": 0.16701897205859903,
	"learning_rate": 1.5241957999928974e-06,
	"loss": 1.0248,
	"num_tokens": 60932270.0,
	"step": 154
	},
	{
	"epoch": 2.5833333333333335,
	"grad_norm": 0.1660792758683251,
	"learning_rate": 1.48678859253078e-06,
	"loss": 1.0202,
	"num_tokens": 61334649.0,
	"step": 155
	},
	{
	"epoch": 2.6,
	"grad_norm": 0.1682034509904724,
	"learning_rate": 1.4506896071912207e-06,
	"loss": 1.0284,
	"num_tokens": 61734959.0,
	"step": 156
	},
	{
	"epoch": 2.6166666666666667,
	"grad_norm": 0.1668165907033785,
	"learning_rate": 1.4159106114806943e-06,
	"loss": 1.0136,
	"num_tokens": 62136249.0,
	"step": 157
	},
	{
	"epoch": 2.6333333333333333,
	"grad_norm": 0.16653472110987996,
	"learning_rate": 1.3824629426169453e-06,
	"loss": 1.0189,
	"num_tokens": 62547232.0,
	"step": 158
	},
	{
	"epoch": 2.65,
	"grad_norm": 0.1759320969398424,
	"learning_rate": 1.3503575038333012e-06,
	"loss": 1.0453,
	"num_tokens": 62925792.0,
	"step": 159
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.17455574404880736,
	"learning_rate": 1.319604760824439e-06,
	"loss": 1.0467,
	"num_tokens": 63307635.0,
	"step": 160
	},
	{
	"epoch": 2.6833333333333336,
	"grad_norm": 0.17771148713750815,
	"learning_rate": 1.290214738334796e-06,
	"loss": 1.0473,
	"num_tokens": 63682238.0,
	"step": 161
	},
	{
	"epoch": 2.7,
	"grad_norm": 0.16866162479303157,
	"learning_rate": 1.2621970168907142e-06,
	"loss": 1.0124,
	"num_tokens": 64080742.0,
	"step": 162
	},
	{
	"epoch": 2.716666666666667,
	"grad_norm": 0.17158033467846245,
	"learning_rate": 1.2355607296773896e-06,
	"loss": 1.0378,
	"num_tokens": 64470953.0,
	"step": 163
	},
	{
	"epoch": 2.7333333333333334,
	"grad_norm": 0.17932832515821062,
	"learning_rate": 1.2103145595616483e-06,
	"loss": 1.0602,
	"num_tokens": 64841108.0,
	"step": 164
	},
	{
	"epoch": 2.75,
	"grad_norm": 0.17282896762254346,
	"learning_rate": 1.1864667362615143e-06,
	"loss": 1.0286,
	"num_tokens": 65231331.0,
	"step": 165
	},
	{
	"epoch": 2.7666666666666666,
	"grad_norm": 0.17133392202836673,
	"learning_rate": 1.164025033663497e-06,
	"loss": 1.0383,
	"num_tokens": 65618779.0,
	"step": 166
	},
	{
	"epoch": 2.783333333333333,
	"grad_norm": 0.1839963706847892,
	"learning_rate": 1.1429967672884653e-06,
	"loss": 1.0561,
	"num_tokens": 65984834.0,
	"step": 167
	},
	{
	"epoch": 2.8,
	"grad_norm": 0.16415649947514158,
	"learning_rate": 1.1233887919069461e-06,
	"loss": 1.0153,
	"num_tokens": 66393854.0,
	"step": 168
	},
	{
	"epoch": 2.8166666666666664,
	"grad_norm": 0.16784485749788497,
	"learning_rate": 1.1052074993046102e-06,
	"loss": 1.0249,
	"num_tokens": 66790920.0,
	"step": 169
	},
	{
	"epoch": 2.8333333333333335,
	"grad_norm": 0.16122888659021065,
	"learning_rate": 1.0884588161986893e-06,
	"loss": 1.0073,
	"num_tokens": 67209770.0,
	"step": 170
	},
	{
	"epoch": 2.85,
	"grad_norm": 0.17204223694438378,
	"learning_rate": 1.073148202305988e-06,
	"loss": 1.0299,
	"num_tokens": 67598233.0,
	"step": 171
	},
	{
	"epoch": 2.8666666666666667,
	"grad_norm": 0.1646002907230293,
	"learning_rate": 1.0592806485631326e-06,
	"loss": 1.0028,
	"num_tokens": 68012178.0,
	"step": 172
	},
	{
	"epoch": 2.8833333333333333,
	"grad_norm": 0.1621295094035436,
	"learning_rate": 1.0468606754996326e-06,
	"loss": 1.011,
	"num_tokens": 68425764.0,
	"step": 173
	},
	{
	"epoch": 2.9,
	"grad_norm": 0.16407642945320758,
	"learning_rate": 1.0358923317642807e-06,
	"loss": 1.0109,
	"num_tokens": 68839975.0,
	"step": 174
	},
	{
	"epoch": 2.9166666666666665,
	"grad_norm": 0.16580311556428107,
	"learning_rate": 1.026379192805382e-06,
	"loss": 1.0169,
	"num_tokens": 69246450.0,
	"step": 175
	},
	{
	"epoch": 2.9333333333333336,
	"grad_norm": 0.16929203238909535,
	"learning_rate": 1.0183243597052312e-06,
	"loss": 1.0248,
	"num_tokens": 69641779.0,
	"step": 176
	},
	{
	"epoch": 2.95,
	"grad_norm": 0.1713775281517654,
	"learning_rate": 1.0117304581692261e-06,
	"loss": 1.0248,
	"num_tokens": 70032641.0,
	"step": 177
	},
	{
	"epoch": 2.966666666666667,
	"grad_norm": 0.16630787069638006,
	"learning_rate": 1.006599637669943e-06,
	"loss": 1.0119,
	"num_tokens": 70438823.0,
	"step": 178
	},
	{
	"epoch": 2.9833333333333334,
	"grad_norm": 0.1709557780917199,
	"learning_rate": 1.002933570746454e-06,
	"loss": 1.0371,
	"num_tokens": 70827059.0,
	"step": 179
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.16969752746392627,
	"learning_rate": 1.0007334524591145e-06,
	"loss": 1.0216,
	"num_tokens": 71219748.0,
	"step": 180
	},
	{
	"epoch": 3.0,
	"step": 180,
	"total_flos": 7960853185822720.0,
	"train_loss": 1.136186299390263,
	"train_runtime": 1970.9277,
	"train_samples_per_second": 11.635,
	"train_steps_per_second": 0.091
	}
	],
	"logging_steps": 1,
	"max_steps": 180,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 7960853185822720.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}