| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 3.0, | |
| "eval_steps": 500, | |
| "global_step": 180, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.20347688694992463, | |
| "learning_rate": 0.0, | |
| "loss": 1.3486, | |
| "num_tokens": 386694.0, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.20625713198769136, | |
| "learning_rate": 1.6666666666666667e-06, | |
| "loss": 1.355, | |
| "num_tokens": 763332.0, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.20639089022094934, | |
| "learning_rate": 3.3333333333333333e-06, | |
| "loss": 1.3491, | |
| "num_tokens": 1139716.0, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.19787801171510724, | |
| "learning_rate": 5e-06, | |
| "loss": 1.3138, | |
| "num_tokens": 1538652.0, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.21155316191785659, | |
| "learning_rate": 6.666666666666667e-06, | |
| "loss": 1.3685, | |
| "num_tokens": 1906687.0, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.20333238528313927, | |
| "learning_rate": 8.333333333333334e-06, | |
| "loss": 1.3338, | |
| "num_tokens": 2291916.0, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 0.20704300202558082, | |
| "learning_rate": 1e-05, | |
| "loss": 1.343, | |
| "num_tokens": 2681760.0, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 0.200172510985878, | |
| "learning_rate": 9.999266547540887e-06, | |
| "loss": 1.3083, | |
| "num_tokens": 3083275.0, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 0.21021419665409874, | |
| "learning_rate": 9.997066429253546e-06, | |
| "loss": 1.3093, | |
| "num_tokens": 3492333.0, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 0.22102553079194487, | |
| "learning_rate": 9.993400362330058e-06, | |
| "loss": 1.3402, | |
| "num_tokens": 3874036.0, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 0.21451572907277383, | |
| "learning_rate": 9.988269541830775e-06, | |
| "loss": 1.3099, | |
| "num_tokens": 4288115.0, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.222157701705125, | |
| "learning_rate": 9.98167564029477e-06, | |
| "loss": 1.3221, | |
| "num_tokens": 4688262.0, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 0.22082321401094135, | |
| "learning_rate": 9.97362080719462e-06, | |
| "loss": 1.3055, | |
| "num_tokens": 5091722.0, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 0.2334913037364633, | |
| "learning_rate": 9.96410766823572e-06, | |
| "loss": 1.3477, | |
| "num_tokens": 5471288.0, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 0.22036578370503598, | |
| "learning_rate": 9.95313932450037e-06, | |
| "loss": 1.2598, | |
| "num_tokens": 5889666.0, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.23194405129651766, | |
| "learning_rate": 9.94071935143687e-06, | |
| "loss": 1.2894, | |
| "num_tokens": 6300311.0, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 0.23407585318591353, | |
| "learning_rate": 9.926851797694012e-06, | |
| "loss": 1.2854, | |
| "num_tokens": 6715155.0, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.23135459279620388, | |
| "learning_rate": 9.911541183801312e-06, | |
| "loss": 1.2558, | |
| "num_tokens": 7135255.0, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.31666666666666665, | |
| "grad_norm": 0.2527426391154934, | |
| "learning_rate": 9.89479250069539e-06, | |
| "loss": 1.3322, | |
| "num_tokens": 7508317.0, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.3333333333333333, | |
| "grad_norm": 0.2581964091634313, | |
| "learning_rate": 9.876611208093055e-06, | |
| "loss": 1.3495, | |
| "num_tokens": 7875185.0, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.35, | |
| "grad_norm": 0.2539169503082972, | |
| "learning_rate": 9.857003232711535e-06, | |
| "loss": 1.2926, | |
| "num_tokens": 8278743.0, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.36666666666666664, | |
| "grad_norm": 0.264414189314964, | |
| "learning_rate": 9.835974966336504e-06, | |
| "loss": 1.3231, | |
| "num_tokens": 8653905.0, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.38333333333333336, | |
| "grad_norm": 0.2596398381573962, | |
| "learning_rate": 9.813533263738486e-06, | |
| "loss": 1.3017, | |
| "num_tokens": 9043909.0, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.4, | |
| "grad_norm": 0.2590655726065642, | |
| "learning_rate": 9.789685440438353e-06, | |
| "loss": 1.2981, | |
| "num_tokens": 9435837.0, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.4166666666666667, | |
| "grad_norm": 0.26113224709818267, | |
| "learning_rate": 9.764439270322612e-06, | |
| "loss": 1.3079, | |
| "num_tokens": 9830459.0, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.43333333333333335, | |
| "grad_norm": 0.2655126515114832, | |
| "learning_rate": 9.737802983109287e-06, | |
| "loss": 1.3126, | |
| "num_tokens": 10213657.0, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.45, | |
| "grad_norm": 0.2546059490248653, | |
| "learning_rate": 9.709785261665205e-06, | |
| "loss": 1.2483, | |
| "num_tokens": 10635429.0, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.4666666666666667, | |
| "grad_norm": 0.2588892922300372, | |
| "learning_rate": 9.680395239175563e-06, | |
| "loss": 1.2663, | |
| "num_tokens": 11041197.0, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.48333333333333334, | |
| "grad_norm": 0.25601357046830475, | |
| "learning_rate": 9.6496424961667e-06, | |
| "loss": 1.2446, | |
| "num_tokens": 11456416.0, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.5, | |
| "grad_norm": 0.27770472577518, | |
| "learning_rate": 9.617537057383055e-06, | |
| "loss": 1.3317, | |
| "num_tokens": 11819187.0, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.5166666666666667, | |
| "grad_norm": 0.25330373961895997, | |
| "learning_rate": 9.584089388519307e-06, | |
| "loss": 1.2292, | |
| "num_tokens": 12245580.0, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.2670015137570281, | |
| "learning_rate": 9.549310392808782e-06, | |
| "loss": 1.2598, | |
| "num_tokens": 12656812.0, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.55, | |
| "grad_norm": 0.272889308733812, | |
| "learning_rate": 9.51321140746922e-06, | |
| "loss": 1.2713, | |
| "num_tokens": 13051662.0, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.5666666666666667, | |
| "grad_norm": 0.26187078843325307, | |
| "learning_rate": 9.475804200007104e-06, | |
| "loss": 1.2418, | |
| "num_tokens": 13460138.0, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.5833333333333334, | |
| "grad_norm": 0.28115825416534995, | |
| "learning_rate": 9.437100964381674e-06, | |
| "loss": 1.2872, | |
| "num_tokens": 13839611.0, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.6, | |
| "grad_norm": 0.27101603479796127, | |
| "learning_rate": 9.397114317029975e-06, | |
| "loss": 1.2638, | |
| "num_tokens": 14235849.0, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.6166666666666667, | |
| "grad_norm": 0.27422617182381553, | |
| "learning_rate": 9.355857292754152e-06, | |
| "loss": 1.2492, | |
| "num_tokens": 14628658.0, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.6333333333333333, | |
| "grad_norm": 0.2759519060802432, | |
| "learning_rate": 9.31334334047239e-06, | |
| "loss": 1.2475, | |
| "num_tokens": 15022722.0, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.65, | |
| "grad_norm": 0.27417759664328156, | |
| "learning_rate": 9.269586318834841e-06, | |
| "loss": 1.253, | |
| "num_tokens": 15412919.0, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.6666666666666666, | |
| "grad_norm": 0.2724381262102165, | |
| "learning_rate": 9.224600491706009e-06, | |
| "loss": 1.2361, | |
| "num_tokens": 15808067.0, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.6833333333333333, | |
| "grad_norm": 0.27167034827946607, | |
| "learning_rate": 9.178400523515013e-06, | |
| "loss": 1.2219, | |
| "num_tokens": 16216305.0, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 0.7, | |
| "grad_norm": 0.278161266618282, | |
| "learning_rate": 9.131001474475318e-06, | |
| "loss": 1.2385, | |
| "num_tokens": 16614956.0, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 0.7166666666666667, | |
| "grad_norm": 0.2719974106719481, | |
| "learning_rate": 9.082418795675397e-06, | |
| "loss": 1.2342, | |
| "num_tokens": 17017704.0, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 0.7333333333333333, | |
| "grad_norm": 0.2770889606164237, | |
| "learning_rate": 9.032668324042027e-06, | |
| "loss": 1.2288, | |
| "num_tokens": 17417441.0, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 0.75, | |
| "grad_norm": 0.26682098089617995, | |
| "learning_rate": 8.981766277177764e-06, | |
| "loss": 1.207, | |
| "num_tokens": 17836960.0, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.7666666666666667, | |
| "grad_norm": 0.2766994928342326, | |
| "learning_rate": 8.929729248074364e-06, | |
| "loss": 1.2211, | |
| "num_tokens": 18229148.0, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 0.7833333333333333, | |
| "grad_norm": 0.2711486975317484, | |
| "learning_rate": 8.87657419970381e-06, | |
| "loss": 1.2009, | |
| "num_tokens": 18629493.0, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 0.8, | |
| "grad_norm": 0.2797352969899827, | |
| "learning_rate": 8.822318459488744e-06, | |
| "loss": 1.2246, | |
| "num_tokens": 19016532.0, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.8166666666666667, | |
| "grad_norm": 0.27267187676057414, | |
| "learning_rate": 8.76697971365409e-06, | |
| "loss": 1.2109, | |
| "num_tokens": 19420153.0, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 0.8333333333333334, | |
| "grad_norm": 0.280274042203503, | |
| "learning_rate": 8.71057600146172e-06, | |
| "loss": 1.243, | |
| "num_tokens": 19799943.0, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.85, | |
| "grad_norm": 0.2697272976062216, | |
| "learning_rate": 8.65312570933004e-06, | |
| "loss": 1.1983, | |
| "num_tokens": 20211312.0, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 0.8666666666666667, | |
| "grad_norm": 0.2760610482181004, | |
| "learning_rate": 8.594647564840407e-06, | |
| "loss": 1.2089, | |
| "num_tokens": 20601752.0, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 0.8833333333333333, | |
| "grad_norm": 0.26980844262247333, | |
| "learning_rate": 8.535160630632312e-06, | |
| "loss": 1.1872, | |
| "num_tokens": 21018915.0, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 0.9, | |
| "grad_norm": 0.2670251155691136, | |
| "learning_rate": 8.474684298189402e-06, | |
| "loss": 1.1572, | |
| "num_tokens": 21431176.0, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 0.9166666666666666, | |
| "grad_norm": 0.27706551281453934, | |
| "learning_rate": 8.413238281518225e-06, | |
| "loss": 1.2052, | |
| "num_tokens": 21813557.0, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.9333333333333333, | |
| "grad_norm": 0.27497110779177597, | |
| "learning_rate": 8.350842610721908e-06, | |
| "loss": 1.2038, | |
| "num_tokens": 22194786.0, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.95, | |
| "grad_norm": 0.2769879410931276, | |
| "learning_rate": 8.287517625470754e-06, | |
| "loss": 1.2091, | |
| "num_tokens": 22567671.0, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 0.9666666666666667, | |
| "grad_norm": 0.27322345022544986, | |
| "learning_rate": 8.223283968371945e-06, | |
| "loss": 1.1946, | |
| "num_tokens": 22950599.0, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 0.9833333333333333, | |
| "grad_norm": 0.2684318343815342, | |
| "learning_rate": 8.158162578240479e-06, | |
| "loss": 1.1776, | |
| "num_tokens": 23343994.0, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.2642150542616249, | |
| "learning_rate": 8.09217468327358e-06, | |
| "loss": 1.1754, | |
| "num_tokens": 23741790.0, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 1.0166666666666666, | |
| "grad_norm": 0.27624640531200356, | |
| "learning_rate": 8.025341794130722e-06, | |
| "loss": 1.2066, | |
| "num_tokens": 24119088.0, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 1.0333333333333334, | |
| "grad_norm": 0.26107106750383646, | |
| "learning_rate": 7.957685696921637e-06, | |
| "loss": 1.1654, | |
| "num_tokens": 24525980.0, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 1.05, | |
| "grad_norm": 0.265974744467562, | |
| "learning_rate": 7.889228446104492e-06, | |
| "loss": 1.1749, | |
| "num_tokens": 24923505.0, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 1.0666666666666667, | |
| "grad_norm": 0.24949808024054398, | |
| "learning_rate": 7.8199923572966e-06, | |
| "loss": 1.1444, | |
| "num_tokens": 25357629.0, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 1.0833333333333333, | |
| "grad_norm": 0.2565612036460563, | |
| "learning_rate": 7.75e-06, | |
| "loss": 1.154, | |
| "num_tokens": 25764560.0, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 1.1, | |
| "grad_norm": 0.2477745857863104, | |
| "learning_rate": 7.679274190244288e-06, | |
| "loss": 1.1228, | |
| "num_tokens": 26191304.0, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 1.1166666666666667, | |
| "grad_norm": 0.258895924602746, | |
| "learning_rate": 7.607837983149057e-06, | |
| "loss": 1.1831, | |
| "num_tokens": 26571577.0, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 1.1333333333333333, | |
| "grad_norm": 0.2469334775500094, | |
| "learning_rate": 7.535714665408422e-06, | |
| "loss": 1.1398, | |
| "num_tokens": 26977355.0, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 1.15, | |
| "grad_norm": 0.24532411612887967, | |
| "learning_rate": 7.462927747700054e-06, | |
| "loss": 1.1327, | |
| "num_tokens": 27386485.0, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 1.1666666666666667, | |
| "grad_norm": 0.24488318952652433, | |
| "learning_rate": 7.389500957021192e-06, | |
| "loss": 1.1393, | |
| "num_tokens": 27796862.0, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 1.1833333333333333, | |
| "grad_norm": 0.2519440956249067, | |
| "learning_rate": 7.31545822895414e-06, | |
| "loss": 1.1681, | |
| "num_tokens": 28173474.0, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 1.2, | |
| "grad_norm": 0.25924293527453895, | |
| "learning_rate": 7.240823699863777e-06, | |
| "loss": 1.199, | |
| "num_tokens": 28525368.0, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 1.2166666666666668, | |
| "grad_norm": 0.23840487943542193, | |
| "learning_rate": 7.165621699029615e-06, | |
| "loss": 1.125, | |
| "num_tokens": 28932221.0, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 1.2333333333333334, | |
| "grad_norm": 0.2399941384081776, | |
| "learning_rate": 7.0898767407149614e-06, | |
| "loss": 1.1409, | |
| "num_tokens": 29318980.0, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 1.25, | |
| "grad_norm": 0.2415610307343174, | |
| "learning_rate": 7.013613516175788e-06, | |
| "loss": 1.1627, | |
| "num_tokens": 29692583.0, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 1.2666666666666666, | |
| "grad_norm": 0.2379496675858682, | |
| "learning_rate": 6.93685688561191e-06, | |
| "loss": 1.1414, | |
| "num_tokens": 30070786.0, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 1.2833333333333332, | |
| "grad_norm": 0.2232222159706024, | |
| "learning_rate": 6.859631870063077e-06, | |
| "loss": 1.0842, | |
| "num_tokens": 30493521.0, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 1.3, | |
| "grad_norm": 0.24018487371689082, | |
| "learning_rate": 6.781963643252651e-06, | |
| "loss": 1.1551, | |
| "num_tokens": 30867731.0, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 1.3166666666666667, | |
| "grad_norm": 0.2220727500217713, | |
| "learning_rate": 6.703877523381495e-06, | |
| "loss": 1.1066, | |
| "num_tokens": 31278707.0, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 1.3333333333333333, | |
| "grad_norm": 0.22248227512031088, | |
| "learning_rate": 6.6253989648747845e-06, | |
| "loss": 1.1136, | |
| "num_tokens": 31686041.0, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 1.35, | |
| "grad_norm": 0.22314141984344454, | |
| "learning_rate": 6.546553550084398e-06, | |
| "loss": 1.1208, | |
| "num_tokens": 32077613.0, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 1.3666666666666667, | |
| "grad_norm": 0.23480292959822424, | |
| "learning_rate": 6.46736698094961e-06, | |
| "loss": 1.1651, | |
| "num_tokens": 32436972.0, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 1.3833333333333333, | |
| "grad_norm": 0.2246435233255602, | |
| "learning_rate": 6.387865070618801e-06, | |
| "loss": 1.1314, | |
| "num_tokens": 32820896.0, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 1.4, | |
| "grad_norm": 0.2119082631339848, | |
| "learning_rate": 6.308073735034923e-06, | |
| "loss": 1.0982, | |
| "num_tokens": 33232148.0, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 1.4166666666666667, | |
| "grad_norm": 0.2193164071065741, | |
| "learning_rate": 6.228018984487443e-06, | |
| "loss": 1.1228, | |
| "num_tokens": 33617847.0, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 1.4333333333333333, | |
| "grad_norm": 0.21099593611304157, | |
| "learning_rate": 6.147726915133536e-06, | |
| "loss": 1.0973, | |
| "num_tokens": 34013743.0, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 1.45, | |
| "grad_norm": 0.20511115499955337, | |
| "learning_rate": 6.067223700491303e-06, | |
| "loss": 1.0974, | |
| "num_tokens": 34426281.0, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 1.4666666666666668, | |
| "grad_norm": 0.21317751989751124, | |
| "learning_rate": 5.986535582907739e-06, | |
| "loss": 1.1069, | |
| "num_tokens": 34820833.0, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 1.4833333333333334, | |
| "grad_norm": 0.21269502102858076, | |
| "learning_rate": 5.905688865004295e-06, | |
| "loss": 1.115, | |
| "num_tokens": 35204582.0, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 1.5, | |
| "grad_norm": 0.21167063431095542, | |
| "learning_rate": 5.8247099011027745e-06, | |
| "loss": 1.1103, | |
| "num_tokens": 35593390.0, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 1.5166666666666666, | |
| "grad_norm": 0.1972785443846935, | |
| "learning_rate": 5.74362508863438e-06, | |
| "loss": 1.0748, | |
| "num_tokens": 36016331.0, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 0.2045550078663756, | |
| "learning_rate": 5.662460859534714e-06, | |
| "loss": 1.0957, | |
| "num_tokens": 36413156.0, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 1.55, | |
| "grad_norm": 0.20540235044977084, | |
| "learning_rate": 5.581243671627522e-06, | |
| "loss": 1.1125, | |
| "num_tokens": 36798646.0, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 1.5666666666666667, | |
| "grad_norm": 0.21302477169893083, | |
| "learning_rate": 5.500000000000001e-06, | |
| "loss": 1.1283, | |
| "num_tokens": 37163989.0, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 1.5833333333333335, | |
| "grad_norm": 0.19913299220506073, | |
| "learning_rate": 5.418756328372477e-06, | |
| "loss": 1.0911, | |
| "num_tokens": 37561194.0, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 1.6, | |
| "grad_norm": 0.20283661583890317, | |
| "learning_rate": 5.337539140465287e-06, | |
| "loss": 1.0993, | |
| "num_tokens": 37949527.0, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 1.6166666666666667, | |
| "grad_norm": 0.19832616156846167, | |
| "learning_rate": 5.256374911365621e-06, | |
| "loss": 1.0863, | |
| "num_tokens": 38339423.0, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 1.6333333333333333, | |
| "grad_norm": 0.1874399133837087, | |
| "learning_rate": 5.175290098897229e-06, | |
| "loss": 1.0578, | |
| "num_tokens": 38766377.0, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 1.65, | |
| "grad_norm": 0.20183772138662948, | |
| "learning_rate": 5.094311134995707e-06, | |
| "loss": 1.1014, | |
| "num_tokens": 39147856.0, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 1.6666666666666665, | |
| "grad_norm": 0.18935820133852294, | |
| "learning_rate": 5.013464417092263e-06, | |
| "loss": 1.06, | |
| "num_tokens": 39566905.0, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 1.6833333333333333, | |
| "grad_norm": 0.19500218855771653, | |
| "learning_rate": 4.932776299508699e-06, | |
| "loss": 1.0898, | |
| "num_tokens": 39958103.0, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 1.7, | |
| "grad_norm": 0.1984120119983971, | |
| "learning_rate": 4.852273084866464e-06, | |
| "loss": 1.0953, | |
| "num_tokens": 40340633.0, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 1.7166666666666668, | |
| "grad_norm": 0.18662319109011208, | |
| "learning_rate": 4.771981015512559e-06, | |
| "loss": 1.0499, | |
| "num_tokens": 40751526.0, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 1.7333333333333334, | |
| "grad_norm": 0.18850360756901802, | |
| "learning_rate": 4.6919262649650775e-06, | |
| "loss": 1.0612, | |
| "num_tokens": 41164499.0, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 1.75, | |
| "grad_norm": 0.18948839687314148, | |
| "learning_rate": 4.6121349293812015e-06, | |
| "loss": 1.0602, | |
| "num_tokens": 41570804.0, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 1.7666666666666666, | |
| "grad_norm": 0.1952823503095174, | |
| "learning_rate": 4.532633019050392e-06, | |
| "loss": 1.0828, | |
| "num_tokens": 41958143.0, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 1.7833333333333332, | |
| "grad_norm": 0.2004697749452997, | |
| "learning_rate": 4.453446449915605e-06, | |
| "loss": 1.0882, | |
| "num_tokens": 42328835.0, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 1.8, | |
| "grad_norm": 0.20043715480843116, | |
| "learning_rate": 4.374601035125218e-06, | |
| "loss": 1.1103, | |
| "num_tokens": 42695932.0, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 1.8166666666666667, | |
| "grad_norm": 0.18541923140804248, | |
| "learning_rate": 4.296122476618507e-06, | |
| "loss": 1.0526, | |
| "num_tokens": 43099402.0, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 1.8333333333333335, | |
| "grad_norm": 0.1862223406993093, | |
| "learning_rate": 4.21803635674735e-06, | |
| "loss": 1.0582, | |
| "num_tokens": 43497618.0, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 1.85, | |
| "grad_norm": 0.1824176306793717, | |
| "learning_rate": 4.140368129936923e-06, | |
| "loss": 1.0536, | |
| "num_tokens": 43910914.0, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 1.8666666666666667, | |
| "grad_norm": 0.18615542429330748, | |
| "learning_rate": 4.0631431143880915e-06, | |
| "loss": 1.0666, | |
| "num_tokens": 44306362.0, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 1.8833333333333333, | |
| "grad_norm": 0.19057891231928828, | |
| "learning_rate": 3.986386483824212e-06, | |
| "loss": 1.0591, | |
| "num_tokens": 44690072.0, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 1.9, | |
| "grad_norm": 0.18144852235493494, | |
| "learning_rate": 3.91012325928504e-06, | |
| "loss": 1.0461, | |
| "num_tokens": 45097796.0, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 1.9166666666666665, | |
| "grad_norm": 0.17892493822741345, | |
| "learning_rate": 3.834378300970385e-06, | |
| "loss": 1.0363, | |
| "num_tokens": 45507999.0, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 1.9333333333333333, | |
| "grad_norm": 0.18970747368366223, | |
| "learning_rate": 3.759176300136225e-06, | |
| "loss": 1.0763, | |
| "num_tokens": 45893001.0, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 1.95, | |
| "grad_norm": 0.1926227682132123, | |
| "learning_rate": 3.684541771045862e-06, | |
| "loss": 1.0789, | |
| "num_tokens": 46266011.0, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 1.9666666666666668, | |
| "grad_norm": 0.18713312349431102, | |
| "learning_rate": 3.6104990429788102e-06, | |
| "loss": 1.0664, | |
| "num_tokens": 46654457.0, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 1.9833333333333334, | |
| "grad_norm": 0.17762644990094084, | |
| "learning_rate": 3.5370722522999468e-06, | |
| "loss": 1.0371, | |
| "num_tokens": 47068222.0, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.17598895038174286, | |
| "learning_rate": 3.4642853345915796e-06, | |
| "loss": 1.0344, | |
| "num_tokens": 47486208.0, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 2.0166666666666666, | |
| "grad_norm": 0.19047491721871096, | |
| "learning_rate": 3.392162016850945e-06, | |
| "loss": 1.0609, | |
| "num_tokens": 47861567.0, | |
| "step": 121 | |
| }, | |
| { | |
| "epoch": 2.033333333333333, | |
| "grad_norm": 0.179431227403987, | |
| "learning_rate": 3.3207258097557136e-06, | |
| "loss": 1.0465, | |
| "num_tokens": 48258885.0, | |
| "step": 122 | |
| }, | |
| { | |
| "epoch": 2.05, | |
| "grad_norm": 0.18620030502711396, | |
| "learning_rate": 3.2500000000000015e-06, | |
| "loss": 1.077, | |
| "num_tokens": 48642658.0, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 2.066666666666667, | |
| "grad_norm": 0.17601175312392317, | |
| "learning_rate": 3.180007642703402e-06, | |
| "loss": 1.0278, | |
| "num_tokens": 49052624.0, | |
| "step": 124 | |
| }, | |
| { | |
| "epoch": 2.0833333333333335, | |
| "grad_norm": 0.17518089510620072, | |
| "learning_rate": 3.1107715538955107e-06, | |
| "loss": 1.0214, | |
| "num_tokens": 49459791.0, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 2.1, | |
| "grad_norm": 0.18939640492202073, | |
| "learning_rate": 3.042314303078364e-06, | |
| "loss": 1.0784, | |
| "num_tokens": 49827854.0, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 2.1166666666666667, | |
| "grad_norm": 0.17031698650894725, | |
| "learning_rate": 2.9746582058692803e-06, | |
| "loss": 1.0305, | |
| "num_tokens": 50245908.0, | |
| "step": 127 | |
| }, | |
| { | |
| "epoch": 2.1333333333333333, | |
| "grad_norm": 0.1809232668791668, | |
| "learning_rate": 2.9078253167264225e-06, | |
| "loss": 1.0624, | |
| "num_tokens": 50630892.0, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 2.15, | |
| "grad_norm": 0.17353712561408433, | |
| "learning_rate": 2.841837421759521e-06, | |
| "loss": 1.0378, | |
| "num_tokens": 51034329.0, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 2.1666666666666665, | |
| "grad_norm": 0.17970079826518376, | |
| "learning_rate": 2.7767160316280583e-06, | |
| "loss": 1.0503, | |
| "num_tokens": 51424755.0, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 2.183333333333333, | |
| "grad_norm": 0.17266580648638577, | |
| "learning_rate": 2.712482374529247e-06, | |
| "loss": 1.0549, | |
| "num_tokens": 51824755.0, | |
| "step": 131 | |
| }, | |
| { | |
| "epoch": 2.2, | |
| "grad_norm": 0.17701164265308508, | |
| "learning_rate": 2.6491573892780944e-06, | |
| "loss": 1.0562, | |
| "num_tokens": 52216263.0, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 2.216666666666667, | |
| "grad_norm": 0.18143247436396157, | |
| "learning_rate": 2.586761718481776e-06, | |
| "loss": 1.0555, | |
| "num_tokens": 52598901.0, | |
| "step": 133 | |
| }, | |
| { | |
| "epoch": 2.2333333333333334, | |
| "grad_norm": 0.18534031298473655, | |
| "learning_rate": 2.5253157018105994e-06, | |
| "loss": 1.0889, | |
| "num_tokens": 52970634.0, | |
| "step": 134 | |
| }, | |
| { | |
| "epoch": 2.25, | |
| "grad_norm": 0.17602172639297559, | |
| "learning_rate": 2.464839369367688e-06, | |
| "loss": 1.0482, | |
| "num_tokens": 53361046.0, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 2.2666666666666666, | |
| "grad_norm": 0.1686806926873599, | |
| "learning_rate": 2.405352435159595e-06, | |
| "loss": 1.0276, | |
| "num_tokens": 53778131.0, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 2.283333333333333, | |
| "grad_norm": 0.17635036831945994, | |
| "learning_rate": 2.34687429066996e-06, | |
| "loss": 1.0325, | |
| "num_tokens": 54168768.0, | |
| "step": 137 | |
| }, | |
| { | |
| "epoch": 2.3, | |
| "grad_norm": 0.1802907676645608, | |
| "learning_rate": 2.28942399853828e-06, | |
| "loss": 1.0574, | |
| "num_tokens": 54548763.0, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 2.3166666666666664, | |
| "grad_norm": 0.16174507905935168, | |
| "learning_rate": 2.2330202863459123e-06, | |
| "loss": 0.9965, | |
| "num_tokens": 54983583.0, | |
| "step": 139 | |
| }, | |
| { | |
| "epoch": 2.3333333333333335, | |
| "grad_norm": 0.1681042526520144, | |
| "learning_rate": 2.1776815405112567e-06, | |
| "loss": 1.029, | |
| "num_tokens": 55390401.0, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 2.35, | |
| "grad_norm": 0.17190618755323878, | |
| "learning_rate": 2.12342580029619e-06, | |
| "loss": 1.0338, | |
| "num_tokens": 55790352.0, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 2.3666666666666667, | |
| "grad_norm": 0.17063472360536117, | |
| "learning_rate": 2.0702707519256365e-06, | |
| "loss": 1.0331, | |
| "num_tokens": 56198140.0, | |
| "step": 142 | |
| }, | |
| { | |
| "epoch": 2.3833333333333333, | |
| "grad_norm": 0.17429459442868253, | |
| "learning_rate": 2.0182337228222366e-06, | |
| "loss": 1.0451, | |
| "num_tokens": 56586902.0, | |
| "step": 143 | |
| }, | |
| { | |
| "epoch": 2.4, | |
| "grad_norm": 0.17254688247815245, | |
| "learning_rate": 1.9673316759579752e-06, | |
| "loss": 1.0341, | |
| "num_tokens": 56980540.0, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 2.4166666666666665, | |
| "grad_norm": 0.16911763310007524, | |
| "learning_rate": 1.9175812043246034e-06, | |
| "loss": 1.0303, | |
| "num_tokens": 57379690.0, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 2.4333333333333336, | |
| "grad_norm": 0.1803163513113741, | |
| "learning_rate": 1.8689985255246834e-06, | |
| "loss": 1.055, | |
| "num_tokens": 57759503.0, | |
| "step": 146 | |
| }, | |
| { | |
| "epoch": 2.45, | |
| "grad_norm": 0.17971016887952232, | |
| "learning_rate": 1.821599476484987e-06, | |
| "loss": 1.0493, | |
| "num_tokens": 58137010.0, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 2.466666666666667, | |
| "grad_norm": 0.1697204076438841, | |
| "learning_rate": 1.7753995082939932e-06, | |
| "loss": 1.0359, | |
| "num_tokens": 58540304.0, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 2.4833333333333334, | |
| "grad_norm": 0.17332591146494206, | |
| "learning_rate": 1.7304136811651595e-06, | |
| "loss": 1.0302, | |
| "num_tokens": 58940195.0, | |
| "step": 149 | |
| }, | |
| { | |
| "epoch": 2.5, | |
| "grad_norm": 0.17140575088650803, | |
| "learning_rate": 1.6866566595276108e-06, | |
| "loss": 1.0417, | |
| "num_tokens": 59334134.0, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 2.5166666666666666, | |
| "grad_norm": 0.1778607882313274, | |
| "learning_rate": 1.6441427072458493e-06, | |
| "loss": 1.0546, | |
| "num_tokens": 59715949.0, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 2.533333333333333, | |
| "grad_norm": 0.17001188018404773, | |
| "learning_rate": 1.602885682970026e-06, | |
| "loss": 1.0291, | |
| "num_tokens": 60116409.0, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 2.55, | |
| "grad_norm": 0.16633871689470098, | |
| "learning_rate": 1.5628990356183267e-06, | |
| "loss": 1.0071, | |
| "num_tokens": 60525002.0, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 2.5666666666666664, | |
| "grad_norm": 0.16701897205859903, | |
| "learning_rate": 1.5241957999928974e-06, | |
| "loss": 1.0248, | |
| "num_tokens": 60932270.0, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 2.5833333333333335, | |
| "grad_norm": 0.1660792758683251, | |
| "learning_rate": 1.48678859253078e-06, | |
| "loss": 1.0202, | |
| "num_tokens": 61334649.0, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 2.6, | |
| "grad_norm": 0.1682034509904724, | |
| "learning_rate": 1.4506896071912207e-06, | |
| "loss": 1.0284, | |
| "num_tokens": 61734959.0, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 2.6166666666666667, | |
| "grad_norm": 0.1668165907033785, | |
| "learning_rate": 1.4159106114806943e-06, | |
| "loss": 1.0136, | |
| "num_tokens": 62136249.0, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 2.6333333333333333, | |
| "grad_norm": 0.16653472110987996, | |
| "learning_rate": 1.3824629426169453e-06, | |
| "loss": 1.0189, | |
| "num_tokens": 62547232.0, | |
| "step": 158 | |
| }, | |
| { | |
| "epoch": 2.65, | |
| "grad_norm": 0.1759320969398424, | |
| "learning_rate": 1.3503575038333012e-06, | |
| "loss": 1.0453, | |
| "num_tokens": 62925792.0, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 2.6666666666666665, | |
| "grad_norm": 0.17455574404880736, | |
| "learning_rate": 1.319604760824439e-06, | |
| "loss": 1.0467, | |
| "num_tokens": 63307635.0, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 2.6833333333333336, | |
| "grad_norm": 0.17771148713750815, | |
| "learning_rate": 1.290214738334796e-06, | |
| "loss": 1.0473, | |
| "num_tokens": 63682238.0, | |
| "step": 161 | |
| }, | |
| { | |
| "epoch": 2.7, | |
| "grad_norm": 0.16866162479303157, | |
| "learning_rate": 1.2621970168907142e-06, | |
| "loss": 1.0124, | |
| "num_tokens": 64080742.0, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 2.716666666666667, | |
| "grad_norm": 0.17158033467846245, | |
| "learning_rate": 1.2355607296773896e-06, | |
| "loss": 1.0378, | |
| "num_tokens": 64470953.0, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 2.7333333333333334, | |
| "grad_norm": 0.17932832515821062, | |
| "learning_rate": 1.2103145595616483e-06, | |
| "loss": 1.0602, | |
| "num_tokens": 64841108.0, | |
| "step": 164 | |
| }, | |
| { | |
| "epoch": 2.75, | |
| "grad_norm": 0.17282896762254346, | |
| "learning_rate": 1.1864667362615143e-06, | |
| "loss": 1.0286, | |
| "num_tokens": 65231331.0, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 2.7666666666666666, | |
| "grad_norm": 0.17133392202836673, | |
| "learning_rate": 1.164025033663497e-06, | |
| "loss": 1.0383, | |
| "num_tokens": 65618779.0, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 2.783333333333333, | |
| "grad_norm": 0.1839963706847892, | |
| "learning_rate": 1.1429967672884653e-06, | |
| "loss": 1.0561, | |
| "num_tokens": 65984834.0, | |
| "step": 167 | |
| }, | |
| { | |
| "epoch": 2.8, | |
| "grad_norm": 0.16415649947514158, | |
| "learning_rate": 1.1233887919069461e-06, | |
| "loss": 1.0153, | |
| "num_tokens": 66393854.0, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 2.8166666666666664, | |
| "grad_norm": 0.16784485749788497, | |
| "learning_rate": 1.1052074993046102e-06, | |
| "loss": 1.0249, | |
| "num_tokens": 66790920.0, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 2.8333333333333335, | |
| "grad_norm": 0.16122888659021065, | |
| "learning_rate": 1.0884588161986893e-06, | |
| "loss": 1.0073, | |
| "num_tokens": 67209770.0, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 2.85, | |
| "grad_norm": 0.17204223694438378, | |
| "learning_rate": 1.073148202305988e-06, | |
| "loss": 1.0299, | |
| "num_tokens": 67598233.0, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 2.8666666666666667, | |
| "grad_norm": 0.1646002907230293, | |
| "learning_rate": 1.0592806485631326e-06, | |
| "loss": 1.0028, | |
| "num_tokens": 68012178.0, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 2.8833333333333333, | |
| "grad_norm": 0.1621295094035436, | |
| "learning_rate": 1.0468606754996326e-06, | |
| "loss": 1.011, | |
| "num_tokens": 68425764.0, | |
| "step": 173 | |
| }, | |
| { | |
| "epoch": 2.9, | |
| "grad_norm": 0.16407642945320758, | |
| "learning_rate": 1.0358923317642807e-06, | |
| "loss": 1.0109, | |
| "num_tokens": 68839975.0, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 2.9166666666666665, | |
| "grad_norm": 0.16580311556428107, | |
| "learning_rate": 1.026379192805382e-06, | |
| "loss": 1.0169, | |
| "num_tokens": 69246450.0, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 2.9333333333333336, | |
| "grad_norm": 0.16929203238909535, | |
| "learning_rate": 1.0183243597052312e-06, | |
| "loss": 1.0248, | |
| "num_tokens": 69641779.0, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 2.95, | |
| "grad_norm": 0.1713775281517654, | |
| "learning_rate": 1.0117304581692261e-06, | |
| "loss": 1.0248, | |
| "num_tokens": 70032641.0, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 2.966666666666667, | |
| "grad_norm": 0.16630787069638006, | |
| "learning_rate": 1.006599637669943e-06, | |
| "loss": 1.0119, | |
| "num_tokens": 70438823.0, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 2.9833333333333334, | |
| "grad_norm": 0.1709557780917199, | |
| "learning_rate": 1.002933570746454e-06, | |
| "loss": 1.0371, | |
| "num_tokens": 70827059.0, | |
| "step": 179 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.16969752746392627, | |
| "learning_rate": 1.0007334524591145e-06, | |
| "loss": 1.0216, | |
| "num_tokens": 71219748.0, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "step": 180, | |
| "total_flos": 7960853185822720.0, | |
| "train_loss": 1.136186299390263, | |
| "train_runtime": 1970.9277, | |
| "train_samples_per_second": 11.635, | |
| "train_steps_per_second": 0.091 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 180, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 500, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 7960853185822720.0, | |
| "train_batch_size": 8, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |