1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41
| {'loss': 0.695, 'grad_norm': 2.6663498878479004, 'learning_rate': 1.9393939393939395e-05, 'epoch': 0.09} {'loss': 0.5331, 'grad_norm': 2.370398759841919, 'learning_rate': 1.8787878787878792e-05, 'epoch': 0.18} {'loss': 0.4756, 'grad_norm': 3.2594058513641357, 'learning_rate': 1.8181818181818182e-05, 'epoch': 0.27} {'loss': 0.4075, 'grad_norm': 3.2505533695220947, 'learning_rate': 1.7575757575757576e-05, 'epoch': 0.36} {'loss': 0.3473, 'grad_norm': 3.513852834701538, 'learning_rate': 1.6969696969696972e-05, 'epoch': 0.45} {'loss': 0.3788, 'grad_norm': 3.031680107116699, 'learning_rate': 1.6363636363636366e-05, 'epoch': 0.55} {'loss': 0.2907, 'grad_norm': 3.0086677074432373, 'learning_rate': 1.575757575757576e-05, 'epoch': 0.64} {'loss': 0.3491, 'grad_norm': 3.75600528717041, 'learning_rate': 1.5151515151515153e-05, 'epoch': 0.73} {'loss': 0.319, 'grad_norm': 3.8564631938934326, 'learning_rate': 1.4545454545454546e-05, 'epoch': 0.82} {'loss': 0.2983, 'grad_norm': 5.228195667266846, 'learning_rate': 1.3939393939393942e-05, 'epoch': 0.91} {'loss': 0.3176, 'grad_norm': 5.216794967651367, 'learning_rate': 1.3333333333333333e-05, 'epoch': 1.0} {'eval_loss': 0.2999931573867798, 'eval_accuracy': 0.87001287001287, 'eval_f1': 0.9058713886300093, 'eval_runtime': 1.5604, 'eval_samples_per_second': 497.953, 'eval_steps_per_second': 4.486, 'epoch': 1.0} {'loss': 0.2817, 'grad_norm': 4.889962673187256, 'learning_rate': 1.2727272727272728e-05, 'epoch': 1.09} {'loss': 0.2696, 'grad_norm': 4.202088356018066, 'learning_rate': 1.2121212121212122e-05, 'epoch': 1.18} {'loss': 0.2653, 'grad_norm': 4.869167327880859, 'learning_rate': 1.1515151515151517e-05, 'epoch': 1.27} {'loss': 0.2979, 'grad_norm': 2.6885597705841064, 'learning_rate': 1.0909090909090909e-05, 'epoch': 1.36} {'loss': 0.2692, 'grad_norm': 6.478630065917969, 'learning_rate': 1.0303030303030304e-05, 'epoch': 1.45} {'loss': 0.2679, 'grad_norm': 3.963503360748291, 'learning_rate': 9.696969696969698e-06, 'epoch': 1.55} {'loss': 0.232, 'grad_norm': 5.782787799835205, 'learning_rate': 9.090909090909091e-06, 'epoch': 1.64} {'loss': 0.2853, 'grad_norm': 2.8020851612091064, 'learning_rate': 8.484848484848486e-06, 'epoch': 1.73} {'loss': 0.2649, 'grad_norm': 5.869559288024902, 'learning_rate': 7.87878787878788e-06, 'epoch': 1.82} {'loss': 0.2884, 'grad_norm': 3.7125296592712402, 'learning_rate': 7.272727272727273e-06, 'epoch': 1.91} {'loss': 0.242, 'grad_norm': 8.284714698791504, 'learning_rate': 6.666666666666667e-06, 'epoch': 2.0} {'eval_loss': 0.2777193486690521, 'eval_accuracy': 0.8777348777348777, 'eval_f1': 0.9107981220657277, 'eval_runtime': 1.5624, 'eval_samples_per_second': 497.316, 'eval_steps_per_second': 4.48, 'epoch': 2.0} {'loss': 0.2479, 'grad_norm': 2.815223455429077, 'learning_rate': 6.060606060606061e-06, 'epoch': 2.09} {'loss': 0.2323, 'grad_norm': 6.272286415100098, 'learning_rate': 5.4545454545454545e-06, 'epoch': 2.18} {'loss': 0.2148, 'grad_norm': 3.377030372619629, 'learning_rate': 4.848484848484849e-06, 'epoch': 2.27} {'loss': 0.2133, 'grad_norm': 3.9532928466796875, 'learning_rate': 4.242424242424243e-06, 'epoch': 2.36} {'loss': 0.2004, 'grad_norm': 3.3170342445373535, 'learning_rate': 3.6363636363636366e-06, 'epoch': 2.45} {'loss': 0.2276, 'grad_norm': 3.1911683082580566, 'learning_rate': 3.0303030303030305e-06, 'epoch': 2.55} {'loss': 0.2422, 'grad_norm': 6.351240634918213, 'learning_rate': 2.4242424242424244e-06, 'epoch': 2.64} {'loss': 0.2076, 'grad_norm': 2.9479126930236816, 'learning_rate': 1.8181818181818183e-06, 'epoch': 2.73} {'loss': 0.2391, 'grad_norm': 3.8990724086761475, 'learning_rate': 1.2121212121212122e-06, 'epoch': 2.82} {'loss': 0.2649, 'grad_norm': 2.662543535232544, 'learning_rate': 6.060606060606061e-07, 'epoch': 2.91} {'loss': 0.2339, 'grad_norm': 3.9215333461761475, 'learning_rate': 0.0, 'epoch': 3.0} {'eval_loss': 0.27600279450416565, 'eval_accuracy': 0.8803088803088803, 'eval_f1': 0.9118483412322275, 'eval_runtime': 1.5647, 'eval_samples_per_second': 496.58, 'eval_steps_per_second': 4.474, 'epoch': 3.0} {'train_runtime': 134.6169, 'train_samples_per_second': 155.731, 'train_steps_per_second': 2.451, 'train_loss': 0.29999446507656213, 'epoch': 3.0} 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 330/330 [02:14<00:00, 2.45it/s] 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00, 5.39it/s] 输入:这家酒店真的很差,我再也不会来了, 预测:差评 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:01<00:00, 5.44it/s]
|