SAC算法训练奖励曲线(200万步训练)。