records/110824_CastBf16/a833bed8-2fa8-4cfe-af05-58c1cc48bc30.txt

====================================================================================================
import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' \sim Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = A @ X
        X = a * X + b * B + c * A @ B
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    if group['nesterov']:
                        g = g.add(buf, alpha=momentum)
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            self.seq_len_cached = seq_len
            t = torch.arange(seq_len, device=x.device).type_as(self.inv_freq)
            freqs = torch.outer(t, self.inv_freq).to(x.device)
            self.cos_cached = freqs.cos().bfloat16()
            self.sin_cached = freqs.sin().bfloat16()
        return self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]

def apply_rotary_emb(x, cos, sin):
    assert x.ndim == 4 # multihead attention
    d = x.shape[3]//2
    x1 = x[..., :d]
    x2 = x[..., d:]
    y1 = x1 * cos + x2 * sin
    y2 = x1 * (-sin) + x2 * cos
    return torch.cat([y1, y2], 3).type_as(x)

class CastedLinear(nn.Linear):
    def __init__(self, *args, **kwargs):
        super().__init__(*args, **kwargs)
    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class CausalSelfAttention(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = self.n_embd // self.n_head
        assert self.n_embd % self.n_head == 0
        self.c_q = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_k = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_v = CastedLinear(self.n_embd, self.n_embd, bias=False)
        # output projection
        self.c_proj = CastedLinear(self.n_embd, self.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977
        self.rotary = Rotary(self.head_dim)
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977

    def forward(self, x, v1=None):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)
        q = self.c_q(x).view(B, T, self.n_head, self.head_dim)
        k = self.c_k(x).view(B, T, self.n_head, self.head_dim)
        v = self.c_v(x).view(B, T, self.n_head, self.head_dim)
        if v1 is None:
            v1 = v # This happens if we are in the first block. v needs to be accessed by subsequent blocks
        v = (1 - self.lamb) * v + self.lamb * v1.view_as(v) # @Grad62304977
        cos, sin = self.rotary(q)
        q, k = F.rms_norm(q, (q.size(-1),)), F.rms_norm(k, (k.size(-1),)) # QK norm suggested by @Grad62304977
        q, k = apply_rotary_emb(q, cos, sin), apply_rotary_emb(k, cos, sin)
        y = F.scaled_dot_product_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), is_causal=True)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y, v1

class MLP(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.c_fc    = CastedLinear(config.n_embd, 4 * config.n_embd, bias=False)
        self.c_proj  = CastedLinear(4 * config.n_embd, config.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config)
        self.mlp = MLP(config)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, v1, x0):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x1, v1 = self.attn(F.rms_norm(x, (x.size(-1),)), v1)
        x = x + x1
        x = x + self.mlp(F.rms_norm(x, (x.size(-1),)))
        return x, v1

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.config = config

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size, bias=False)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, target):

        # forward the GPT model itself
        x = self.transformer.wte(idx) # token embeddings of shape (b, t, n_embd)
        x = F.rms_norm(x, (x.size(-1),)) # @Grad62304977
        x0 = x
        v1 = None
        for block in self.transformer.h:
            x, v1 = block(x, v1, x0)
        x = F.rms_norm(x, (x.size(-1),))

        logits = self.lm_head(x)
        logits = 30 * torch.tanh(logits / 30) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss.float()

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, B, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.B = B
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * B * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        # kick things off
        self.reset()

    def reset(self):
        self.current_shard = 0
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        B = self.B
        T = self.T
        buf = self.tokens[self.current_position : self.current_position+B*T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = (buf[:-1]).view(B, T) # inputs
        y = (buf[1:]).view(B, T) # targets
        # advance current position and load next shard if necessary
        self.current_position += B * T * self.num_processes
        if self.current_position + (B * T * self.num_processes + 1) > len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8*64 # batch size, in sequences, across all devices
    device_batch_size : int = 64 # batch size, in sequences, per device
    sequence_length : int = 1024 # sequence length, in tokens
    num_iterations : int = 3242 # number of iterations to run
    warmup_iters : int = 0
    warmdown_iters : int = 926 # number of iterations of linear warmup/warmdown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# convenience variables
B, T = args.device_batch_size, args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (B * T * ddp_world_size) == 0
val_steps = args.val_tokens // (B * T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (B * ddp_world_size) == 0
train_accumulation_steps = args.batch_size // (B * ddp_world_size)

# load tokens
train_loader = DistributedDataLoader(args.input_bin, B, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, B, T, ddp_rank, ddp_world_size)
if master_process:
    print(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
    print(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# CUDNN attention is ~4ms faster than Flash, but doesn't get selected by default in PyTorch 2.5.1
from torch.backends.cuda import enable_cudnn_sdp, enable_flash_sdp, enable_math_sdp, enable_mem_efficient_sdp
enable_cudnn_sdp(True)
enable_flash_sdp(False)
enable_mem_efficient_sdp(False)
enable_math_sdp(False)

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight], lr=0.3,   betas=(0.9, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight],         lr=0.002, betas=(0.9, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2]
optimizer3 = Muon(matrix_params,           lr=0.02,  momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.02, betas=(0.9, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and warmdown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.warmdown_iters:
        return 1.0
    # 3) linear warmdown
    else:
        decay_ratio = (args.num_iterations - it) / args.warmdown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# begin logging
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write('='*100 + '\n')
        f.write(code)
        f.write('='*100 + '\n')
        # log information about the hardware/software environment this is running on
        # and print the full `nvidia-smi` to file
        f.write(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:\n")
        import subprocess
        result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        f.write(f'{result.stdout}\n')
        f.write('='*100 + '\n')

training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
train_loader.reset()
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        if master_process:
            print(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
            with open(logfile, "a") as f:
                f.write(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms\n')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        # forward pass
        loss = model(x, y)
        train_loss = loss.detach()
        # advance the dataset for the next batch
        x, y = train_loader.next_batch()
        # backward pass
        if i < train_accumulation_steps:
            with model.no_sync(): # there's no need to sync gradients every accumulation step
                loss.backward()
        else:
            loss.backward() # just sync on the last step
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/500, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    if master_process:
        approx_time = training_time_ms + 1000 * (time.time() - t0)
        print(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")
        with open(logfile, "a") as f:
            f.write(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms\n")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.5.1+cu124 compiled for CUDA 12.4
nvidia-smi:
Sat Nov  9 02:14:49 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 560.35.03              Driver Version: 560.35.03      CUDA Version: 12.6     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          Off |   00000000:18:00.0 Off |                    0 |
| N/A   31C    P0            115W /  700W |    6787MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          Off |   00000000:2A:00.0 Off |                    0 |
| N/A   33C    P0            116W /  700W |    5278MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          Off |   00000000:3A:00.0 Off |                    0 |
| N/A   32C    P0            119W /  700W |    5278MiB /  81559MiB |      7%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          Off |   00000000:5D:00.0 Off |                    0 |
| N/A   30C    P0            117W /  700W |    5204MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          Off |   00000000:84:00.0 Off |                    0 |
| N/A   31C    P0            121W /  700W |    5278MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          Off |   00000000:8B:00.0 Off |                    0 |
| N/A   33C    P0            119W /  700W |    5204MiB /  81559MiB |      5%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          Off |   00000000:91:00.0 Off |                    0 |
| N/A   31C    P0            123W /  700W |    5204MiB /  81559MiB |      5%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          Off |   00000000:E4:00.0 Off |                    0 |
| N/A   30C    P0            118W /  700W |    4964MiB /  81559MiB |      5%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A     47031      C   /usr/bin/python3                                0MiB |
|    0   N/A  N/A     91635      C   /usr/bin/python3                                0MiB |
|    1   N/A  N/A     91636      C   /usr/bin/python3                                0MiB |
|    2   N/A  N/A     91637      C   /usr/bin/python3                                0MiB |
|    3   N/A  N/A     91638      C   /usr/bin/python3                                0MiB |
|    4   N/A  N/A     91639      C   /usr/bin/python3                                0MiB |
|    5   N/A  N/A     91640      C   /usr/bin/python3                                0MiB |
|    6   N/A  N/A     91641      C   /usr/bin/python3                                0MiB |
|    7   N/A  N/A     91642      C   /usr/bin/python3                                0MiB |
+-----------------------------------------------------------------------------------------+

====================================================================================================
step:0/3242 val_loss:10.8258 train_time:407ms step_avg:nanms
step:1/3242 train_loss:10.8258 train_time:27560ms step_avg:nanms
step:2/3242 train_loss:10.4302 train_time:27660ms step_avg:nanms
step:3/3242 train_loss:9.9632 train_time:27800ms step_avg:nanms
step:4/3242 train_loss:9.0524 train_time:27941ms step_avg:nanms
step:5/3242 train_loss:8.0705 train_time:28082ms step_avg:nanms
step:6/3242 train_loss:7.5294 train_time:28222ms step_avg:nanms
step:7/3242 train_loss:7.0088 train_time:28362ms step_avg:nanms
step:8/3242 train_loss:7.3020 train_time:28507ms step_avg:nanms
step:9/3242 train_loss:6.9019 train_time:28656ms step_avg:nanms
step:10/3242 train_loss:6.7843 train_time:28800ms step_avg:nanms
step:11/3242 train_loss:6.7989 train_time:99ms step_avg:nanms
step:12/3242 train_loss:6.6594 train_time:243ms step_avg:nanms
step:13/3242 train_loss:6.4964 train_time:386ms step_avg:128.78ms
step:14/3242 train_loss:6.4658 train_time:527ms step_avg:131.72ms
step:15/3242 train_loss:6.4421 train_time:672ms step_avg:134.40ms
step:16/3242 train_loss:6.4228 train_time:817ms step_avg:136.24ms
step:17/3242 train_loss:6.4070 train_time:962ms step_avg:137.44ms
step:18/3242 train_loss:6.4398 train_time:1106ms step_avg:138.19ms
step:19/3242 train_loss:6.2903 train_time:1249ms step_avg:138.81ms
step:20/3242 train_loss:6.3081 train_time:1391ms step_avg:139.07ms
step:21/3242 train_loss:6.0176 train_time:1532ms step_avg:139.29ms
step:22/3242 train_loss:6.3354 train_time:1677ms step_avg:139.74ms
step:23/3242 train_loss:6.5671 train_time:1820ms step_avg:140.02ms
step:24/3242 train_loss:6.2245 train_time:1965ms step_avg:140.36ms
step:25/3242 train_loss:6.3745 train_time:2108ms step_avg:140.56ms
step:26/3242 train_loss:6.0819 train_time:2251ms step_avg:140.72ms
step:27/3242 train_loss:6.0082 train_time:2395ms step_avg:140.90ms
step:28/3242 train_loss:6.1830 train_time:2537ms step_avg:140.95ms
step:29/3242 train_loss:5.8549 train_time:2680ms step_avg:141.05ms
step:30/3242 train_loss:6.1104 train_time:2826ms step_avg:141.29ms
step:31/3242 train_loss:5.9467 train_time:2971ms step_avg:141.49ms
step:32/3242 train_loss:5.9090 train_time:3114ms step_avg:141.54ms
step:33/3242 train_loss:5.7645 train_time:3257ms step_avg:141.61ms
step:34/3242 train_loss:6.0378 train_time:3399ms step_avg:141.63ms
step:35/3242 train_loss:5.9721 train_time:3543ms step_avg:141.71ms
step:36/3242 train_loss:6.0987 train_time:3685ms step_avg:141.74ms
step:37/3242 train_loss:6.0356 train_time:3831ms step_avg:141.90ms
step:38/3242 train_loss:5.9364 train_time:3976ms step_avg:142.01ms
step:39/3242 train_loss:5.8163 train_time:4119ms step_avg:142.03ms
step:40/3242 train_loss:5.8390 train_time:4261ms step_avg:142.04ms
step:41/3242 train_loss:5.7589 train_time:4405ms step_avg:142.08ms
step:42/3242 train_loss:5.7571 train_time:4546ms step_avg:142.07ms
step:43/3242 train_loss:5.6705 train_time:4689ms step_avg:142.09ms
step:44/3242 train_loss:5.7407 train_time:4836ms step_avg:142.23ms
step:45/3242 train_loss:5.7322 train_time:4981ms step_avg:142.30ms
step:46/3242 train_loss:5.8853 train_time:5126ms step_avg:142.38ms
step:47/3242 train_loss:5.6683 train_time:5269ms step_avg:142.40ms
step:48/3242 train_loss:5.5351 train_time:5412ms step_avg:142.41ms
step:49/3242 train_loss:5.7383 train_time:5555ms step_avg:142.44ms
step:50/3242 train_loss:5.6122 train_time:5698ms step_avg:142.44ms
step:51/3242 train_loss:5.7661 train_time:5842ms step_avg:142.49ms
step:52/3242 train_loss:5.6261 train_time:5987ms step_avg:142.55ms
step:53/3242 train_loss:5.4832 train_time:6132ms step_avg:142.60ms
step:54/3242 train_loss:5.6084 train_time:6275ms step_avg:142.60ms
step:55/3242 train_loss:5.4819 train_time:6417ms step_avg:142.59ms
step:56/3242 train_loss:5.8096 train_time:6560ms step_avg:142.60ms
step:57/3242 train_loss:5.4634 train_time:6704ms step_avg:142.64ms
step:58/3242 train_loss:5.3540 train_time:6848ms step_avg:142.68ms
step:59/3242 train_loss:5.4882 train_time:6992ms step_avg:142.69ms
step:60/3242 train_loss:5.4475 train_time:7135ms step_avg:142.71ms
step:61/3242 train_loss:5.5358 train_time:7278ms step_avg:142.71ms
step:62/3242 train_loss:5.2983 train_time:7420ms step_avg:142.70ms
step:63/3242 train_loss:5.4061 train_time:7565ms step_avg:142.73ms
step:64/3242 train_loss:5.3810 train_time:7708ms step_avg:142.75ms
step:65/3242 train_loss:5.1976 train_time:7852ms step_avg:142.77ms
step:66/3242 train_loss:5.1995 train_time:7996ms step_avg:142.79ms
step:67/3242 train_loss:5.3449 train_time:8138ms step_avg:142.77ms
step:68/3242 train_loss:5.2081 train_time:8281ms step_avg:142.78ms
step:69/3242 train_loss:5.4659 train_time:8426ms step_avg:142.82ms
step:70/3242 train_loss:5.1226 train_time:8570ms step_avg:142.84ms
step:71/3242 train_loss:5.1952 train_time:8714ms step_avg:142.84ms
step:72/3242 train_loss:5.3446 train_time:8857ms step_avg:142.85ms
step:73/3242 train_loss:5.2647 train_time:8999ms step_avg:142.85ms
step:74/3242 train_loss:5.1605 train_time:9142ms step_avg:142.85ms
step:75/3242 train_loss:5.2702 train_time:9285ms step_avg:142.85ms
step:76/3242 train_loss:5.2542 train_time:9431ms step_avg:142.89ms
step:77/3242 train_loss:5.1968 train_time:9574ms step_avg:142.89ms
step:78/3242 train_loss:5.2921 train_time:9716ms step_avg:142.88ms
step:79/3242 train_loss:5.3989 train_time:9859ms step_avg:142.89ms
step:80/3242 train_loss:5.1484 train_time:10004ms step_avg:142.91ms
step:81/3242 train_loss:5.2329 train_time:10146ms step_avg:142.90ms
step:82/3242 train_loss:5.0085 train_time:10289ms step_avg:142.91ms
step:83/3242 train_loss:5.1838 train_time:10433ms step_avg:142.91ms
step:84/3242 train_loss:5.1261 train_time:10576ms step_avg:142.91ms
step:85/3242 train_loss:5.1156 train_time:10718ms step_avg:142.91ms
step:86/3242 train_loss:4.9789 train_time:10861ms step_avg:142.91ms
step:87/3242 train_loss:5.1865 train_time:11005ms step_avg:142.93ms
step:88/3242 train_loss:5.1005 train_time:11149ms step_avg:142.93ms
step:89/3242 train_loss:5.1317 train_time:11292ms step_avg:142.94ms
step:90/3242 train_loss:5.1066 train_time:11436ms step_avg:142.95ms
step:91/3242 train_loss:5.0214 train_time:11578ms step_avg:142.94ms
step:92/3242 train_loss:5.0198 train_time:11723ms step_avg:142.97ms
step:93/3242 train_loss:5.1317 train_time:11868ms step_avg:142.99ms
step:94/3242 train_loss:4.9734 train_time:12012ms step_avg:142.99ms
step:95/3242 train_loss:4.9726 train_time:12156ms step_avg:143.01ms
step:96/3242 train_loss:5.0216 train_time:12299ms step_avg:143.01ms
step:97/3242 train_loss:4.9259 train_time:12442ms step_avg:143.01ms
step:98/3242 train_loss:5.0029 train_time:12586ms step_avg:143.02ms
step:99/3242 train_loss:4.9233 train_time:12731ms step_avg:143.04ms
step:100/3242 train_loss:5.0289 train_time:12875ms step_avg:143.06ms
step:101/3242 train_loss:5.0006 train_time:13018ms step_avg:143.05ms
step:102/3242 train_loss:4.8886 train_time:13161ms step_avg:143.06ms
step:103/3242 train_loss:5.0158 train_time:13306ms step_avg:143.07ms
step:104/3242 train_loss:4.9623 train_time:13449ms step_avg:143.07ms
step:105/3242 train_loss:4.8369 train_time:13592ms step_avg:143.07ms
step:106/3242 train_loss:4.8834 train_time:13735ms step_avg:143.08ms
step:107/3242 train_loss:5.0613 train_time:13879ms step_avg:143.08ms
step:108/3242 train_loss:4.8798 train_time:14023ms step_avg:143.09ms
step:109/3242 train_loss:4.6789 train_time:14167ms step_avg:143.10ms
step:110/3242 train_loss:4.8389 train_time:14310ms step_avg:143.10ms
step:111/3242 train_loss:4.8364 train_time:14454ms step_avg:143.11ms
step:112/3242 train_loss:4.7936 train_time:14597ms step_avg:143.11ms
step:113/3242 train_loss:4.9118 train_time:14740ms step_avg:143.11ms
step:114/3242 train_loss:4.8216 train_time:14885ms step_avg:143.12ms
step:115/3242 train_loss:4.6913 train_time:15030ms step_avg:143.14ms
step:116/3242 train_loss:4.8353 train_time:15174ms step_avg:143.15ms
step:117/3242 train_loss:4.7529 train_time:15316ms step_avg:143.14ms
step:118/3242 train_loss:4.6948 train_time:15460ms step_avg:143.15ms
step:119/3242 train_loss:4.8631 train_time:15603ms step_avg:143.15ms
step:120/3242 train_loss:4.7854 train_time:15746ms step_avg:143.15ms
step:121/3242 train_loss:4.6873 train_time:15890ms step_avg:143.15ms
step:122/3242 train_loss:4.6209 train_time:16035ms step_avg:143.17ms
step:123/3242 train_loss:4.7617 train_time:16177ms step_avg:143.16ms
step:124/3242 train_loss:4.6071 train_time:16320ms step_avg:143.16ms
step:125/3242 train_loss:4.9038 train_time:16464ms step_avg:143.16ms
step:125/3242 val_loss:4.7185 train_time:16508ms step_avg:143.54ms
step:126/3242 train_loss:4.7514 train_time:16617ms step_avg:143.25ms
step:127/3242 train_loss:4.7097 train_time:16767ms step_avg:143.31ms
step:128/3242 train_loss:4.7528 train_time:16909ms step_avg:143.29ms
step:129/3242 train_loss:4.6543 train_time:17052ms step_avg:143.29ms
step:130/3242 train_loss:4.9583 train_time:17194ms step_avg:143.28ms
step:131/3242 train_loss:4.6788 train_time:17338ms step_avg:143.29ms
step:132/3242 train_loss:4.6923 train_time:17482ms step_avg:143.30ms
step:133/3242 train_loss:4.6415 train_time:17627ms step_avg:143.31ms
step:134/3242 train_loss:4.7051 train_time:17773ms step_avg:143.33ms
step:135/3242 train_loss:4.5687 train_time:17919ms step_avg:143.35ms
step:136/3242 train_loss:4.6985 train_time:18062ms step_avg:143.35ms
step:137/3242 train_loss:4.4804 train_time:18206ms step_avg:143.35ms
step:138/3242 train_loss:4.6368 train_time:18348ms step_avg:143.34ms
step:139/3242 train_loss:4.5603 train_time:18490ms step_avg:143.33ms
step:140/3242 train_loss:4.6165 train_time:18633ms step_avg:143.33ms
step:141/3242 train_loss:4.6947 train_time:18779ms step_avg:143.35ms
step:142/3242 train_loss:4.5639 train_time:18924ms step_avg:143.36ms
step:143/3242 train_loss:4.5683 train_time:19067ms step_avg:143.36ms
step:144/3242 train_loss:4.4654 train_time:19210ms step_avg:143.36ms
step:145/3242 train_loss:4.5819 train_time:19353ms step_avg:143.35ms
step:146/3242 train_loss:4.5527 train_time:19496ms step_avg:143.36ms
step:147/3242 train_loss:4.4320 train_time:19640ms step_avg:143.35ms
step:148/3242 train_loss:4.5577 train_time:19785ms step_avg:143.37ms
step:149/3242 train_loss:4.5774 train_time:19931ms step_avg:143.39ms
step:150/3242 train_loss:4.5405 train_time:20075ms step_avg:143.39ms
step:151/3242 train_loss:4.6285 train_time:20219ms step_avg:143.39ms
step:152/3242 train_loss:4.4961 train_time:20362ms step_avg:143.39ms
step:153/3242 train_loss:4.4935 train_time:20505ms step_avg:143.39ms
step:154/3242 train_loss:4.5686 train_time:20648ms step_avg:143.39ms
step:155/3242 train_loss:4.5383 train_time:20793ms step_avg:143.40ms
step:156/3242 train_loss:4.4719 train_time:20937ms step_avg:143.40ms
step:157/3242 train_loss:4.5210 train_time:21081ms step_avg:143.41ms
step:158/3242 train_loss:4.6027 train_time:21223ms step_avg:143.40ms
step:159/3242 train_loss:4.4247 train_time:21367ms step_avg:143.40ms
step:160/3242 train_loss:4.4907 train_time:21509ms step_avg:143.39ms
step:161/3242 train_loss:4.3063 train_time:21652ms step_avg:143.39ms
step:162/3242 train_loss:4.5156 train_time:21796ms step_avg:143.39ms
step:163/3242 train_loss:4.5298 train_time:21941ms step_avg:143.40ms
step:164/3242 train_loss:4.5122 train_time:22086ms step_avg:143.41ms
step:165/3242 train_loss:4.3657 train_time:22228ms step_avg:143.41ms
step:166/3242 train_loss:4.4424 train_time:22370ms step_avg:143.40ms
step:167/3242 train_loss:4.5313 train_time:22514ms step_avg:143.40ms
step:168/3242 train_loss:4.3645 train_time:22659ms step_avg:143.41ms
step:169/3242 train_loss:4.4420 train_time:22801ms step_avg:143.41ms
step:170/3242 train_loss:4.3215 train_time:22945ms step_avg:143.41ms
step:171/3242 train_loss:4.1950 train_time:23089ms step_avg:143.41ms
step:172/3242 train_loss:4.3513 train_time:23232ms step_avg:143.41ms
step:173/3242 train_loss:4.3625 train_time:23375ms step_avg:143.41ms
step:174/3242 train_loss:4.4088 train_time:23518ms step_avg:143.40ms
step:175/3242 train_loss:4.5781 train_time:23663ms step_avg:143.41ms
step:176/3242 train_loss:4.4075 train_time:23806ms step_avg:143.41ms
step:177/3242 train_loss:4.2622 train_time:23950ms step_avg:143.41ms
step:178/3242 train_loss:4.2245 train_time:24092ms step_avg:143.41ms
step:179/3242 train_loss:4.3226 train_time:24235ms step_avg:143.40ms
step:180/3242 train_loss:4.2856 train_time:24379ms step_avg:143.41ms
step:181/3242 train_loss:4.2624 train_time:24522ms step_avg:143.41ms
step:182/3242 train_loss:4.4288 train_time:24665ms step_avg:143.40ms
step:183/3242 train_loss:4.2983 train_time:24808ms step_avg:143.40ms
step:184/3242 train_loss:4.2846 train_time:24951ms step_avg:143.40ms
step:185/3242 train_loss:4.2729 train_time:25094ms step_avg:143.39ms
step:186/3242 train_loss:4.3524 train_time:25239ms step_avg:143.40ms
step:187/3242 train_loss:4.3058 train_time:25384ms step_avg:143.41ms
step:188/3242 train_loss:4.3845 train_time:25527ms step_avg:143.41ms
step:189/3242 train_loss:4.3124 train_time:25786ms step_avg:144.05ms
step:190/3242 train_loss:4.2404 train_time:26059ms step_avg:144.77ms
step:191/3242 train_loss:4.3424 train_time:26199ms step_avg:144.75ms
step:192/3242 train_loss:4.2288 train_time:26340ms step_avg:144.72ms
step:193/3242 train_loss:4.1556 train_time:26480ms step_avg:144.70ms
step:194/3242 train_loss:4.3859 train_time:26622ms step_avg:144.69ms
step:195/3242 train_loss:4.2911 train_time:26764ms step_avg:144.67ms
step:196/3242 train_loss:4.4863 train_time:26906ms step_avg:144.65ms
step:197/3242 train_loss:4.3337 train_time:27058ms step_avg:144.70ms
step:198/3242 train_loss:4.1725 train_time:27203ms step_avg:144.70ms
step:199/3242 train_loss:4.2970 train_time:27346ms step_avg:144.69ms
step:200/3242 train_loss:4.1521 train_time:27489ms step_avg:144.68ms
step:201/3242 train_loss:4.2495 train_time:27630ms step_avg:144.66ms
step:202/3242 train_loss:4.1249 train_time:27773ms step_avg:144.65ms
step:203/3242 train_loss:4.3579 train_time:27917ms step_avg:144.65ms
step:204/3242 train_loss:4.1998 train_time:28064ms step_avg:144.66ms
step:205/3242 train_loss:4.3094 train_time:28208ms step_avg:144.66ms
step:206/3242 train_loss:4.3680 train_time:28351ms step_avg:144.65ms
step:207/3242 train_loss:4.0671 train_time:28492ms step_avg:144.63ms
step:208/3242 train_loss:4.2109 train_time:28634ms step_avg:144.62ms
step:209/3242 train_loss:4.2030 train_time:28777ms step_avg:144.61ms
step:210/3242 train_loss:4.3542 train_time:28922ms step_avg:144.61ms
step:211/3242 train_loss:4.2866 train_time:29068ms step_avg:144.61ms
step:212/3242 train_loss:4.1751 train_time:29211ms step_avg:144.61ms
step:213/3242 train_loss:4.1976 train_time:29354ms step_avg:144.60ms
step:214/3242 train_loss:4.1553 train_time:29497ms step_avg:144.59ms
step:215/3242 train_loss:4.2226 train_time:29641ms step_avg:144.59ms
step:216/3242 train_loss:4.0508 train_time:29784ms step_avg:144.58ms
step:217/3242 train_loss:4.1125 train_time:29927ms step_avg:144.58ms
step:218/3242 train_loss:4.1189 train_time:30072ms step_avg:144.58ms
step:219/3242 train_loss:4.1918 train_time:30217ms step_avg:144.58ms
step:220/3242 train_loss:4.1741 train_time:30362ms step_avg:144.58ms
step:221/3242 train_loss:4.1874 train_time:30505ms step_avg:144.58ms
step:222/3242 train_loss:4.2107 train_time:30648ms step_avg:144.57ms
step:223/3242 train_loss:4.1272 train_time:30791ms step_avg:144.56ms
step:224/3242 train_loss:4.0808 train_time:30933ms step_avg:144.55ms
step:225/3242 train_loss:4.4009 train_time:31077ms step_avg:144.55ms
step:226/3242 train_loss:4.0132 train_time:31221ms step_avg:144.54ms
step:227/3242 train_loss:4.0872 train_time:31365ms step_avg:144.54ms
step:228/3242 train_loss:4.0939 train_time:31508ms step_avg:144.53ms
step:229/3242 train_loss:4.2471 train_time:31650ms step_avg:144.52ms
step:230/3242 train_loss:4.0331 train_time:31793ms step_avg:144.51ms
step:231/3242 train_loss:4.1465 train_time:31937ms step_avg:144.51ms
step:232/3242 train_loss:4.0080 train_time:32081ms step_avg:144.51ms
step:233/3242 train_loss:4.0782 train_time:32225ms step_avg:144.50ms
step:234/3242 train_loss:4.2054 train_time:32368ms step_avg:144.50ms
step:235/3242 train_loss:4.1207 train_time:32511ms step_avg:144.49ms
step:236/3242 train_loss:4.0062 train_time:32654ms step_avg:144.49ms
step:237/3242 train_loss:4.1702 train_time:32797ms step_avg:144.48ms
step:238/3242 train_loss:4.1849 train_time:32941ms step_avg:144.48ms
step:239/3242 train_loss:4.0314 train_time:33086ms step_avg:144.48ms
step:240/3242 train_loss:4.1800 train_time:33229ms step_avg:144.47ms
step:241/3242 train_loss:4.2123 train_time:33372ms step_avg:144.47ms
step:242/3242 train_loss:4.0651 train_time:33515ms step_avg:144.46ms
step:243/3242 train_loss:4.2393 train_time:33659ms step_avg:144.46ms
step:244/3242 train_loss:4.1175 train_time:33802ms step_avg:144.45ms
step:245/3242 train_loss:4.1730 train_time:33945ms step_avg:144.45ms
step:246/3242 train_loss:4.2402 train_time:34088ms step_avg:144.44ms
step:247/3242 train_loss:4.1599 train_time:34230ms step_avg:144.43ms
step:248/3242 train_loss:4.0988 train_time:34373ms step_avg:144.42ms
step:249/3242 train_loss:4.2078 train_time:34517ms step_avg:144.42ms
step:250/3242 train_loss:4.0164 train_time:34660ms step_avg:144.42ms
step:250/3242 val_loss:4.1060 train_time:34703ms step_avg:144.59ms
step:251/3242 train_loss:4.0646 train_time:34814ms step_avg:144.46ms
step:252/3242 train_loss:4.1763 train_time:34963ms step_avg:144.48ms
step:253/3242 train_loss:4.2470 train_time:35107ms step_avg:144.47ms
step:254/3242 train_loss:4.0354 train_time:35248ms step_avg:144.46ms
step:255/3242 train_loss:3.9782 train_time:35390ms step_avg:144.45ms
step:256/3242 train_loss:4.1545 train_time:35531ms step_avg:144.44ms
step:257/3242 train_loss:4.0635 train_time:35672ms step_avg:144.42ms
step:258/3242 train_loss:4.0790 train_time:35817ms step_avg:144.43ms
step:259/3242 train_loss:4.0590 train_time:35965ms step_avg:144.44ms
step:260/3242 train_loss:4.1156 train_time:36110ms step_avg:144.44ms
step:261/3242 train_loss:4.1448 train_time:36252ms step_avg:144.43ms
step:262/3242 train_loss:4.1162 train_time:36394ms step_avg:144.42ms
step:263/3242 train_loss:4.0735 train_time:36535ms step_avg:144.41ms
step:264/3242 train_loss:3.9911 train_time:36678ms step_avg:144.40ms
step:265/3242 train_loss:4.0758 train_time:36822ms step_avg:144.40ms
step:266/3242 train_loss:3.9505 train_time:36968ms step_avg:144.41ms
step:267/3242 train_loss:4.0015 train_time:37113ms step_avg:144.41ms
step:268/3242 train_loss:4.0114 train_time:37255ms step_avg:144.40ms
step:269/3242 train_loss:4.0435 train_time:37398ms step_avg:144.39ms
step:270/3242 train_loss:3.9429 train_time:37542ms step_avg:144.39ms
step:271/3242 train_loss:4.1879 train_time:37683ms step_avg:144.38ms
step:272/3242 train_loss:4.0692 train_time:37827ms step_avg:144.38ms
step:273/3242 train_loss:3.9991 train_time:37973ms step_avg:144.38ms
step:274/3242 train_loss:4.0416 train_time:38117ms step_avg:144.38ms
step:275/3242 train_loss:4.1150 train_time:38260ms step_avg:144.38ms
step:276/3242 train_loss:4.1503 train_time:38402ms step_avg:144.37ms
step:277/3242 train_loss:4.3128 train_time:38543ms step_avg:144.35ms
step:278/3242 train_loss:4.1151 train_time:38685ms step_avg:144.35ms
step:279/3242 train_loss:4.1670 train_time:38828ms step_avg:144.34ms
step:280/3242 train_loss:4.0798 train_time:38973ms step_avg:144.34ms
step:281/3242 train_loss:4.2081 train_time:39117ms step_avg:144.34ms
step:282/3242 train_loss:4.0408 train_time:39263ms step_avg:144.35ms
step:283/3242 train_loss:4.0277 train_time:39405ms step_avg:144.34ms
step:284/3242 train_loss:3.9944 train_time:39546ms step_avg:144.33ms
step:285/3242 train_loss:4.1311 train_time:39688ms step_avg:144.32ms
step:286/3242 train_loss:4.1408 train_time:39831ms step_avg:144.32ms
step:287/3242 train_loss:4.1728 train_time:39974ms step_avg:144.31ms
step:288/3242 train_loss:4.0002 train_time:40118ms step_avg:144.31ms
step:289/3242 train_loss:4.1024 train_time:40264ms step_avg:144.32ms
step:290/3242 train_loss:3.9555 train_time:40407ms step_avg:144.31ms
step:291/3242 train_loss:3.9466 train_time:40550ms step_avg:144.30ms
step:292/3242 train_loss:4.0123 train_time:40693ms step_avg:144.30ms
step:293/3242 train_loss:3.9486 train_time:40835ms step_avg:144.30ms
step:294/3242 train_loss:3.9953 train_time:40978ms step_avg:144.29ms
step:295/3242 train_loss:4.0413 train_time:41123ms step_avg:144.29ms
step:296/3242 train_loss:3.9200 train_time:41267ms step_avg:144.29ms
step:297/3242 train_loss:3.9453 train_time:41410ms step_avg:144.29ms
step:298/3242 train_loss:3.9448 train_time:41551ms step_avg:144.28ms
step:299/3242 train_loss:4.0474 train_time:41696ms step_avg:144.28ms
step:300/3242 train_loss:3.9062 train_time:41839ms step_avg:144.27ms
step:301/3242 train_loss:4.0463 train_time:41982ms step_avg:144.27ms
step:302/3242 train_loss:4.0614 train_time:42128ms step_avg:144.27ms
step:303/3242 train_loss:4.0137 train_time:42274ms step_avg:144.28ms
step:304/3242 train_loss:4.0544 train_time:42416ms step_avg:144.27ms
step:305/3242 train_loss:4.0381 train_time:42559ms step_avg:144.27ms
step:306/3242 train_loss:4.5345 train_time:42704ms step_avg:144.27ms
step:307/3242 train_loss:4.0132 train_time:42845ms step_avg:144.26ms
step:308/3242 train_loss:3.9206 train_time:42988ms step_avg:144.26ms
step:309/3242 train_loss:4.0678 train_time:43131ms step_avg:144.25ms
step:310/3242 train_loss:3.9394 train_time:43275ms step_avg:144.25ms
step:311/3242 train_loss:4.1709 train_time:43418ms step_avg:144.25ms
step:312/3242 train_loss:4.0131 train_time:43561ms step_avg:144.24ms
step:313/3242 train_loss:3.9520 train_time:43705ms step_avg:144.24ms
step:314/3242 train_loss:4.0263 train_time:43847ms step_avg:144.23ms
step:315/3242 train_loss:4.1653 train_time:43990ms step_avg:144.23ms
step:316/3242 train_loss:4.0322 train_time:44134ms step_avg:144.23ms
step:317/3242 train_loss:3.8735 train_time:44277ms step_avg:144.22ms
step:318/3242 train_loss:3.9482 train_time:44422ms step_avg:144.23ms
step:319/3242 train_loss:3.9933 train_time:44565ms step_avg:144.22ms
step:320/3242 train_loss:3.9682 train_time:44707ms step_avg:144.22ms
step:321/3242 train_loss:4.0855 train_time:44850ms step_avg:144.21ms
step:322/3242 train_loss:4.0333 train_time:44994ms step_avg:144.21ms
step:323/3242 train_loss:4.0086 train_time:45137ms step_avg:144.21ms
step:324/3242 train_loss:4.0905 train_time:45281ms step_avg:144.21ms
step:325/3242 train_loss:4.0285 train_time:45423ms step_avg:144.20ms
step:326/3242 train_loss:4.0950 train_time:45568ms step_avg:144.20ms
step:327/3242 train_loss:3.9653 train_time:45711ms step_avg:144.20ms
step:328/3242 train_loss:4.4721 train_time:45854ms step_avg:144.19ms
step:329/3242 train_loss:4.1493 train_time:45997ms step_avg:144.19ms
step:330/3242 train_loss:3.8866 train_time:46140ms step_avg:144.19ms
step:331/3242 train_loss:3.8399 train_time:46284ms step_avg:144.19ms
step:332/3242 train_loss:4.0584 train_time:46427ms step_avg:144.18ms
step:333/3242 train_loss:3.9894 train_time:46570ms step_avg:144.18ms
step:334/3242 train_loss:3.9560 train_time:46713ms step_avg:144.18ms
step:335/3242 train_loss:3.9195 train_time:46855ms step_avg:144.17ms
step:336/3242 train_loss:4.0924 train_time:46998ms step_avg:144.17ms
step:337/3242 train_loss:4.0353 train_time:47141ms step_avg:144.16ms
step:338/3242 train_loss:4.5050 train_time:47284ms step_avg:144.16ms
step:339/3242 train_loss:4.0169 train_time:47426ms step_avg:144.15ms
step:340/3242 train_loss:3.9571 train_time:47570ms step_avg:144.15ms
step:341/3242 train_loss:4.0119 train_time:47712ms step_avg:144.15ms
step:342/3242 train_loss:3.9289 train_time:47854ms step_avg:144.14ms
step:343/3242 train_loss:3.8943 train_time:47998ms step_avg:144.14ms
step:344/3242 train_loss:3.9282 train_time:48141ms step_avg:144.14ms
step:345/3242 train_loss:4.0744 train_time:48285ms step_avg:144.13ms
step:346/3242 train_loss:3.9123 train_time:48429ms step_avg:144.13ms
step:347/3242 train_loss:3.8475 train_time:48573ms step_avg:144.13ms
step:348/3242 train_loss:3.8871 train_time:48715ms step_avg:144.13ms
step:349/3242 train_loss:3.9396 train_time:48858ms step_avg:144.12ms
step:350/3242 train_loss:3.9044 train_time:49002ms step_avg:144.12ms
step:351/3242 train_loss:3.6498 train_time:49144ms step_avg:144.12ms
step:352/3242 train_loss:3.9052 train_time:49289ms step_avg:144.12ms
step:353/3242 train_loss:4.2401 train_time:49433ms step_avg:144.12ms
step:354/3242 train_loss:3.7367 train_time:49577ms step_avg:144.12ms
step:355/3242 train_loss:4.0064 train_time:49720ms step_avg:144.12ms
step:356/3242 train_loss:3.8647 train_time:49865ms step_avg:144.12ms
step:357/3242 train_loss:3.9759 train_time:50008ms step_avg:144.12ms
step:358/3242 train_loss:3.8798 train_time:50151ms step_avg:144.11ms
step:359/3242 train_loss:3.9301 train_time:50294ms step_avg:144.11ms
step:360/3242 train_loss:3.9145 train_time:50436ms step_avg:144.10ms
step:361/3242 train_loss:3.5274 train_time:50579ms step_avg:144.10ms
step:362/3242 train_loss:4.1019 train_time:50722ms step_avg:144.10ms
step:363/3242 train_loss:3.9984 train_time:50866ms step_avg:144.10ms
step:364/3242 train_loss:3.9241 train_time:51009ms step_avg:144.09ms
step:365/3242 train_loss:3.8244 train_time:51152ms step_avg:144.09ms
step:366/3242 train_loss:3.9956 train_time:51295ms step_avg:144.09ms
step:367/3242 train_loss:3.9482 train_time:51438ms step_avg:144.08ms
step:368/3242 train_loss:3.9460 train_time:51581ms step_avg:144.08ms
step:369/3242 train_loss:3.9291 train_time:51723ms step_avg:144.07ms
step:370/3242 train_loss:3.8277 train_time:51867ms step_avg:144.07ms
step:371/3242 train_loss:3.9718 train_time:52010ms step_avg:144.07ms
step:372/3242 train_loss:3.8351 train_time:52152ms step_avg:144.07ms
step:373/3242 train_loss:3.7810 train_time:52295ms step_avg:144.06ms
step:374/3242 train_loss:4.0033 train_time:52439ms step_avg:144.06ms
step:375/3242 train_loss:3.9236 train_time:52582ms step_avg:144.06ms
step:375/3242 val_loss:3.9191 train_time:52624ms step_avg:144.18ms
step:376/3242 train_loss:3.8980 train_time:52737ms step_avg:144.09ms
step:377/3242 train_loss:3.9560 train_time:52885ms step_avg:144.10ms
step:378/3242 train_loss:3.8708 train_time:53145ms step_avg:144.42ms
step:379/3242 train_loss:3.9272 train_time:53294ms step_avg:144.43ms
step:380/3242 train_loss:3.9537 train_time:53562ms step_avg:144.76ms
step:381/3242 train_loss:4.0312 train_time:53703ms step_avg:144.75ms
step:382/3242 train_loss:3.9296 train_time:53844ms step_avg:144.74ms
step:383/3242 train_loss:3.8946 train_time:53985ms step_avg:144.73ms
step:384/3242 train_loss:3.8745 train_time:54126ms step_avg:144.72ms
step:385/3242 train_loss:3.9581 train_time:54267ms step_avg:144.71ms
step:386/3242 train_loss:3.8724 train_time:54411ms step_avg:144.71ms
step:387/3242 train_loss:3.9751 train_time:54559ms step_avg:144.72ms
step:388/3242 train_loss:4.1591 train_time:54703ms step_avg:144.72ms
step:389/3242 train_loss:3.8803 train_time:54846ms step_avg:144.71ms
step:390/3242 train_loss:3.8779 train_time:54988ms step_avg:144.70ms
step:391/3242 train_loss:3.9818 train_time:55129ms step_avg:144.70ms
step:392/3242 train_loss:3.8994 train_time:55270ms step_avg:144.69ms
step:393/3242 train_loss:4.0082 train_time:55413ms step_avg:144.68ms
step:394/3242 train_loss:3.8479 train_time:55560ms step_avg:144.69ms
step:395/3242 train_loss:3.9837 train_time:55704ms step_avg:144.69ms
step:396/3242 train_loss:3.7206 train_time:55846ms step_avg:144.68ms
step:397/3242 train_loss:3.9337 train_time:55990ms step_avg:144.68ms
step:398/3242 train_loss:3.9649 train_time:56132ms step_avg:144.67ms
step:399/3242 train_loss:3.9645 train_time:56274ms step_avg:144.66ms
step:400/3242 train_loss:3.8689 train_time:56418ms step_avg:144.66ms
step:401/3242 train_loss:3.9121 train_time:56562ms step_avg:144.66ms
step:402/3242 train_loss:4.0027 train_time:56706ms step_avg:144.66ms
step:403/3242 train_loss:3.9308 train_time:56850ms step_avg:144.66ms
step:404/3242 train_loss:4.0427 train_time:56995ms step_avg:144.66ms
step:405/3242 train_loss:3.7913 train_time:57137ms step_avg:144.65ms
step:406/3242 train_loss:3.8832 train_time:57278ms step_avg:144.64ms
step:407/3242 train_loss:4.1775 train_time:57421ms step_avg:144.64ms
step:408/3242 train_loss:3.8763 train_time:57566ms step_avg:144.64ms
step:409/3242 train_loss:3.9073 train_time:57711ms step_avg:144.64ms
step:410/3242 train_loss:3.9531 train_time:57854ms step_avg:144.64ms
step:411/3242 train_loss:3.8445 train_time:57999ms step_avg:144.63ms
step:412/3242 train_loss:3.8576 train_time:58142ms step_avg:144.63ms
step:413/3242 train_loss:4.2873 train_time:58284ms step_avg:144.63ms
step:414/3242 train_loss:3.7084 train_time:58427ms step_avg:144.62ms
step:415/3242 train_loss:4.1003 train_time:58571ms step_avg:144.62ms
step:416/3242 train_loss:3.8499 train_time:58714ms step_avg:144.62ms
step:417/3242 train_loss:3.8578 train_time:58857ms step_avg:144.61ms
step:418/3242 train_loss:4.0408 train_time:58999ms step_avg:144.61ms
step:419/3242 train_loss:3.7850 train_time:59142ms step_avg:144.60ms
step:420/3242 train_loss:3.9050 train_time:59284ms step_avg:144.60ms
step:421/3242 train_loss:3.8143 train_time:59427ms step_avg:144.59ms
step:422/3242 train_loss:3.7409 train_time:59571ms step_avg:144.59ms
step:423/3242 train_loss:3.8771 train_time:59715ms step_avg:144.59ms
step:424/3242 train_loss:3.9672 train_time:59860ms step_avg:144.59ms
step:425/3242 train_loss:3.7192 train_time:60002ms step_avg:144.58ms
step:426/3242 train_loss:3.8954 train_time:60144ms step_avg:144.58ms
step:427/3242 train_loss:3.7754 train_time:60287ms step_avg:144.57ms
step:428/3242 train_loss:3.9973 train_time:60431ms step_avg:144.57ms
step:429/3242 train_loss:3.9120 train_time:60573ms step_avg:144.57ms
step:430/3242 train_loss:3.8533 train_time:60716ms step_avg:144.56ms
step:431/3242 train_loss:3.8180 train_time:60862ms step_avg:144.56ms
step:432/3242 train_loss:3.7286 train_time:61003ms step_avg:144.56ms
step:433/3242 train_loss:3.8576 train_time:61145ms step_avg:144.55ms
step:434/3242 train_loss:3.9170 train_time:61289ms step_avg:144.55ms
step:435/3242 train_loss:3.8698 train_time:61432ms step_avg:144.55ms
step:436/3242 train_loss:3.9103 train_time:61574ms step_avg:144.54ms
step:437/3242 train_loss:3.9284 train_time:61719ms step_avg:144.54ms
step:438/3242 train_loss:3.8006 train_time:61861ms step_avg:144.53ms
step:439/3242 train_loss:3.8125 train_time:62003ms step_avg:144.53ms
step:440/3242 train_loss:3.8026 train_time:62145ms step_avg:144.52ms
step:441/3242 train_loss:3.9787 train_time:62288ms step_avg:144.52ms
step:442/3242 train_loss:3.8560 train_time:62431ms step_avg:144.52ms
step:443/3242 train_loss:3.8341 train_time:62575ms step_avg:144.51ms
step:444/3242 train_loss:3.7406 train_time:62717ms step_avg:144.51ms
step:445/3242 train_loss:4.0159 train_time:62860ms step_avg:144.51ms
step:446/3242 train_loss:3.9423 train_time:63002ms step_avg:144.50ms
step:447/3242 train_loss:3.9284 train_time:63145ms step_avg:144.50ms
step:448/3242 train_loss:3.8505 train_time:63288ms step_avg:144.49ms
step:449/3242 train_loss:3.9522 train_time:63430ms step_avg:144.49ms
step:450/3242 train_loss:3.7922 train_time:63572ms step_avg:144.48ms
step:451/3242 train_loss:3.8226 train_time:63716ms step_avg:144.48ms
step:452/3242 train_loss:3.6818 train_time:63860ms step_avg:144.48ms
step:453/3242 train_loss:3.8120 train_time:64002ms step_avg:144.47ms
step:454/3242 train_loss:3.7746 train_time:64144ms step_avg:144.47ms
step:455/3242 train_loss:3.7352 train_time:64288ms step_avg:144.47ms
step:456/3242 train_loss:3.9498 train_time:64432ms step_avg:144.47ms
step:457/3242 train_loss:3.8232 train_time:64574ms step_avg:144.46ms
step:458/3242 train_loss:3.8918 train_time:64718ms step_avg:144.46ms
step:459/3242 train_loss:3.9277 train_time:64860ms step_avg:144.45ms
step:460/3242 train_loss:3.7401 train_time:65003ms step_avg:144.45ms
step:461/3242 train_loss:3.9066 train_time:65146ms step_avg:144.45ms
step:462/3242 train_loss:3.8079 train_time:65290ms step_avg:144.45ms
step:463/3242 train_loss:3.8322 train_time:65432ms step_avg:144.44ms
step:464/3242 train_loss:3.8738 train_time:65575ms step_avg:144.44ms
step:465/3242 train_loss:3.8130 train_time:65718ms step_avg:144.44ms
step:466/3242 train_loss:3.8220 train_time:65861ms step_avg:144.43ms
step:467/3242 train_loss:3.9049 train_time:66004ms step_avg:144.43ms
step:468/3242 train_loss:3.9267 train_time:66147ms step_avg:144.43ms
step:469/3242 train_loss:3.9003 train_time:66291ms step_avg:144.43ms
step:470/3242 train_loss:3.7923 train_time:66435ms step_avg:144.42ms
step:471/3242 train_loss:3.8684 train_time:66578ms step_avg:144.42ms
step:472/3242 train_loss:3.9252 train_time:66722ms step_avg:144.42ms
step:473/3242 train_loss:3.8825 train_time:66864ms step_avg:144.41ms
step:474/3242 train_loss:3.8203 train_time:67008ms step_avg:144.41ms
step:475/3242 train_loss:3.6832 train_time:67151ms step_avg:144.41ms
step:476/3242 train_loss:4.1245 train_time:67295ms step_avg:144.41ms
step:477/3242 train_loss:3.8690 train_time:67437ms step_avg:144.41ms
step:478/3242 train_loss:3.6868 train_time:67581ms step_avg:144.40ms
step:479/3242 train_loss:3.9195 train_time:67724ms step_avg:144.40ms
step:480/3242 train_loss:3.8685 train_time:67867ms step_avg:144.40ms
step:481/3242 train_loss:4.0149 train_time:68011ms step_avg:144.40ms
step:482/3242 train_loss:3.8289 train_time:68153ms step_avg:144.39ms
step:483/3242 train_loss:3.6394 train_time:68298ms step_avg:144.39ms
step:484/3242 train_loss:3.9164 train_time:68441ms step_avg:144.39ms
step:485/3242 train_loss:3.7728 train_time:68583ms step_avg:144.39ms
step:486/3242 train_loss:3.7739 train_time:68727ms step_avg:144.38ms
step:487/3242 train_loss:3.7047 train_time:68870ms step_avg:144.38ms
step:488/3242 train_loss:3.7818 train_time:69014ms step_avg:144.38ms
step:489/3242 train_loss:3.9764 train_time:69157ms step_avg:144.38ms
step:490/3242 train_loss:3.8238 train_time:69300ms step_avg:144.38ms
step:491/3242 train_loss:3.7035 train_time:69443ms step_avg:144.37ms
step:492/3242 train_loss:3.7243 train_time:69585ms step_avg:144.37ms
step:493/3242 train_loss:3.8397 train_time:69728ms step_avg:144.36ms
step:494/3242 train_loss:3.6914 train_time:69871ms step_avg:144.36ms
step:495/3242 train_loss:3.8194 train_time:70016ms step_avg:144.36ms
step:496/3242 train_loss:3.7628 train_time:70161ms step_avg:144.36ms
step:497/3242 train_loss:3.6414 train_time:70303ms step_avg:144.36ms
step:498/3242 train_loss:3.8349 train_time:70447ms step_avg:144.36ms
step:499/3242 train_loss:3.9066 train_time:70590ms step_avg:144.36ms
step:500/3242 train_loss:3.9374 train_time:70734ms step_avg:144.35ms
step:500/3242 val_loss:3.8158 train_time:70775ms step_avg:144.44ms
step:501/3242 train_loss:3.8537 train_time:70887ms step_avg:144.37ms
step:502/3242 train_loss:3.9080 train_time:71037ms step_avg:144.38ms
step:503/3242 train_loss:3.8554 train_time:71181ms step_avg:144.38ms
step:504/3242 train_loss:3.8888 train_time:71323ms step_avg:144.38ms
step:505/3242 train_loss:3.8337 train_time:71464ms step_avg:144.37ms
step:506/3242 train_loss:3.9251 train_time:71605ms step_avg:144.37ms
step:507/3242 train_loss:3.7515 train_time:71747ms step_avg:144.36ms
step:508/3242 train_loss:3.8703 train_time:71892ms step_avg:144.36ms
step:509/3242 train_loss:3.9421 train_time:72038ms step_avg:144.36ms
step:510/3242 train_loss:3.8824 train_time:72182ms step_avg:144.36ms
step:511/3242 train_loss:3.6964 train_time:72325ms step_avg:144.36ms
step:512/3242 train_loss:3.8878 train_time:72467ms step_avg:144.36ms
step:513/3242 train_loss:3.8281 train_time:72608ms step_avg:144.35ms
step:514/3242 train_loss:3.7864 train_time:72751ms step_avg:144.35ms
step:515/3242 train_loss:3.8832 train_time:72894ms step_avg:144.34ms
step:516/3242 train_loss:3.8458 train_time:73040ms step_avg:144.35ms
step:517/3242 train_loss:4.1884 train_time:73182ms step_avg:144.34ms
step:518/3242 train_loss:3.8036 train_time:73325ms step_avg:144.34ms
step:519/3242 train_loss:3.8961 train_time:73468ms step_avg:144.34ms
step:520/3242 train_loss:3.7969 train_time:73609ms step_avg:144.33ms
step:521/3242 train_loss:3.8059 train_time:73752ms step_avg:144.33ms
step:522/3242 train_loss:3.7568 train_time:73894ms step_avg:144.33ms
step:523/3242 train_loss:3.7691 train_time:74039ms step_avg:144.33ms
step:524/3242 train_loss:4.4057 train_time:74182ms step_avg:144.32ms
step:525/3242 train_loss:3.8520 train_time:74326ms step_avg:144.32ms
step:526/3242 train_loss:3.7928 train_time:74470ms step_avg:144.32ms
step:527/3242 train_loss:3.8070 train_time:74612ms step_avg:144.32ms
step:528/3242 train_loss:3.7691 train_time:74754ms step_avg:144.31ms
step:529/3242 train_loss:3.7393 train_time:74898ms step_avg:144.31ms
step:530/3242 train_loss:3.9551 train_time:75043ms step_avg:144.31ms
step:531/3242 train_loss:3.7636 train_time:75186ms step_avg:144.31ms
step:532/3242 train_loss:4.0326 train_time:75330ms step_avg:144.31ms
step:533/3242 train_loss:3.8392 train_time:75473ms step_avg:144.31ms
step:534/3242 train_loss:3.7716 train_time:75615ms step_avg:144.30ms
step:535/3242 train_loss:3.7944 train_time:75761ms step_avg:144.31ms
step:536/3242 train_loss:3.7279 train_time:75904ms step_avg:144.30ms
step:537/3242 train_loss:3.8567 train_time:76047ms step_avg:144.30ms
step:538/3242 train_loss:3.8425 train_time:76190ms step_avg:144.30ms
step:539/3242 train_loss:3.7410 train_time:76333ms step_avg:144.30ms
step:540/3242 train_loss:4.2455 train_time:76475ms step_avg:144.29ms
step:541/3242 train_loss:3.7848 train_time:76617ms step_avg:144.29ms
step:542/3242 train_loss:3.8957 train_time:76760ms step_avg:144.29ms
step:543/3242 train_loss:3.7152 train_time:76903ms step_avg:144.28ms
step:544/3242 train_loss:3.6939 train_time:77045ms step_avg:144.28ms
step:545/3242 train_loss:3.7767 train_time:77189ms step_avg:144.28ms
step:546/3242 train_loss:3.7021 train_time:77333ms step_avg:144.28ms
step:547/3242 train_loss:3.7541 train_time:77476ms step_avg:144.28ms
step:548/3242 train_loss:3.7605 train_time:77620ms step_avg:144.28ms
step:549/3242 train_loss:3.7351 train_time:77764ms step_avg:144.28ms
step:550/3242 train_loss:3.8375 train_time:77907ms step_avg:144.27ms
step:551/3242 train_loss:3.7210 train_time:78050ms step_avg:144.27ms
step:552/3242 train_loss:3.7421 train_time:78192ms step_avg:144.27ms
step:553/3242 train_loss:4.0617 train_time:78335ms step_avg:144.26ms
step:554/3242 train_loss:3.8632 train_time:78477ms step_avg:144.26ms
step:555/3242 train_loss:3.8251 train_time:78620ms step_avg:144.26ms
step:556/3242 train_loss:3.7584 train_time:78762ms step_avg:144.25ms
step:557/3242 train_loss:3.7994 train_time:78906ms step_avg:144.25ms
step:558/3242 train_loss:3.4650 train_time:79049ms step_avg:144.25ms
step:559/3242 train_loss:3.7267 train_time:79192ms step_avg:144.25ms
step:560/3242 train_loss:3.7657 train_time:79335ms step_avg:144.25ms
step:561/3242 train_loss:3.8192 train_time:79478ms step_avg:144.24ms
step:562/3242 train_loss:3.7275 train_time:79623ms step_avg:144.24ms
step:563/3242 train_loss:3.6710 train_time:79767ms step_avg:144.24ms
step:564/3242 train_loss:3.8737 train_time:79909ms step_avg:144.24ms
step:565/3242 train_loss:3.6863 train_time:80052ms step_avg:144.24ms
step:566/3242 train_loss:3.7964 train_time:80195ms step_avg:144.24ms
step:567/3242 train_loss:3.7430 train_time:80455ms step_avg:144.44ms
step:568/3242 train_loss:3.7079 train_time:80606ms step_avg:144.46ms
step:569/3242 train_loss:3.7981 train_time:80749ms step_avg:144.45ms
step:570/3242 train_loss:3.7664 train_time:81015ms step_avg:144.67ms
step:571/3242 train_loss:3.7987 train_time:81157ms step_avg:144.67ms
step:572/3242 train_loss:3.8797 train_time:81298ms step_avg:144.66ms
step:573/3242 train_loss:3.8341 train_time:81439ms step_avg:144.65ms
step:574/3242 train_loss:3.8424 train_time:81580ms step_avg:144.65ms
step:575/3242 train_loss:3.8935 train_time:81721ms step_avg:144.64ms
step:576/3242 train_loss:3.8459 train_time:81865ms step_avg:144.64ms
step:577/3242 train_loss:3.8686 train_time:82013ms step_avg:144.64ms
step:578/3242 train_loss:3.7933 train_time:82158ms step_avg:144.64ms
step:579/3242 train_loss:3.7936 train_time:82300ms step_avg:144.64ms
step:580/3242 train_loss:3.7802 train_time:82442ms step_avg:144.64ms
step:581/3242 train_loss:3.7106 train_time:82584ms step_avg:144.63ms
step:582/3242 train_loss:3.7410 train_time:82726ms step_avg:144.63ms
step:583/3242 train_loss:3.9627 train_time:82870ms step_avg:144.62ms
step:584/3242 train_loss:3.7356 train_time:83014ms step_avg:144.62ms
step:585/3242 train_loss:3.7089 train_time:83162ms step_avg:144.63ms
step:586/3242 train_loss:3.8934 train_time:83305ms step_avg:144.63ms
step:587/3242 train_loss:3.6474 train_time:83448ms step_avg:144.62ms
step:588/3242 train_loss:3.7782 train_time:83591ms step_avg:144.62ms
step:589/3242 train_loss:3.7559 train_time:83732ms step_avg:144.62ms
step:590/3242 train_loss:4.1091 train_time:83875ms step_avg:144.61ms
step:591/3242 train_loss:3.8972 train_time:84021ms step_avg:144.62ms
step:592/3242 train_loss:3.6316 train_time:84165ms step_avg:144.61ms
step:593/3242 train_loss:3.6465 train_time:84308ms step_avg:144.61ms
step:594/3242 train_loss:3.6324 train_time:84451ms step_avg:144.61ms
step:595/3242 train_loss:3.6823 train_time:84592ms step_avg:144.60ms
step:596/3242 train_loss:4.0456 train_time:84734ms step_avg:144.60ms
step:597/3242 train_loss:3.7662 train_time:84876ms step_avg:144.59ms
step:598/3242 train_loss:3.6983 train_time:85021ms step_avg:144.59ms
step:599/3242 train_loss:3.7741 train_time:85164ms step_avg:144.59ms
step:600/3242 train_loss:3.5914 train_time:85307ms step_avg:144.59ms
step:601/3242 train_loss:3.7094 train_time:85451ms step_avg:144.59ms
step:602/3242 train_loss:3.7501 train_time:85593ms step_avg:144.58ms
step:603/3242 train_loss:3.7746 train_time:85735ms step_avg:144.58ms
step:604/3242 train_loss:3.8946 train_time:85877ms step_avg:144.57ms
step:605/3242 train_loss:3.7416 train_time:86023ms step_avg:144.58ms
step:606/3242 train_loss:3.7283 train_time:86167ms step_avg:144.57ms
step:607/3242 train_loss:3.6905 train_time:86308ms step_avg:144.57ms
step:608/3242 train_loss:3.9335 train_time:86452ms step_avg:144.57ms
step:609/3242 train_loss:3.7626 train_time:86595ms step_avg:144.57ms
step:610/3242 train_loss:3.7282 train_time:86737ms step_avg:144.56ms
step:611/3242 train_loss:3.8315 train_time:86880ms step_avg:144.56ms
step:612/3242 train_loss:3.7295 train_time:87024ms step_avg:144.56ms
step:613/3242 train_loss:3.7144 train_time:87168ms step_avg:144.56ms
step:614/3242 train_loss:3.8881 train_time:87311ms step_avg:144.55ms
step:615/3242 train_loss:3.8311 train_time:87452ms step_avg:144.55ms
step:616/3242 train_loss:3.8066 train_time:87596ms step_avg:144.55ms
step:617/3242 train_loss:3.7338 train_time:87742ms step_avg:144.55ms
step:618/3242 train_loss:3.6836 train_time:87885ms step_avg:144.55ms
step:619/3242 train_loss:3.7944 train_time:88029ms step_avg:144.55ms
step:620/3242 train_loss:3.6892 train_time:88172ms step_avg:144.54ms
step:621/3242 train_loss:3.7068 train_time:88314ms step_avg:144.54ms
step:622/3242 train_loss:4.0247 train_time:88458ms step_avg:144.54ms
step:623/3242 train_loss:3.7038 train_time:88601ms step_avg:144.54ms
step:624/3242 train_loss:3.7285 train_time:88745ms step_avg:144.54ms
step:625/3242 train_loss:3.8118 train_time:88888ms step_avg:144.53ms
step:625/3242 val_loss:3.7403 train_time:88931ms step_avg:144.60ms
step:626/3242 train_loss:3.8305 train_time:89040ms step_avg:144.55ms
step:627/3242 train_loss:3.8566 train_time:89189ms step_avg:144.55ms
step:628/3242 train_loss:3.8454 train_time:89330ms step_avg:144.55ms
step:629/3242 train_loss:3.8814 train_time:89471ms step_avg:144.54ms
step:630/3242 train_loss:3.7113 train_time:89612ms step_avg:144.54ms
step:631/3242 train_loss:3.8378 train_time:89753ms step_avg:144.53ms
step:632/3242 train_loss:3.8625 train_time:89896ms step_avg:144.53ms
step:633/3242 train_loss:3.7658 train_time:90042ms step_avg:144.53ms
step:634/3242 train_loss:3.7030 train_time:90190ms step_avg:144.54ms
step:635/3242 train_loss:3.8053 train_time:90333ms step_avg:144.53ms
step:636/3242 train_loss:4.0574 train_time:90475ms step_avg:144.53ms
step:637/3242 train_loss:3.6489 train_time:90617ms step_avg:144.53ms
step:638/3242 train_loss:3.4686 train_time:90758ms step_avg:144.52ms
step:639/3242 train_loss:3.6952 train_time:90901ms step_avg:144.52ms
step:640/3242 train_loss:3.7352 train_time:91047ms step_avg:144.52ms
step:641/3242 train_loss:3.6878 train_time:91194ms step_avg:144.52ms
step:642/3242 train_loss:3.6934 train_time:91336ms step_avg:144.52ms
step:643/3242 train_loss:3.7325 train_time:91479ms step_avg:144.52ms
step:644/3242 train_loss:3.7272 train_time:91621ms step_avg:144.51ms
step:645/3242 train_loss:3.6672 train_time:91763ms step_avg:144.51ms
step:646/3242 train_loss:3.8888 train_time:91904ms step_avg:144.50ms
step:647/3242 train_loss:3.7878 train_time:92050ms step_avg:144.51ms
step:648/3242 train_loss:3.7860 train_time:92194ms step_avg:144.50ms
step:649/3242 train_loss:3.8093 train_time:92336ms step_avg:144.50ms
step:650/3242 train_loss:3.8806 train_time:92480ms step_avg:144.50ms
step:651/3242 train_loss:3.7387 train_time:92622ms step_avg:144.50ms
step:652/3242 train_loss:3.8722 train_time:92765ms step_avg:144.49ms
step:653/3242 train_loss:3.6947 train_time:92909ms step_avg:144.49ms
step:654/3242 train_loss:3.7758 train_time:93052ms step_avg:144.49ms
step:655/3242 train_loss:3.5435 train_time:93196ms step_avg:144.49ms
step:656/3242 train_loss:3.6882 train_time:93339ms step_avg:144.49ms
step:657/3242 train_loss:3.6985 train_time:93483ms step_avg:144.49ms
step:658/3242 train_loss:3.6228 train_time:93626ms step_avg:144.48ms
step:659/3242 train_loss:3.8019 train_time:93768ms step_avg:144.48ms
step:660/3242 train_loss:3.7033 train_time:93911ms step_avg:144.48ms
step:661/3242 train_loss:3.7915 train_time:94053ms step_avg:144.47ms
step:662/3242 train_loss:3.8649 train_time:94196ms step_avg:144.47ms
step:663/3242 train_loss:3.7821 train_time:94340ms step_avg:144.47ms
step:664/3242 train_loss:3.6602 train_time:94484ms step_avg:144.47ms
step:665/3242 train_loss:3.7460 train_time:94626ms step_avg:144.47ms
step:666/3242 train_loss:3.6102 train_time:94768ms step_avg:144.46ms
step:667/3242 train_loss:3.8953 train_time:94910ms step_avg:144.46ms
step:668/3242 train_loss:3.7344 train_time:95053ms step_avg:144.46ms
step:669/3242 train_loss:3.7473 train_time:95196ms step_avg:144.45ms
step:670/3242 train_loss:3.5973 train_time:95340ms step_avg:144.45ms
step:671/3242 train_loss:3.7123 train_time:95484ms step_avg:144.45ms
step:672/3242 train_loss:3.6693 train_time:95627ms step_avg:144.45ms
step:673/3242 train_loss:3.6868 train_time:95769ms step_avg:144.45ms
step:674/3242 train_loss:3.9606 train_time:95910ms step_avg:144.44ms
step:675/3242 train_loss:3.7484 train_time:96053ms step_avg:144.44ms
step:676/3242 train_loss:3.8233 train_time:96196ms step_avg:144.44ms
step:677/3242 train_loss:3.6067 train_time:96341ms step_avg:144.44ms
step:678/3242 train_loss:3.7179 train_time:96485ms step_avg:144.44ms
step:679/3242 train_loss:3.6634 train_time:96627ms step_avg:144.44ms
step:680/3242 train_loss:3.8016 train_time:96770ms step_avg:144.43ms
step:681/3242 train_loss:3.6975 train_time:96911ms step_avg:144.43ms
step:682/3242 train_loss:3.7269 train_time:97053ms step_avg:144.42ms
step:683/3242 train_loss:3.8054 train_time:97196ms step_avg:144.42ms
step:684/3242 train_loss:3.8469 train_time:97338ms step_avg:144.42ms
step:685/3242 train_loss:3.7511 train_time:97481ms step_avg:144.42ms
step:686/3242 train_loss:3.8144 train_time:97625ms step_avg:144.41ms
step:687/3242 train_loss:3.7478 train_time:97767ms step_avg:144.41ms
step:688/3242 train_loss:3.7973 train_time:97909ms step_avg:144.41ms
step:689/3242 train_loss:3.3971 train_time:98051ms step_avg:144.41ms
step:690/3242 train_loss:3.5293 train_time:98194ms step_avg:144.40ms
step:691/3242 train_loss:3.6676 train_time:98337ms step_avg:144.40ms
step:692/3242 train_loss:3.5446 train_time:98480ms step_avg:144.40ms
step:693/3242 train_loss:3.7593 train_time:98625ms step_avg:144.40ms
step:694/3242 train_loss:3.7781 train_time:98767ms step_avg:144.40ms
step:695/3242 train_loss:3.6649 train_time:98909ms step_avg:144.39ms
step:696/3242 train_loss:3.6593 train_time:99052ms step_avg:144.39ms
step:697/3242 train_loss:3.9729 train_time:99194ms step_avg:144.39ms
step:698/3242 train_loss:3.7179 train_time:99337ms step_avg:144.38ms
step:699/3242 train_loss:3.7561 train_time:99480ms step_avg:144.38ms
step:700/3242 train_loss:3.9162 train_time:99624ms step_avg:144.38ms
step:701/3242 train_loss:3.6881 train_time:99766ms step_avg:144.38ms
step:702/3242 train_loss:3.6544 train_time:99908ms step_avg:144.38ms
step:703/3242 train_loss:3.6399 train_time:100051ms step_avg:144.37ms
step:704/3242 train_loss:3.6007 train_time:100194ms step_avg:144.37ms
step:705/3242 train_loss:3.6818 train_time:100337ms step_avg:144.37ms
step:706/3242 train_loss:3.6755 train_time:100482ms step_avg:144.37ms
step:707/3242 train_loss:3.6897 train_time:100624ms step_avg:144.37ms
step:708/3242 train_loss:3.7565 train_time:100767ms step_avg:144.37ms
step:709/3242 train_loss:3.7143 train_time:100910ms step_avg:144.36ms
step:710/3242 train_loss:3.6948 train_time:101053ms step_avg:144.36ms
step:711/3242 train_loss:3.6557 train_time:101195ms step_avg:144.36ms
step:712/3242 train_loss:3.6991 train_time:101338ms step_avg:144.36ms
step:713/3242 train_loss:3.7589 train_time:101481ms step_avg:144.35ms
step:714/3242 train_loss:3.7657 train_time:101624ms step_avg:144.35ms
step:715/3242 train_loss:3.6823 train_time:101766ms step_avg:144.35ms
step:716/3242 train_loss:3.6839 train_time:101909ms step_avg:144.35ms
step:717/3242 train_loss:3.6976 train_time:102051ms step_avg:144.34ms
step:718/3242 train_loss:3.8488 train_time:102194ms step_avg:144.34ms
step:719/3242 train_loss:3.7062 train_time:102337ms step_avg:144.34ms
step:720/3242 train_loss:3.7835 train_time:102480ms step_avg:144.34ms
step:721/3242 train_loss:3.9492 train_time:102623ms step_avg:144.34ms
step:722/3242 train_loss:3.5760 train_time:102766ms step_avg:144.33ms
step:723/3242 train_loss:3.8408 train_time:102909ms step_avg:144.33ms
step:724/3242 train_loss:3.8897 train_time:103052ms step_avg:144.33ms
step:725/3242 train_loss:3.6742 train_time:103195ms step_avg:144.33ms
step:726/3242 train_loss:3.7604 train_time:103338ms step_avg:144.33ms
step:727/3242 train_loss:3.6530 train_time:103482ms step_avg:144.33ms
step:728/3242 train_loss:3.6772 train_time:103625ms step_avg:144.32ms
step:729/3242 train_loss:3.8528 train_time:103768ms step_avg:144.32ms
step:730/3242 train_loss:3.7972 train_time:103911ms step_avg:144.32ms
step:731/3242 train_loss:3.7844 train_time:104053ms step_avg:144.32ms
step:732/3242 train_loss:3.6782 train_time:104197ms step_avg:144.32ms
step:733/3242 train_loss:3.7052 train_time:104341ms step_avg:144.32ms
step:734/3242 train_loss:3.9389 train_time:104485ms step_avg:144.32ms
step:735/3242 train_loss:3.6766 train_time:104627ms step_avg:144.31ms
step:736/3242 train_loss:3.7326 train_time:104771ms step_avg:144.31ms
step:737/3242 train_loss:3.8590 train_time:104913ms step_avg:144.31ms
step:738/3242 train_loss:3.7749 train_time:105056ms step_avg:144.31ms
step:739/3242 train_loss:3.7158 train_time:105199ms step_avg:144.31ms
step:740/3242 train_loss:3.6122 train_time:105343ms step_avg:144.31ms
step:741/3242 train_loss:4.2504 train_time:105487ms step_avg:144.31ms
step:742/3242 train_loss:3.6071 train_time:105630ms step_avg:144.30ms
step:743/3242 train_loss:3.6887 train_time:105773ms step_avg:144.30ms
step:744/3242 train_loss:3.7004 train_time:105915ms step_avg:144.30ms
step:745/3242 train_loss:3.7528 train_time:106059ms step_avg:144.30ms
step:746/3242 train_loss:3.7260 train_time:106201ms step_avg:144.30ms
step:747/3242 train_loss:3.7141 train_time:106345ms step_avg:144.29ms
step:748/3242 train_loss:3.7456 train_time:106490ms step_avg:144.29ms
step:749/3242 train_loss:3.6707 train_time:106632ms step_avg:144.29ms
step:750/3242 train_loss:3.6769 train_time:106775ms step_avg:144.29ms
step:750/3242 val_loss:3.6848 train_time:106819ms step_avg:144.35ms
step:751/3242 train_loss:3.7113 train_time:106934ms step_avg:144.31ms
step:752/3242 train_loss:3.6729 train_time:107079ms step_avg:144.31ms
step:753/3242 train_loss:3.7125 train_time:107220ms step_avg:144.31ms
step:754/3242 train_loss:3.7291 train_time:107360ms step_avg:144.30ms
step:755/3242 train_loss:3.7004 train_time:107501ms step_avg:144.30ms
step:756/3242 train_loss:3.7747 train_time:107763ms step_avg:144.45ms
step:757/3242 train_loss:3.6003 train_time:107913ms step_avg:144.46ms
step:758/3242 train_loss:3.8466 train_time:108053ms step_avg:144.46ms
step:759/3242 train_loss:3.7604 train_time:108194ms step_avg:144.45ms
step:760/3242 train_loss:3.7006 train_time:108479ms step_avg:144.64ms
step:761/3242 train_loss:3.8063 train_time:108619ms step_avg:144.63ms
step:762/3242 train_loss:3.5145 train_time:108759ms step_avg:144.63ms
step:763/3242 train_loss:3.6654 train_time:108900ms step_avg:144.62ms
step:764/3242 train_loss:3.7747 train_time:109041ms step_avg:144.62ms
step:765/3242 train_loss:3.4317 train_time:109181ms step_avg:144.61ms
step:766/3242 train_loss:3.8535 train_time:109324ms step_avg:144.61ms
step:767/3242 train_loss:3.6976 train_time:109476ms step_avg:144.62ms
step:768/3242 train_loss:3.6800 train_time:109620ms step_avg:144.62ms
step:769/3242 train_loss:3.6894 train_time:109763ms step_avg:144.62ms
step:770/3242 train_loss:3.7153 train_time:109905ms step_avg:144.61ms
step:771/3242 train_loss:3.7628 train_time:110046ms step_avg:144.61ms
step:772/3242 train_loss:3.9919 train_time:110188ms step_avg:144.60ms
step:773/3242 train_loss:3.5745 train_time:110332ms step_avg:144.60ms
step:774/3242 train_loss:3.7668 train_time:110476ms step_avg:144.60ms
step:775/3242 train_loss:3.7516 train_time:110621ms step_avg:144.60ms
step:776/3242 train_loss:3.7206 train_time:110765ms step_avg:144.60ms
step:777/3242 train_loss:3.5234 train_time:110909ms step_avg:144.60ms
step:778/3242 train_loss:3.5194 train_time:111050ms step_avg:144.60ms
step:779/3242 train_loss:3.5970 train_time:111192ms step_avg:144.59ms
step:780/3242 train_loss:3.6814 train_time:111334ms step_avg:144.59ms
step:781/3242 train_loss:3.7136 train_time:111478ms step_avg:144.59ms
step:782/3242 train_loss:3.7767 train_time:111622ms step_avg:144.59ms
step:783/3242 train_loss:3.6925 train_time:111766ms step_avg:144.59ms
step:784/3242 train_loss:3.6788 train_time:111910ms step_avg:144.59ms
step:785/3242 train_loss:3.6975 train_time:112050ms step_avg:144.58ms
step:786/3242 train_loss:3.6633 train_time:112194ms step_avg:144.58ms
step:787/3242 train_loss:3.5708 train_time:112336ms step_avg:144.58ms
step:788/3242 train_loss:3.8138 train_time:112481ms step_avg:144.58ms
step:789/3242 train_loss:3.6178 train_time:112626ms step_avg:144.58ms
step:790/3242 train_loss:3.6748 train_time:112771ms step_avg:144.58ms
step:791/3242 train_loss:3.7464 train_time:112914ms step_avg:144.58ms
step:792/3242 train_loss:3.8747 train_time:113059ms step_avg:144.58ms
step:793/3242 train_loss:3.8811 train_time:113200ms step_avg:144.57ms
step:794/3242 train_loss:3.5933 train_time:113344ms step_avg:144.57ms
step:795/3242 train_loss:3.7163 train_time:113488ms step_avg:144.57ms
step:796/3242 train_loss:3.7736 train_time:113632ms step_avg:144.57ms
step:797/3242 train_loss:3.8859 train_time:113776ms step_avg:144.57ms
step:798/3242 train_loss:3.6346 train_time:113920ms step_avg:144.57ms
step:799/3242 train_loss:3.7744 train_time:114063ms step_avg:144.57ms
step:800/3242 train_loss:3.6667 train_time:114207ms step_avg:144.57ms
step:801/3242 train_loss:3.6538 train_time:114348ms step_avg:144.56ms
step:802/3242 train_loss:3.7447 train_time:114492ms step_avg:144.56ms
step:803/3242 train_loss:3.6065 train_time:114635ms step_avg:144.56ms
step:804/3242 train_loss:3.6338 train_time:114777ms step_avg:144.56ms
step:805/3242 train_loss:3.7453 train_time:114920ms step_avg:144.55ms
step:806/3242 train_loss:3.6406 train_time:115064ms step_avg:144.55ms
step:807/3242 train_loss:3.6638 train_time:115208ms step_avg:144.55ms
step:808/3242 train_loss:3.7579 train_time:115349ms step_avg:144.55ms
step:809/3242 train_loss:3.6758 train_time:115493ms step_avg:144.55ms
step:810/3242 train_loss:3.6008 train_time:115636ms step_avg:144.54ms
step:811/3242 train_loss:3.6826 train_time:115781ms step_avg:144.55ms
step:812/3242 train_loss:3.7125 train_time:115924ms step_avg:144.54ms
step:813/3242 train_loss:3.7100 train_time:116067ms step_avg:144.54ms
step:814/3242 train_loss:3.7419 train_time:116210ms step_avg:144.54ms
step:815/3242 train_loss:3.6839 train_time:116351ms step_avg:144.54ms
step:816/3242 train_loss:3.6733 train_time:116494ms step_avg:144.53ms
step:817/3242 train_loss:3.7817 train_time:116637ms step_avg:144.53ms
step:818/3242 train_loss:3.8781 train_time:116780ms step_avg:144.53ms
step:819/3242 train_loss:3.6402 train_time:116923ms step_avg:144.53ms
step:820/3242 train_loss:3.8395 train_time:117068ms step_avg:144.53ms
step:821/3242 train_loss:3.6194 train_time:117211ms step_avg:144.53ms
step:822/3242 train_loss:3.6595 train_time:117353ms step_avg:144.52ms
step:823/3242 train_loss:3.7922 train_time:117495ms step_avg:144.52ms
step:824/3242 train_loss:3.6930 train_time:117637ms step_avg:144.52ms
step:825/3242 train_loss:3.6275 train_time:117781ms step_avg:144.52ms
step:826/3242 train_loss:3.7267 train_time:117926ms step_avg:144.52ms
step:827/3242 train_loss:3.6154 train_time:118068ms step_avg:144.51ms
step:828/3242 train_loss:3.8422 train_time:118211ms step_avg:144.51ms
step:829/3242 train_loss:3.7315 train_time:118353ms step_avg:144.51ms
step:830/3242 train_loss:3.7848 train_time:118495ms step_avg:144.51ms
step:831/3242 train_loss:3.6507 train_time:118640ms step_avg:144.51ms
step:832/3242 train_loss:3.7031 train_time:118782ms step_avg:144.50ms
step:833/3242 train_loss:3.6339 train_time:118926ms step_avg:144.50ms
step:834/3242 train_loss:3.7610 train_time:119069ms step_avg:144.50ms
step:835/3242 train_loss:3.5971 train_time:119213ms step_avg:144.50ms
step:836/3242 train_loss:3.5678 train_time:119355ms step_avg:144.50ms
step:837/3242 train_loss:3.8320 train_time:119499ms step_avg:144.50ms
step:838/3242 train_loss:3.5271 train_time:119644ms step_avg:144.50ms
step:839/3242 train_loss:3.7049 train_time:119788ms step_avg:144.50ms
step:840/3242 train_loss:3.5420 train_time:119932ms step_avg:144.50ms
step:841/3242 train_loss:3.5840 train_time:120075ms step_avg:144.49ms
step:842/3242 train_loss:3.6724 train_time:120217ms step_avg:144.49ms
step:843/3242 train_loss:3.6998 train_time:120361ms step_avg:144.49ms
step:844/3242 train_loss:3.6910 train_time:120505ms step_avg:144.49ms
step:845/3242 train_loss:3.5460 train_time:120648ms step_avg:144.49ms
step:846/3242 train_loss:3.7809 train_time:120792ms step_avg:144.49ms
step:847/3242 train_loss:3.6425 train_time:120935ms step_avg:144.49ms
step:848/3242 train_loss:3.6075 train_time:121078ms step_avg:144.48ms
step:849/3242 train_loss:3.7428 train_time:121222ms step_avg:144.48ms
step:850/3242 train_loss:3.6153 train_time:121366ms step_avg:144.48ms
step:851/3242 train_loss:3.5609 train_time:121509ms step_avg:144.48ms
step:852/3242 train_loss:3.8490 train_time:121651ms step_avg:144.48ms
step:853/3242 train_loss:3.5684 train_time:121797ms step_avg:144.48ms
step:854/3242 train_loss:3.6817 train_time:121939ms step_avg:144.48ms
step:855/3242 train_loss:3.7617 train_time:122083ms step_avg:144.48ms
step:856/3242 train_loss:3.6353 train_time:122227ms step_avg:144.48ms
step:857/3242 train_loss:3.6638 train_time:122371ms step_avg:144.48ms
step:858/3242 train_loss:3.7174 train_time:122513ms step_avg:144.47ms
step:859/3242 train_loss:3.5976 train_time:122657ms step_avg:144.47ms
step:860/3242 train_loss:3.6780 train_time:122800ms step_avg:144.47ms
step:861/3242 train_loss:3.7072 train_time:122943ms step_avg:144.47ms
step:862/3242 train_loss:3.7515 train_time:123087ms step_avg:144.47ms
step:863/3242 train_loss:3.7158 train_time:123230ms step_avg:144.47ms
step:864/3242 train_loss:3.6900 train_time:123372ms step_avg:144.46ms
step:865/3242 train_loss:3.5083 train_time:123514ms step_avg:144.46ms
step:866/3242 train_loss:3.7040 train_time:123658ms step_avg:144.46ms
step:867/3242 train_loss:3.9839 train_time:123802ms step_avg:144.46ms
step:868/3242 train_loss:3.5686 train_time:123944ms step_avg:144.46ms
step:869/3242 train_loss:3.7465 train_time:124088ms step_avg:144.46ms
step:870/3242 train_loss:3.7296 train_time:124231ms step_avg:144.45ms
step:871/3242 train_loss:3.5665 train_time:124373ms step_avg:144.45ms
step:872/3242 train_loss:3.5345 train_time:124516ms step_avg:144.45ms
step:873/3242 train_loss:3.7761 train_time:124660ms step_avg:144.45ms
step:874/3242 train_loss:3.5651 train_time:124803ms step_avg:144.45ms
step:875/3242 train_loss:3.3066 train_time:124946ms step_avg:144.45ms
step:875/3242 val_loss:3.6393 train_time:124989ms step_avg:144.50ms
step:876/3242 train_loss:3.7547 train_time:125099ms step_avg:144.46ms
step:877/3242 train_loss:3.5645 train_time:125246ms step_avg:144.46ms
step:878/3242 train_loss:3.7400 train_time:125389ms step_avg:144.46ms
step:879/3242 train_loss:3.5922 train_time:125530ms step_avg:144.45ms
step:880/3242 train_loss:3.7683 train_time:125672ms step_avg:144.45ms
step:881/3242 train_loss:3.4407 train_time:125813ms step_avg:144.45ms
step:882/3242 train_loss:3.6054 train_time:125955ms step_avg:144.44ms
step:883/3242 train_loss:3.8019 train_time:126103ms step_avg:144.45ms
step:884/3242 train_loss:3.9579 train_time:126249ms step_avg:144.45ms
step:885/3242 train_loss:3.6792 train_time:126391ms step_avg:144.45ms
step:886/3242 train_loss:3.6027 train_time:126534ms step_avg:144.44ms
step:887/3242 train_loss:3.6917 train_time:126676ms step_avg:144.44ms
step:888/3242 train_loss:4.1975 train_time:126818ms step_avg:144.44ms
step:889/3242 train_loss:3.9581 train_time:126960ms step_avg:144.44ms
step:890/3242 train_loss:3.6346 train_time:127104ms step_avg:144.44ms
step:891/3242 train_loss:3.6505 train_time:127249ms step_avg:144.44ms
step:892/3242 train_loss:3.4766 train_time:127391ms step_avg:144.43ms
step:893/3242 train_loss:3.8233 train_time:127536ms step_avg:144.43ms
step:894/3242 train_loss:3.5379 train_time:127678ms step_avg:144.43ms
step:895/3242 train_loss:3.7872 train_time:127819ms step_avg:144.43ms
step:896/3242 train_loss:3.8041 train_time:127962ms step_avg:144.43ms
step:897/3242 train_loss:3.6149 train_time:128106ms step_avg:144.43ms
step:898/3242 train_loss:3.6552 train_time:128250ms step_avg:144.43ms
step:899/3242 train_loss:3.7026 train_time:128393ms step_avg:144.42ms
step:900/3242 train_loss:3.5926 train_time:128537ms step_avg:144.42ms
step:901/3242 train_loss:3.5350 train_time:128679ms step_avg:144.42ms
step:902/3242 train_loss:3.7448 train_time:128822ms step_avg:144.42ms
step:903/3242 train_loss:3.7513 train_time:128965ms step_avg:144.42ms
step:904/3242 train_loss:3.6547 train_time:129109ms step_avg:144.42ms
step:905/3242 train_loss:3.6183 train_time:129252ms step_avg:144.42ms
step:906/3242 train_loss:3.6079 train_time:129396ms step_avg:144.41ms
step:907/3242 train_loss:3.8374 train_time:129538ms step_avg:144.41ms
step:908/3242 train_loss:3.6279 train_time:129681ms step_avg:144.41ms
step:909/3242 train_loss:3.6701 train_time:129824ms step_avg:144.41ms
step:910/3242 train_loss:3.5750 train_time:129966ms step_avg:144.41ms
step:911/3242 train_loss:3.6609 train_time:130109ms step_avg:144.40ms
step:912/3242 train_loss:3.7377 train_time:130252ms step_avg:144.40ms
step:913/3242 train_loss:3.7191 train_time:130397ms step_avg:144.40ms
step:914/3242 train_loss:3.6013 train_time:130539ms step_avg:144.40ms
step:915/3242 train_loss:3.8553 train_time:130681ms step_avg:144.40ms
step:916/3242 train_loss:3.6457 train_time:130824ms step_avg:144.40ms
step:917/3242 train_loss:3.7397 train_time:130967ms step_avg:144.40ms
step:918/3242 train_loss:3.7102 train_time:131110ms step_avg:144.39ms
step:919/3242 train_loss:4.9753 train_time:131253ms step_avg:144.39ms
step:920/3242 train_loss:3.6309 train_time:131396ms step_avg:144.39ms
step:921/3242 train_loss:3.6868 train_time:131539ms step_avg:144.39ms
step:922/3242 train_loss:3.6517 train_time:131682ms step_avg:144.39ms
step:923/3242 train_loss:3.6983 train_time:131826ms step_avg:144.39ms
step:924/3242 train_loss:3.7169 train_time:131967ms step_avg:144.38ms
step:925/3242 train_loss:3.8010 train_time:132113ms step_avg:144.39ms
step:926/3242 train_loss:3.7783 train_time:132257ms step_avg:144.39ms
step:927/3242 train_loss:3.6688 train_time:132400ms step_avg:144.38ms
step:928/3242 train_loss:3.6584 train_time:132544ms step_avg:144.38ms
step:929/3242 train_loss:3.8926 train_time:132687ms step_avg:144.38ms
step:930/3242 train_loss:3.7328 train_time:132830ms step_avg:144.38ms
step:931/3242 train_loss:3.5167 train_time:132975ms step_avg:144.38ms
step:932/3242 train_loss:3.6120 train_time:133120ms step_avg:144.38ms
step:933/3242 train_loss:3.7875 train_time:133263ms step_avg:144.38ms
step:934/3242 train_loss:3.5197 train_time:133407ms step_avg:144.38ms
step:935/3242 train_loss:3.6892 train_time:133550ms step_avg:144.38ms
step:936/3242 train_loss:3.5618 train_time:133693ms step_avg:144.38ms
step:937/3242 train_loss:3.6291 train_time:133835ms step_avg:144.37ms
step:938/3242 train_loss:3.7257 train_time:133979ms step_avg:144.37ms
step:939/3242 train_loss:3.6556 train_time:134122ms step_avg:144.37ms
step:940/3242 train_loss:3.8153 train_time:134264ms step_avg:144.37ms
step:941/3242 train_loss:3.5938 train_time:134407ms step_avg:144.37ms
step:942/3242 train_loss:3.6619 train_time:134550ms step_avg:144.37ms
step:943/3242 train_loss:3.4657 train_time:134693ms step_avg:144.36ms
step:944/3242 train_loss:3.8184 train_time:134834ms step_avg:144.36ms
step:945/3242 train_loss:3.5236 train_time:135094ms step_avg:144.49ms
step:946/3242 train_loss:3.5376 train_time:135242ms step_avg:144.49ms
step:947/3242 train_loss:5.1707 train_time:135385ms step_avg:144.49ms
step:948/3242 train_loss:3.7175 train_time:135527ms step_avg:144.49ms
step:949/3242 train_loss:3.6113 train_time:135668ms step_avg:144.48ms
step:950/3242 train_loss:3.5096 train_time:135941ms step_avg:144.62ms
step:951/3242 train_loss:3.5645 train_time:136083ms step_avg:144.62ms
step:952/3242 train_loss:3.5180 train_time:136225ms step_avg:144.61ms
step:953/3242 train_loss:3.5920 train_time:136365ms step_avg:144.61ms
step:954/3242 train_loss:3.6754 train_time:136506ms step_avg:144.60ms
step:955/3242 train_loss:3.5509 train_time:136646ms step_avg:144.60ms
step:956/3242 train_loss:3.5887 train_time:136792ms step_avg:144.60ms
step:957/3242 train_loss:3.5616 train_time:136938ms step_avg:144.60ms
step:958/3242 train_loss:3.6201 train_time:137082ms step_avg:144.60ms
step:959/3242 train_loss:3.6110 train_time:137225ms step_avg:144.60ms
step:960/3242 train_loss:3.6297 train_time:137366ms step_avg:144.60ms
step:961/3242 train_loss:3.5108 train_time:137508ms step_avg:144.59ms
step:962/3242 train_loss:3.7720 train_time:137649ms step_avg:144.59ms
step:963/3242 train_loss:3.7166 train_time:137793ms step_avg:144.59ms
step:964/3242 train_loss:3.5286 train_time:137938ms step_avg:144.59ms
step:965/3242 train_loss:3.5685 train_time:138085ms step_avg:144.59ms
step:966/3242 train_loss:3.5961 train_time:138229ms step_avg:144.59ms
step:967/3242 train_loss:3.8220 train_time:138371ms step_avg:144.59ms
step:968/3242 train_loss:3.6473 train_time:138513ms step_avg:144.59ms
step:969/3242 train_loss:3.6331 train_time:138655ms step_avg:144.58ms
step:970/3242 train_loss:3.6982 train_time:138798ms step_avg:144.58ms
step:971/3242 train_loss:3.5015 train_time:138943ms step_avg:144.58ms
step:972/3242 train_loss:3.6613 train_time:139088ms step_avg:144.58ms
step:973/3242 train_loss:3.6143 train_time:139230ms step_avg:144.58ms
step:974/3242 train_loss:3.6501 train_time:139372ms step_avg:144.58ms
step:975/3242 train_loss:3.7239 train_time:139514ms step_avg:144.57ms
step:976/3242 train_loss:3.5980 train_time:139657ms step_avg:144.57ms
step:977/3242 train_loss:3.7992 train_time:139800ms step_avg:144.57ms
step:978/3242 train_loss:3.6864 train_time:139944ms step_avg:144.57ms
step:979/3242 train_loss:3.5034 train_time:140088ms step_avg:144.57ms
step:980/3242 train_loss:3.7927 train_time:140231ms step_avg:144.57ms
step:981/3242 train_loss:3.5369 train_time:140374ms step_avg:144.57ms
step:982/3242 train_loss:3.6954 train_time:140517ms step_avg:144.56ms
step:983/3242 train_loss:3.6772 train_time:140660ms step_avg:144.56ms
step:984/3242 train_loss:3.6724 train_time:140802ms step_avg:144.56ms
step:985/3242 train_loss:3.6201 train_time:140945ms step_avg:144.56ms
step:986/3242 train_loss:3.7108 train_time:141089ms step_avg:144.56ms
step:987/3242 train_loss:3.5367 train_time:141232ms step_avg:144.56ms
step:988/3242 train_loss:3.6028 train_time:141376ms step_avg:144.56ms
step:989/3242 train_loss:3.6226 train_time:141519ms step_avg:144.55ms
step:990/3242 train_loss:3.5478 train_time:141661ms step_avg:144.55ms
step:991/3242 train_loss:3.7639 train_time:141804ms step_avg:144.55ms
step:992/3242 train_loss:3.5831 train_time:141947ms step_avg:144.55ms
step:993/3242 train_loss:3.5602 train_time:142090ms step_avg:144.55ms
step:994/3242 train_loss:3.6327 train_time:142235ms step_avg:144.55ms
step:995/3242 train_loss:3.7143 train_time:142379ms step_avg:144.55ms
step:996/3242 train_loss:3.6590 train_time:142521ms step_avg:144.54ms
step:997/3242 train_loss:3.5671 train_time:142664ms step_avg:144.54ms
step:998/3242 train_loss:3.9189 train_time:142806ms step_avg:144.54ms
step:999/3242 train_loss:3.5842 train_time:142948ms step_avg:144.54ms
step:1000/3242 train_loss:3.7079 train_time:143092ms step_avg:144.54ms
step:1000/3242 val_loss:3.6001 train_time:143135ms step_avg:144.58ms
step:1001/3242 train_loss:3.5769 train_time:143239ms step_avg:144.54ms
step:1002/3242 train_loss:3.6254 train_time:143393ms step_avg:144.55ms
step:1003/3242 train_loss:3.5031 train_time:143534ms step_avg:144.55ms
step:1004/3242 train_loss:3.6907 train_time:143676ms step_avg:144.54ms
step:1005/3242 train_loss:3.7413 train_time:143817ms step_avg:144.54ms
step:1006/3242 train_loss:3.5192 train_time:143959ms step_avg:144.54ms
step:1007/3242 train_loss:3.6005 train_time:144102ms step_avg:144.54ms
step:1008/3242 train_loss:3.5670 train_time:144250ms step_avg:144.54ms
step:1009/3242 train_loss:3.6874 train_time:144396ms step_avg:144.54ms
step:1010/3242 train_loss:3.7879 train_time:144538ms step_avg:144.54ms
step:1011/3242 train_loss:3.6857 train_time:144680ms step_avg:144.54ms
step:1012/3242 train_loss:3.6482 train_time:144821ms step_avg:144.53ms
step:1013/3242 train_loss:3.5129 train_time:144963ms step_avg:144.53ms
step:1014/3242 train_loss:3.6490 train_time:145106ms step_avg:144.53ms
step:1015/3242 train_loss:3.7594 train_time:145250ms step_avg:144.53ms
step:1016/3242 train_loss:3.4713 train_time:145394ms step_avg:144.53ms
step:1017/3242 train_loss:3.5600 train_time:145537ms step_avg:144.53ms
step:1018/3242 train_loss:3.5539 train_time:145680ms step_avg:144.52ms
step:1019/3242 train_loss:3.5083 train_time:145821ms step_avg:144.52ms
step:1020/3242 train_loss:3.6512 train_time:145963ms step_avg:144.52ms
step:1021/3242 train_loss:3.5567 train_time:146107ms step_avg:144.52ms
step:1022/3242 train_loss:3.4945 train_time:146250ms step_avg:144.52ms
step:1023/3242 train_loss:3.6088 train_time:146394ms step_avg:144.52ms
step:1024/3242 train_loss:3.6362 train_time:146537ms step_avg:144.51ms
step:1025/3242 train_loss:3.6118 train_time:146680ms step_avg:144.51ms
step:1026/3242 train_loss:3.6141 train_time:146821ms step_avg:144.51ms
step:1027/3242 train_loss:3.7804 train_time:146963ms step_avg:144.51ms
step:1028/3242 train_loss:3.4630 train_time:147107ms step_avg:144.51ms
step:1029/3242 train_loss:3.5290 train_time:147249ms step_avg:144.50ms
step:1030/3242 train_loss:3.4797 train_time:147393ms step_avg:144.50ms
step:1031/3242 train_loss:3.6510 train_time:147536ms step_avg:144.50ms
step:1032/3242 train_loss:3.6339 train_time:147678ms step_avg:144.50ms
step:1033/3242 train_loss:3.8113 train_time:147819ms step_avg:144.50ms
step:1034/3242 train_loss:3.6294 train_time:147962ms step_avg:144.49ms
step:1035/3242 train_loss:3.5529 train_time:148105ms step_avg:144.49ms
step:1036/3242 train_loss:3.5658 train_time:148249ms step_avg:144.49ms
step:1037/3242 train_loss:3.6237 train_time:148392ms step_avg:144.49ms
step:1038/3242 train_loss:3.9342 train_time:148536ms step_avg:144.49ms
step:1039/3242 train_loss:3.7522 train_time:148680ms step_avg:144.49ms
step:1040/3242 train_loss:3.6511 train_time:148822ms step_avg:144.49ms
step:1041/3242 train_loss:3.5458 train_time:148964ms step_avg:144.49ms
step:1042/3242 train_loss:3.6199 train_time:149108ms step_avg:144.48ms
step:1043/3242 train_loss:3.6572 train_time:149251ms step_avg:144.48ms
step:1044/3242 train_loss:3.5854 train_time:149394ms step_avg:144.48ms
step:1045/3242 train_loss:3.5929 train_time:149537ms step_avg:144.48ms
step:1046/3242 train_loss:3.6687 train_time:149681ms step_avg:144.48ms
step:1047/3242 train_loss:3.5746 train_time:149824ms step_avg:144.48ms
step:1048/3242 train_loss:3.7781 train_time:149966ms step_avg:144.48ms
step:1049/3242 train_loss:3.6371 train_time:150110ms step_avg:144.48ms
step:1050/3242 train_loss:3.5554 train_time:150254ms step_avg:144.47ms
step:1051/3242 train_loss:3.5227 train_time:150398ms step_avg:144.47ms
step:1052/3242 train_loss:3.6438 train_time:150542ms step_avg:144.47ms
step:1053/3242 train_loss:3.5210 train_time:150684ms step_avg:144.47ms
step:1054/3242 train_loss:3.8464 train_time:150827ms step_avg:144.47ms
step:1055/3242 train_loss:3.6826 train_time:150969ms step_avg:144.47ms
step:1056/3242 train_loss:3.5367 train_time:151112ms step_avg:144.47ms
step:1057/3242 train_loss:3.6431 train_time:151254ms step_avg:144.46ms
step:1058/3242 train_loss:3.7133 train_time:151398ms step_avg:144.46ms
step:1059/3242 train_loss:3.4371 train_time:151543ms step_avg:144.46ms
step:1060/3242 train_loss:3.5595 train_time:151686ms step_avg:144.46ms
step:1061/3242 train_loss:3.5850 train_time:151831ms step_avg:144.46ms
step:1062/3242 train_loss:3.5531 train_time:151975ms step_avg:144.46ms
step:1063/3242 train_loss:3.5280 train_time:152118ms step_avg:144.46ms
step:1064/3242 train_loss:3.6235 train_time:152262ms step_avg:144.46ms
step:1065/3242 train_loss:3.5228 train_time:152405ms step_avg:144.46ms
step:1066/3242 train_loss:3.5163 train_time:152548ms step_avg:144.46ms
step:1067/3242 train_loss:3.5443 train_time:152693ms step_avg:144.46ms
step:1068/3242 train_loss:3.4472 train_time:152835ms step_avg:144.46ms
step:1069/3242 train_loss:3.5678 train_time:152977ms step_avg:144.45ms
step:1070/3242 train_loss:3.4410 train_time:153121ms step_avg:144.45ms
step:1071/3242 train_loss:3.6980 train_time:153265ms step_avg:144.45ms
step:1072/3242 train_loss:3.6407 train_time:153409ms step_avg:144.45ms
step:1073/3242 train_loss:3.5898 train_time:153551ms step_avg:144.45ms
step:1074/3242 train_loss:3.6611 train_time:153694ms step_avg:144.45ms
step:1075/3242 train_loss:3.6004 train_time:153837ms step_avg:144.45ms
step:1076/3242 train_loss:3.5362 train_time:153981ms step_avg:144.45ms
step:1077/3242 train_loss:3.9361 train_time:154125ms step_avg:144.45ms
step:1078/3242 train_loss:3.5990 train_time:154268ms step_avg:144.45ms
step:1079/3242 train_loss:3.2917 train_time:154412ms step_avg:144.45ms
step:1080/3242 train_loss:3.6749 train_time:154554ms step_avg:144.44ms
step:1081/3242 train_loss:3.5913 train_time:154698ms step_avg:144.44ms
step:1082/3242 train_loss:3.6476 train_time:154842ms step_avg:144.44ms
step:1083/3242 train_loss:3.7535 train_time:154984ms step_avg:144.44ms
step:1084/3242 train_loss:3.6516 train_time:155127ms step_avg:144.44ms
step:1085/3242 train_loss:3.6179 train_time:155271ms step_avg:144.44ms
step:1086/3242 train_loss:3.5872 train_time:155414ms step_avg:144.44ms
step:1087/3242 train_loss:3.7736 train_time:155557ms step_avg:144.44ms
step:1088/3242 train_loss:3.6696 train_time:155700ms step_avg:144.43ms
step:1089/3242 train_loss:3.5078 train_time:155843ms step_avg:144.43ms
step:1090/3242 train_loss:3.5213 train_time:155987ms step_avg:144.43ms
step:1091/3242 train_loss:3.6450 train_time:156129ms step_avg:144.43ms
step:1092/3242 train_loss:3.4425 train_time:156273ms step_avg:144.43ms
step:1093/3242 train_loss:3.6392 train_time:156417ms step_avg:144.43ms
step:1094/3242 train_loss:3.7699 train_time:156561ms step_avg:144.43ms
step:1095/3242 train_loss:3.6126 train_time:156705ms step_avg:144.43ms
step:1096/3242 train_loss:3.5600 train_time:156848ms step_avg:144.43ms
step:1097/3242 train_loss:3.5857 train_time:156990ms step_avg:144.43ms
step:1098/3242 train_loss:3.6315 train_time:157134ms step_avg:144.42ms
step:1099/3242 train_loss:3.7107 train_time:157277ms step_avg:144.42ms
step:1100/3242 train_loss:3.6641 train_time:157420ms step_avg:144.42ms
step:1101/3242 train_loss:3.5921 train_time:157562ms step_avg:144.42ms
step:1102/3242 train_loss:3.4458 train_time:157705ms step_avg:144.42ms
step:1103/3242 train_loss:3.5102 train_time:157847ms step_avg:144.42ms
step:1104/3242 train_loss:3.5983 train_time:157990ms step_avg:144.42ms
step:1105/3242 train_loss:3.4712 train_time:158133ms step_avg:144.41ms
step:1106/3242 train_loss:4.2289 train_time:158276ms step_avg:144.41ms
step:1107/3242 train_loss:3.3822 train_time:158419ms step_avg:144.41ms
step:1108/3242 train_loss:3.7238 train_time:158563ms step_avg:144.41ms
step:1109/3242 train_loss:3.5039 train_time:158706ms step_avg:144.41ms
step:1110/3242 train_loss:3.6578 train_time:158849ms step_avg:144.41ms
step:1111/3242 train_loss:3.5783 train_time:158992ms step_avg:144.41ms
step:1112/3242 train_loss:3.6255 train_time:159135ms step_avg:144.41ms
step:1113/3242 train_loss:3.7143 train_time:159278ms step_avg:144.40ms
step:1114/3242 train_loss:3.5749 train_time:159422ms step_avg:144.40ms
step:1115/3242 train_loss:3.5179 train_time:159566ms step_avg:144.40ms
step:1116/3242 train_loss:3.4168 train_time:159710ms step_avg:144.40ms
step:1117/3242 train_loss:3.5865 train_time:159853ms step_avg:144.40ms
step:1118/3242 train_loss:3.7441 train_time:159996ms step_avg:144.40ms
step:1119/3242 train_loss:3.7771 train_time:160141ms step_avg:144.40ms
step:1120/3242 train_loss:3.6204 train_time:160285ms step_avg:144.40ms
step:1121/3242 train_loss:3.6481 train_time:160428ms step_avg:144.40ms
step:1122/3242 train_loss:3.5438 train_time:160572ms step_avg:144.40ms
step:1123/3242 train_loss:3.6021 train_time:160716ms step_avg:144.40ms
step:1124/3242 train_loss:3.7428 train_time:160858ms step_avg:144.40ms
step:1125/3242 train_loss:3.5093 train_time:161002ms step_avg:144.40ms
step:1125/3242 val_loss:3.5718 train_time:161043ms step_avg:144.43ms
step:1126/3242 train_loss:3.4035 train_time:161153ms step_avg:144.40ms
step:1127/3242 train_loss:3.6300 train_time:161300ms step_avg:144.40ms
step:1128/3242 train_loss:3.8491 train_time:161441ms step_avg:144.40ms
step:1129/3242 train_loss:3.3880 train_time:161583ms step_avg:144.40ms
step:1130/3242 train_loss:3.7105 train_time:161724ms step_avg:144.40ms
step:1131/3242 train_loss:3.5533 train_time:161865ms step_avg:144.39ms
step:1132/3242 train_loss:3.5681 train_time:162006ms step_avg:144.39ms
step:1133/3242 train_loss:3.5247 train_time:162152ms step_avg:144.39ms
step:1134/3242 train_loss:3.6797 train_time:162418ms step_avg:144.50ms
step:1135/3242 train_loss:3.6181 train_time:162564ms step_avg:144.50ms
step:1136/3242 train_loss:3.6701 train_time:162705ms step_avg:144.50ms
step:1137/3242 train_loss:3.7099 train_time:162846ms step_avg:144.49ms
step:1138/3242 train_loss:3.6137 train_time:162987ms step_avg:144.49ms
step:1139/3242 train_loss:3.5116 train_time:163128ms step_avg:144.49ms
step:1140/3242 train_loss:3.8206 train_time:163407ms step_avg:144.61ms
step:1141/3242 train_loss:3.6207 train_time:163549ms step_avg:144.61ms
step:1142/3242 train_loss:3.7302 train_time:163690ms step_avg:144.60ms
step:1143/3242 train_loss:3.6090 train_time:163831ms step_avg:144.60ms
step:1144/3242 train_loss:3.5260 train_time:163972ms step_avg:144.60ms
step:1145/3242 train_loss:3.6272 train_time:164114ms step_avg:144.59ms
step:1146/3242 train_loss:3.7419 train_time:164258ms step_avg:144.59ms
step:1147/3242 train_loss:3.7214 train_time:164406ms step_avg:144.60ms
step:1148/3242 train_loss:3.6415 train_time:164550ms step_avg:144.60ms
step:1149/3242 train_loss:3.6566 train_time:164693ms step_avg:144.59ms
step:1150/3242 train_loss:3.5052 train_time:164835ms step_avg:144.59ms
step:1151/3242 train_loss:3.5284 train_time:164976ms step_avg:144.59ms
step:1152/3242 train_loss:3.4915 train_time:165117ms step_avg:144.59ms
step:1153/3242 train_loss:3.6412 train_time:165261ms step_avg:144.59ms
step:1154/3242 train_loss:3.6139 train_time:165407ms step_avg:144.59ms
step:1155/3242 train_loss:3.6755 train_time:165551ms step_avg:144.59ms
step:1156/3242 train_loss:3.5169 train_time:165695ms step_avg:144.59ms
step:1157/3242 train_loss:3.6962 train_time:165838ms step_avg:144.58ms
step:1158/3242 train_loss:3.6527 train_time:165980ms step_avg:144.58ms
step:1159/3242 train_loss:3.4562 train_time:166122ms step_avg:144.58ms
step:1160/3242 train_loss:3.5063 train_time:166266ms step_avg:144.58ms
step:1161/3242 train_loss:3.4888 train_time:166411ms step_avg:144.58ms
step:1162/3242 train_loss:3.3115 train_time:166555ms step_avg:144.58ms
step:1163/3242 train_loss:3.6029 train_time:166698ms step_avg:144.58ms
step:1164/3242 train_loss:3.5641 train_time:166840ms step_avg:144.58ms
step:1165/3242 train_loss:3.4417 train_time:166982ms step_avg:144.57ms
step:1166/3242 train_loss:3.4282 train_time:167124ms step_avg:144.57ms
step:1167/3242 train_loss:3.5385 train_time:167269ms step_avg:144.57ms
step:1168/3242 train_loss:3.5549 train_time:167414ms step_avg:144.57ms
step:1169/3242 train_loss:3.8736 train_time:167556ms step_avg:144.57ms
step:1170/3242 train_loss:3.5523 train_time:167700ms step_avg:144.57ms
step:1171/3242 train_loss:3.5628 train_time:167843ms step_avg:144.57ms
step:1172/3242 train_loss:3.5036 train_time:167987ms step_avg:144.57ms
step:1173/3242 train_loss:3.5714 train_time:168131ms step_avg:144.57ms
step:1174/3242 train_loss:3.7053 train_time:168274ms step_avg:144.57ms
step:1175/3242 train_loss:3.5459 train_time:168417ms step_avg:144.56ms
step:1176/3242 train_loss:3.5633 train_time:168560ms step_avg:144.56ms
step:1177/3242 train_loss:3.6152 train_time:168704ms step_avg:144.56ms
step:1178/3242 train_loss:3.6036 train_time:168846ms step_avg:144.56ms
step:1179/3242 train_loss:3.6556 train_time:168990ms step_avg:144.56ms
step:1180/3242 train_loss:3.5685 train_time:169134ms step_avg:144.56ms
step:1181/3242 train_loss:3.5691 train_time:169276ms step_avg:144.56ms
step:1182/3242 train_loss:3.5154 train_time:169419ms step_avg:144.56ms
step:1183/3242 train_loss:3.5646 train_time:169562ms step_avg:144.55ms
step:1184/3242 train_loss:3.4959 train_time:169707ms step_avg:144.55ms
step:1185/3242 train_loss:3.6676 train_time:169850ms step_avg:144.55ms
step:1186/3242 train_loss:3.7300 train_time:169994ms step_avg:144.55ms
step:1187/3242 train_loss:3.5250 train_time:170137ms step_avg:144.55ms
step:1188/3242 train_loss:3.5846 train_time:170279ms step_avg:144.55ms
step:1189/3242 train_loss:3.6021 train_time:170421ms step_avg:144.55ms
step:1190/3242 train_loss:3.4447 train_time:170565ms step_avg:144.55ms
step:1191/3242 train_loss:3.6205 train_time:170710ms step_avg:144.55ms
step:1192/3242 train_loss:3.7645 train_time:170852ms step_avg:144.54ms
step:1193/3242 train_loss:3.5601 train_time:170995ms step_avg:144.54ms
step:1194/3242 train_loss:3.4478 train_time:171138ms step_avg:144.54ms
step:1195/3242 train_loss:3.7354 train_time:171280ms step_avg:144.54ms
step:1196/3242 train_loss:3.5477 train_time:171424ms step_avg:144.54ms
step:1197/3242 train_loss:3.5505 train_time:171569ms step_avg:144.54ms
step:1198/3242 train_loss:3.4558 train_time:171712ms step_avg:144.54ms
step:1199/3242 train_loss:3.4695 train_time:171855ms step_avg:144.54ms
step:1200/3242 train_loss:3.5091 train_time:172000ms step_avg:144.54ms
step:1201/3242 train_loss:3.5982 train_time:172141ms step_avg:144.53ms
step:1202/3242 train_loss:3.6660 train_time:172284ms step_avg:144.53ms
step:1203/3242 train_loss:3.7442 train_time:172428ms step_avg:144.53ms
step:1204/3242 train_loss:3.5859 train_time:172570ms step_avg:144.53ms
step:1205/3242 train_loss:3.5067 train_time:172713ms step_avg:144.53ms
step:1206/3242 train_loss:3.5973 train_time:172856ms step_avg:144.53ms
step:1207/3242 train_loss:3.6484 train_time:172998ms step_avg:144.53ms
step:1208/3242 train_loss:3.6919 train_time:173141ms step_avg:144.52ms
step:1209/3242 train_loss:3.5701 train_time:173287ms step_avg:144.53ms
step:1210/3242 train_loss:3.4324 train_time:173431ms step_avg:144.53ms
step:1211/3242 train_loss:3.4719 train_time:173573ms step_avg:144.52ms
step:1212/3242 train_loss:3.5735 train_time:173715ms step_avg:144.52ms
step:1213/3242 train_loss:3.5932 train_time:173858ms step_avg:144.52ms
step:1214/3242 train_loss:3.6259 train_time:174002ms step_avg:144.52ms
step:1215/3242 train_loss:3.4984 train_time:174144ms step_avg:144.52ms
step:1216/3242 train_loss:3.5705 train_time:174288ms step_avg:144.52ms
step:1217/3242 train_loss:3.5154 train_time:174432ms step_avg:144.52ms
step:1218/3242 train_loss:3.5001 train_time:174574ms step_avg:144.52ms
step:1219/3242 train_loss:3.6012 train_time:174717ms step_avg:144.51ms
step:1220/3242 train_loss:3.4436 train_time:174861ms step_avg:144.51ms
step:1221/3242 train_loss:3.6670 train_time:175004ms step_avg:144.51ms
step:1222/3242 train_loss:3.6887 train_time:175146ms step_avg:144.51ms
step:1223/3242 train_loss:3.6184 train_time:175290ms step_avg:144.51ms
step:1224/3242 train_loss:3.4712 train_time:175434ms step_avg:144.51ms
step:1225/3242 train_loss:3.4489 train_time:175576ms step_avg:144.51ms
step:1226/3242 train_loss:3.5389 train_time:175719ms step_avg:144.51ms
step:1227/3242 train_loss:3.5210 train_time:175863ms step_avg:144.50ms
step:1228/3242 train_loss:3.4669 train_time:176006ms step_avg:144.50ms
step:1229/3242 train_loss:3.6282 train_time:176149ms step_avg:144.50ms
step:1230/3242 train_loss:3.5505 train_time:176293ms step_avg:144.50ms
step:1231/3242 train_loss:3.6090 train_time:176436ms step_avg:144.50ms
step:1232/3242 train_loss:3.7677 train_time:176578ms step_avg:144.50ms
step:1233/3242 train_loss:3.6669 train_time:176723ms step_avg:144.50ms
step:1234/3242 train_loss:3.6066 train_time:176867ms step_avg:144.50ms
step:1235/3242 train_loss:3.7582 train_time:177011ms step_avg:144.50ms
step:1236/3242 train_loss:3.5183 train_time:177154ms step_avg:144.50ms
step:1237/3242 train_loss:3.4806 train_time:177296ms step_avg:144.50ms
step:1238/3242 train_loss:3.4391 train_time:177439ms step_avg:144.49ms
step:1239/3242 train_loss:3.5102 train_time:177582ms step_avg:144.49ms
step:1240/3242 train_loss:3.5187 train_time:177726ms step_avg:144.49ms
step:1241/3242 train_loss:3.5678 train_time:177870ms step_avg:144.49ms
step:1242/3242 train_loss:3.6173 train_time:178012ms step_avg:144.49ms
step:1243/3242 train_loss:3.4870 train_time:178156ms step_avg:144.49ms
step:1244/3242 train_loss:3.5833 train_time:178298ms step_avg:144.49ms
step:1245/3242 train_loss:3.5989 train_time:178441ms step_avg:144.49ms
step:1246/3242 train_loss:3.6002 train_time:178584ms step_avg:144.49ms
step:1247/3242 train_loss:3.4223 train_time:178728ms step_avg:144.48ms
step:1248/3242 train_loss:3.5622 train_time:178871ms step_avg:144.48ms
step:1249/3242 train_loss:3.6259 train_time:179013ms step_avg:144.48ms
step:1250/3242 train_loss:3.5915 train_time:179155ms step_avg:144.48ms
step:1250/3242 val_loss:3.5439 train_time:179197ms step_avg:144.51ms
step:1251/3242 train_loss:3.4895 train_time:179311ms step_avg:144.49ms
step:1252/3242 train_loss:3.6995 train_time:179458ms step_avg:144.49ms
step:1253/3242 train_loss:3.5641 train_time:179603ms step_avg:144.49ms
step:1254/3242 train_loss:3.4959 train_time:179745ms step_avg:144.49ms
step:1255/3242 train_loss:3.6270 train_time:179886ms step_avg:144.49ms
step:1256/3242 train_loss:3.6945 train_time:180028ms step_avg:144.48ms
step:1257/3242 train_loss:3.5046 train_time:180169ms step_avg:144.48ms
step:1258/3242 train_loss:3.5373 train_time:180314ms step_avg:144.48ms
step:1259/3242 train_loss:3.5590 train_time:180459ms step_avg:144.48ms
step:1260/3242 train_loss:3.5217 train_time:180604ms step_avg:144.48ms
step:1261/3242 train_loss:3.3890 train_time:180748ms step_avg:144.48ms
step:1262/3242 train_loss:3.4920 train_time:180889ms step_avg:144.48ms
step:1263/3242 train_loss:3.5570 train_time:181031ms step_avg:144.48ms
step:1264/3242 train_loss:3.4063 train_time:181173ms step_avg:144.48ms
step:1265/3242 train_loss:3.6290 train_time:181317ms step_avg:144.48ms
step:1266/3242 train_loss:3.6114 train_time:181461ms step_avg:144.48ms
step:1267/3242 train_loss:3.6155 train_time:181607ms step_avg:144.48ms
step:1268/3242 train_loss:3.5636 train_time:181750ms step_avg:144.48ms
step:1269/3242 train_loss:3.5894 train_time:181892ms step_avg:144.47ms
step:1270/3242 train_loss:3.4464 train_time:182035ms step_avg:144.47ms
step:1271/3242 train_loss:3.2965 train_time:182177ms step_avg:144.47ms
step:1272/3242 train_loss:3.5729 train_time:182321ms step_avg:144.47ms
step:1273/3242 train_loss:3.5386 train_time:182467ms step_avg:144.47ms
step:1274/3242 train_loss:3.5909 train_time:182611ms step_avg:144.47ms
step:1275/3242 train_loss:3.5411 train_time:182754ms step_avg:144.47ms
step:1276/3242 train_loss:3.6314 train_time:182897ms step_avg:144.47ms
step:1277/3242 train_loss:3.6571 train_time:183038ms step_avg:144.47ms
step:1278/3242 train_loss:3.6094 train_time:183180ms step_avg:144.46ms
step:1279/3242 train_loss:3.6085 train_time:183324ms step_avg:144.46ms
step:1280/3242 train_loss:3.4432 train_time:183468ms step_avg:144.46ms
step:1281/3242 train_loss:3.5582 train_time:183611ms step_avg:144.46ms
step:1282/3242 train_loss:3.6152 train_time:183754ms step_avg:144.46ms
step:1283/3242 train_loss:3.6509 train_time:183897ms step_avg:144.46ms
step:1284/3242 train_loss:3.5415 train_time:184040ms step_avg:144.46ms
step:1285/3242 train_loss:3.5673 train_time:184183ms step_avg:144.46ms
step:1286/3242 train_loss:3.5479 train_time:184327ms step_avg:144.46ms
step:1287/3242 train_loss:3.5280 train_time:184471ms step_avg:144.46ms
step:1288/3242 train_loss:3.6651 train_time:184613ms step_avg:144.45ms
step:1289/3242 train_loss:3.4921 train_time:184756ms step_avg:144.45ms
step:1290/3242 train_loss:3.5825 train_time:184900ms step_avg:144.45ms
step:1291/3242 train_loss:3.6483 train_time:185043ms step_avg:144.45ms
step:1292/3242 train_loss:3.5775 train_time:185185ms step_avg:144.45ms
step:1293/3242 train_loss:3.6756 train_time:185329ms step_avg:144.45ms
step:1294/3242 train_loss:3.6959 train_time:185472ms step_avg:144.45ms
step:1295/3242 train_loss:3.6611 train_time:185615ms step_avg:144.45ms
step:1296/3242 train_loss:3.4754 train_time:185760ms step_avg:144.45ms
step:1297/3242 train_loss:3.5500 train_time:185905ms step_avg:144.45ms
step:1298/3242 train_loss:3.4492 train_time:186049ms step_avg:144.45ms
step:1299/3242 train_loss:3.5156 train_time:186191ms step_avg:144.45ms
step:1300/3242 train_loss:3.5928 train_time:186335ms step_avg:144.45ms
step:1301/3242 train_loss:3.5989 train_time:186478ms step_avg:144.44ms
step:1302/3242 train_loss:3.5961 train_time:186620ms step_avg:144.44ms
step:1303/3242 train_loss:3.7581 train_time:186766ms step_avg:144.44ms
step:1304/3242 train_loss:3.5236 train_time:186909ms step_avg:144.44ms
step:1305/3242 train_loss:3.7356 train_time:187052ms step_avg:144.44ms
step:1306/3242 train_loss:3.4599 train_time:187193ms step_avg:144.44ms
step:1307/3242 train_loss:3.6540 train_time:187335ms step_avg:144.44ms
step:1308/3242 train_loss:3.6465 train_time:187479ms step_avg:144.44ms
step:1309/3242 train_loss:3.5096 train_time:187623ms step_avg:144.44ms
step:1310/3242 train_loss:3.4941 train_time:187767ms step_avg:144.44ms
step:1311/3242 train_loss:3.5207 train_time:187910ms step_avg:144.44ms
step:1312/3242 train_loss:3.4801 train_time:188053ms step_avg:144.43ms
step:1313/3242 train_loss:3.5998 train_time:188196ms step_avg:144.43ms
step:1314/3242 train_loss:3.5378 train_time:188339ms step_avg:144.43ms
step:1315/3242 train_loss:3.2658 train_time:188482ms step_avg:144.43ms
step:1316/3242 train_loss:3.4924 train_time:188627ms step_avg:144.43ms
step:1317/3242 train_loss:3.5748 train_time:188771ms step_avg:144.43ms
step:1318/3242 train_loss:3.6068 train_time:188915ms step_avg:144.43ms
step:1319/3242 train_loss:3.4800 train_time:189060ms step_avg:144.43ms
step:1320/3242 train_loss:3.6173 train_time:189203ms step_avg:144.43ms
step:1321/3242 train_loss:3.6721 train_time:189347ms step_avg:144.43ms
step:1322/3242 train_loss:3.5575 train_time:189490ms step_avg:144.43ms
step:1323/3242 train_loss:3.5004 train_time:189751ms step_avg:144.52ms
step:1324/3242 train_loss:3.5365 train_time:189901ms step_avg:144.52ms
step:1325/3242 train_loss:3.6304 train_time:190041ms step_avg:144.52ms
step:1326/3242 train_loss:3.6813 train_time:190182ms step_avg:144.51ms
step:1327/3242 train_loss:3.4351 train_time:190322ms step_avg:144.51ms
step:1328/3242 train_loss:3.3645 train_time:190463ms step_avg:144.51ms
step:1329/3242 train_loss:3.6690 train_time:190605ms step_avg:144.51ms
step:1330/3242 train_loss:3.5070 train_time:190874ms step_avg:144.60ms
step:1331/3242 train_loss:3.6385 train_time:191016ms step_avg:144.60ms
step:1332/3242 train_loss:3.5420 train_time:191156ms step_avg:144.60ms
step:1333/3242 train_loss:3.9438 train_time:191297ms step_avg:144.59ms
step:1334/3242 train_loss:3.6490 train_time:191438ms step_avg:144.59ms
step:1335/3242 train_loss:3.5653 train_time:191578ms step_avg:144.59ms
step:1336/3242 train_loss:3.4996 train_time:191722ms step_avg:144.59ms
step:1337/3242 train_loss:3.4945 train_time:191873ms step_avg:144.59ms
step:1338/3242 train_loss:3.7513 train_time:192019ms step_avg:144.59ms
step:1339/3242 train_loss:3.6918 train_time:192162ms step_avg:144.59ms
step:1340/3242 train_loss:3.5357 train_time:192303ms step_avg:144.59ms
step:1341/3242 train_loss:3.4897 train_time:192445ms step_avg:144.59ms
step:1342/3242 train_loss:3.7960 train_time:192587ms step_avg:144.58ms
step:1343/3242 train_loss:3.5649 train_time:192731ms step_avg:144.58ms
step:1344/3242 train_loss:3.5601 train_time:192876ms step_avg:144.58ms
step:1345/3242 train_loss:3.6157 train_time:193021ms step_avg:144.59ms
step:1346/3242 train_loss:3.5933 train_time:193164ms step_avg:144.58ms
step:1347/3242 train_loss:3.4923 train_time:193307ms step_avg:144.58ms
step:1348/3242 train_loss:3.4490 train_time:193450ms step_avg:144.58ms
step:1349/3242 train_loss:3.5412 train_time:193591ms step_avg:144.58ms
step:1350/3242 train_loss:3.4629 train_time:193735ms step_avg:144.58ms
step:1351/3242 train_loss:3.5972 train_time:193882ms step_avg:144.58ms
step:1352/3242 train_loss:3.4467 train_time:194025ms step_avg:144.58ms
step:1353/3242 train_loss:3.5102 train_time:194168ms step_avg:144.58ms
step:1354/3242 train_loss:3.6129 train_time:194311ms step_avg:144.58ms
step:1355/3242 train_loss:3.4526 train_time:194453ms step_avg:144.58ms
step:1356/3242 train_loss:3.3848 train_time:194597ms step_avg:144.57ms
step:1357/3242 train_loss:3.7230 train_time:194740ms step_avg:144.57ms
step:1358/3242 train_loss:3.6513 train_time:194885ms step_avg:144.57ms
step:1359/3242 train_loss:3.3776 train_time:195030ms step_avg:144.57ms
step:1360/3242 train_loss:3.6533 train_time:195173ms step_avg:144.57ms
step:1361/3242 train_loss:3.5468 train_time:195314ms step_avg:144.57ms
step:1362/3242 train_loss:3.3981 train_time:195456ms step_avg:144.57ms
step:1363/3242 train_loss:3.5856 train_time:195598ms step_avg:144.57ms
step:1364/3242 train_loss:3.4793 train_time:195742ms step_avg:144.57ms
step:1365/3242 train_loss:3.4939 train_time:195885ms step_avg:144.56ms
step:1366/3242 train_loss:3.5205 train_time:196029ms step_avg:144.56ms
step:1367/3242 train_loss:3.6209 train_time:196173ms step_avg:144.56ms
step:1368/3242 train_loss:3.6080 train_time:196316ms step_avg:144.56ms
step:1369/3242 train_loss:3.5557 train_time:196460ms step_avg:144.56ms
step:1370/3242 train_loss:3.4751 train_time:196603ms step_avg:144.56ms
step:1371/3242 train_loss:3.7947 train_time:196746ms step_avg:144.56ms
step:1372/3242 train_loss:3.5300 train_time:196888ms step_avg:144.56ms
step:1373/3242 train_loss:3.5704 train_time:197031ms step_avg:144.56ms
step:1374/3242 train_loss:3.5670 train_time:197175ms step_avg:144.56ms
step:1375/3242 train_loss:3.3603 train_time:197319ms step_avg:144.56ms
step:1375/3242 val_loss:3.5237 train_time:197361ms step_avg:144.59ms
step:1376/3242 train_loss:3.7625 train_time:197473ms step_avg:144.56ms
step:1377/3242 train_loss:3.5472 train_time:197620ms step_avg:144.57ms
step:1378/3242 train_loss:3.6868 train_time:197762ms step_avg:144.56ms
step:1379/3242 train_loss:3.7333 train_time:197902ms step_avg:144.56ms
step:1380/3242 train_loss:3.3862 train_time:198044ms step_avg:144.56ms
step:1381/3242 train_loss:3.5183 train_time:198184ms step_avg:144.55ms
step:1382/3242 train_loss:4.0012 train_time:198327ms step_avg:144.55ms
step:1383/3242 train_loss:3.4431 train_time:198472ms step_avg:144.55ms
step:1384/3242 train_loss:3.5997 train_time:198619ms step_avg:144.56ms
step:1385/3242 train_loss:3.6757 train_time:198762ms step_avg:144.55ms
step:1386/3242 train_loss:3.5949 train_time:198903ms step_avg:144.55ms
step:1387/3242 train_loss:3.5762 train_time:199044ms step_avg:144.55ms
step:1388/3242 train_loss:3.4085 train_time:199187ms step_avg:144.55ms
step:1389/3242 train_loss:3.5545 train_time:199331ms step_avg:144.55ms
step:1390/3242 train_loss:3.5245 train_time:199474ms step_avg:144.55ms
step:1391/3242 train_loss:3.7817 train_time:199621ms step_avg:144.55ms
step:1392/3242 train_loss:3.5029 train_time:199765ms step_avg:144.55ms
step:1393/3242 train_loss:3.4904 train_time:199906ms step_avg:144.55ms
step:1394/3242 train_loss:3.4554 train_time:200048ms step_avg:144.54ms
step:1395/3242 train_loss:3.7396 train_time:200189ms step_avg:144.54ms
step:1396/3242 train_loss:3.6303 train_time:200332ms step_avg:144.54ms
step:1397/3242 train_loss:3.6434 train_time:200475ms step_avg:144.54ms
step:1398/3242 train_loss:3.5077 train_time:200622ms step_avg:144.54ms
step:1399/3242 train_loss:3.4770 train_time:200766ms step_avg:144.54ms
step:1400/3242 train_loss:3.5388 train_time:200909ms step_avg:144.54ms
step:1401/3242 train_loss:3.5192 train_time:201052ms step_avg:144.54ms
step:1402/3242 train_loss:3.5455 train_time:201195ms step_avg:144.54ms
step:1403/3242 train_loss:3.5076 train_time:201337ms step_avg:144.53ms
step:1404/3242 train_loss:3.7413 train_time:201480ms step_avg:144.53ms
step:1405/3242 train_loss:3.4804 train_time:201626ms step_avg:144.53ms
step:1406/3242 train_loss:3.5230 train_time:201769ms step_avg:144.53ms
step:1407/3242 train_loss:3.5210 train_time:201912ms step_avg:144.53ms
step:1408/3242 train_loss:3.3879 train_time:202056ms step_avg:144.53ms
step:1409/3242 train_loss:3.5086 train_time:202198ms step_avg:144.53ms
step:1410/3242 train_loss:3.4953 train_time:202341ms step_avg:144.53ms
step:1411/3242 train_loss:3.4956 train_time:202484ms step_avg:144.53ms
step:1412/3242 train_loss:3.5777 train_time:202627ms step_avg:144.53ms
step:1413/3242 train_loss:3.5253 train_time:202770ms step_avg:144.53ms
step:1414/3242 train_loss:3.5605 train_time:202914ms step_avg:144.53ms
step:1415/3242 train_loss:3.5437 train_time:203057ms step_avg:144.52ms
step:1416/3242 train_loss:3.6310 train_time:203199ms step_avg:144.52ms
step:1417/3242 train_loss:3.4349 train_time:203342ms step_avg:144.52ms
step:1418/3242 train_loss:3.4940 train_time:203484ms step_avg:144.52ms
step:1419/3242 train_loss:3.5916 train_time:203627ms step_avg:144.52ms
step:1420/3242 train_loss:3.6092 train_time:203770ms step_avg:144.52ms
step:1421/3242 train_loss:3.5950 train_time:203915ms step_avg:144.52ms
step:1422/3242 train_loss:3.5815 train_time:204058ms step_avg:144.52ms
step:1423/3242 train_loss:3.5675 train_time:204200ms step_avg:144.52ms
step:1424/3242 train_loss:3.5484 train_time:204344ms step_avg:144.51ms
step:1425/3242 train_loss:3.5508 train_time:204486ms step_avg:144.51ms
step:1426/3242 train_loss:3.4240 train_time:204630ms step_avg:144.51ms
step:1427/3242 train_loss:3.5331 train_time:204775ms step_avg:144.51ms
step:1428/3242 train_loss:3.4834 train_time:204919ms step_avg:144.51ms
step:1429/3242 train_loss:3.5879 train_time:205064ms step_avg:144.51ms
step:1430/3242 train_loss:3.5549 train_time:205206ms step_avg:144.51ms
step:1431/3242 train_loss:3.4783 train_time:205349ms step_avg:144.51ms
step:1432/3242 train_loss:3.5387 train_time:205491ms step_avg:144.51ms
step:1433/3242 train_loss:3.5687 train_time:205634ms step_avg:144.51ms
step:1434/3242 train_loss:3.4459 train_time:205777ms step_avg:144.51ms
step:1435/3242 train_loss:3.5409 train_time:205920ms step_avg:144.51ms
step:1436/3242 train_loss:3.3601 train_time:206063ms step_avg:144.50ms
step:1437/3242 train_loss:3.4339 train_time:206205ms step_avg:144.50ms
step:1438/3242 train_loss:3.6194 train_time:206348ms step_avg:144.50ms
step:1439/3242 train_loss:3.5808 train_time:206490ms step_avg:144.50ms
step:1440/3242 train_loss:3.5286 train_time:206633ms step_avg:144.50ms
step:1441/3242 train_loss:3.3857 train_time:206776ms step_avg:144.50ms
step:1442/3242 train_loss:3.5530 train_time:206921ms step_avg:144.50ms
step:1443/3242 train_loss:3.6178 train_time:207065ms step_avg:144.50ms
step:1444/3242 train_loss:3.6993 train_time:207206ms step_avg:144.50ms
step:1445/3242 train_loss:3.6589 train_time:207349ms step_avg:144.49ms
step:1446/3242 train_loss:3.5516 train_time:207492ms step_avg:144.49ms
step:1447/3242 train_loss:3.4185 train_time:207635ms step_avg:144.49ms
step:1448/3242 train_loss:3.4930 train_time:207778ms step_avg:144.49ms
step:1449/3242 train_loss:3.5142 train_time:207924ms step_avg:144.49ms
step:1450/3242 train_loss:3.6311 train_time:208068ms step_avg:144.49ms
step:1451/3242 train_loss:3.6117 train_time:208211ms step_avg:144.49ms
step:1452/3242 train_loss:3.4325 train_time:208355ms step_avg:144.49ms
step:1453/3242 train_loss:3.5458 train_time:208499ms step_avg:144.49ms
step:1454/3242 train_loss:3.4628 train_time:208642ms step_avg:144.49ms
step:1455/3242 train_loss:3.4966 train_time:208785ms step_avg:144.49ms
step:1456/3242 train_loss:3.5438 train_time:208928ms step_avg:144.49ms
step:1457/3242 train_loss:3.4782 train_time:209070ms step_avg:144.49ms
step:1458/3242 train_loss:3.3741 train_time:209214ms step_avg:144.49ms
step:1459/3242 train_loss:3.6142 train_time:209357ms step_avg:144.48ms
step:1460/3242 train_loss:3.4811 train_time:209500ms step_avg:144.48ms
step:1461/3242 train_loss:3.5360 train_time:209643ms step_avg:144.48ms
step:1462/3242 train_loss:3.6533 train_time:209785ms step_avg:144.48ms
step:1463/3242 train_loss:3.4819 train_time:209928ms step_avg:144.48ms
step:1464/3242 train_loss:3.6738 train_time:210071ms step_avg:144.48ms
step:1465/3242 train_loss:3.5672 train_time:210215ms step_avg:144.48ms
step:1466/3242 train_loss:3.5702 train_time:210360ms step_avg:144.48ms
step:1467/3242 train_loss:3.4892 train_time:210503ms step_avg:144.48ms
step:1468/3242 train_loss:3.6479 train_time:210647ms step_avg:144.48ms
step:1469/3242 train_loss:3.5061 train_time:210790ms step_avg:144.48ms
step:1470/3242 train_loss:3.4865 train_time:210933ms step_avg:144.47ms
step:1471/3242 train_loss:3.5383 train_time:211076ms step_avg:144.47ms
step:1472/3242 train_loss:3.4593 train_time:211220ms step_avg:144.47ms
step:1473/3242 train_loss:3.5420 train_time:211364ms step_avg:144.47ms
step:1474/3242 train_loss:3.6473 train_time:211506ms step_avg:144.47ms
step:1475/3242 train_loss:3.5193 train_time:211651ms step_avg:144.47ms
step:1476/3242 train_loss:3.3503 train_time:211796ms step_avg:144.47ms
step:1477/3242 train_loss:3.4711 train_time:211940ms step_avg:144.47ms
step:1478/3242 train_loss:3.4510 train_time:212082ms step_avg:144.47ms
step:1479/3242 train_loss:3.5281 train_time:212226ms step_avg:144.47ms
step:1480/3242 train_loss:3.6123 train_time:212369ms step_avg:144.47ms
step:1481/3242 train_loss:3.4840 train_time:212511ms step_avg:144.47ms
step:1482/3242 train_loss:3.6598 train_time:212655ms step_avg:144.47ms
step:1483/3242 train_loss:3.5802 train_time:212799ms step_avg:144.47ms
step:1484/3242 train_loss:3.4906 train_time:212942ms step_avg:144.47ms
step:1485/3242 train_loss:3.4805 train_time:213085ms step_avg:144.46ms
step:1486/3242 train_loss:3.4802 train_time:213229ms step_avg:144.46ms
step:1487/3242 train_loss:3.4522 train_time:213372ms step_avg:144.46ms
step:1488/3242 train_loss:3.5391 train_time:213515ms step_avg:144.46ms
step:1489/3242 train_loss:3.4533 train_time:213658ms step_avg:144.46ms
step:1490/3242 train_loss:3.5391 train_time:213802ms step_avg:144.46ms
step:1491/3242 train_loss:3.4772 train_time:213944ms step_avg:144.46ms
step:1492/3242 train_loss:3.3938 train_time:214086ms step_avg:144.46ms
step:1493/3242 train_loss:3.4786 train_time:214230ms step_avg:144.46ms
step:1494/3242 train_loss:3.6466 train_time:214374ms step_avg:144.46ms
step:1495/3242 train_loss:3.5010 train_time:214517ms step_avg:144.46ms
step:1496/3242 train_loss:3.2613 train_time:214661ms step_avg:144.46ms
step:1497/3242 train_loss:3.5607 train_time:214804ms step_avg:144.45ms
step:1498/3242 train_loss:3.5224 train_time:214946ms step_avg:144.45ms
step:1499/3242 train_loss:3.5733 train_time:215089ms step_avg:144.45ms
step:1500/3242 train_loss:3.5266 train_time:215235ms step_avg:144.45ms
step:1500/3242 val_loss:3.5008 train_time:215278ms step_avg:144.48ms
step:1501/3242 train_loss:3.5106 train_time:215389ms step_avg:144.46ms
step:1502/3242 train_loss:3.2971 train_time:215537ms step_avg:144.46ms
step:1503/3242 train_loss:3.5783 train_time:215679ms step_avg:144.46ms
step:1504/3242 train_loss:3.4522 train_time:215819ms step_avg:144.46ms
step:1505/3242 train_loss:3.4582 train_time:215960ms step_avg:144.45ms
step:1506/3242 train_loss:3.4197 train_time:216101ms step_avg:144.45ms
step:1507/3242 train_loss:3.5078 train_time:216245ms step_avg:144.45ms
step:1508/3242 train_loss:3.4145 train_time:216392ms step_avg:144.45ms
step:1509/3242 train_loss:3.7325 train_time:216538ms step_avg:144.45ms
step:1510/3242 train_loss:3.4767 train_time:216680ms step_avg:144.45ms
step:1511/3242 train_loss:3.4812 train_time:216822ms step_avg:144.45ms
step:1512/3242 train_loss:3.6075 train_time:217083ms step_avg:144.53ms
step:1513/3242 train_loss:3.6344 train_time:217235ms step_avg:144.53ms
step:1514/3242 train_loss:3.4949 train_time:217377ms step_avg:144.53ms
step:1515/3242 train_loss:3.3249 train_time:217518ms step_avg:144.53ms
step:1516/3242 train_loss:3.4553 train_time:217659ms step_avg:144.53ms
step:1517/3242 train_loss:3.4597 train_time:217800ms step_avg:144.53ms
step:1518/3242 train_loss:3.5346 train_time:217943ms step_avg:144.52ms
step:1519/3242 train_loss:3.4166 train_time:218090ms step_avg:144.53ms
step:1520/3242 train_loss:3.7230 train_time:218364ms step_avg:144.61ms
step:1521/3242 train_loss:3.3763 train_time:218505ms step_avg:144.61ms
step:1522/3242 train_loss:3.4396 train_time:218645ms step_avg:144.61ms
step:1523/3242 train_loss:3.5835 train_time:218787ms step_avg:144.60ms
step:1524/3242 train_loss:3.4485 train_time:218930ms step_avg:144.60ms
step:1525/3242 train_loss:3.5428 train_time:219070ms step_avg:144.60ms
step:1526/3242 train_loss:3.5308 train_time:219213ms step_avg:144.60ms
step:1527/3242 train_loss:3.5035 train_time:219360ms step_avg:144.60ms
step:1528/3242 train_loss:3.4980 train_time:219505ms step_avg:144.60ms
step:1529/3242 train_loss:3.6495 train_time:219649ms step_avg:144.60ms
step:1530/3242 train_loss:3.6149 train_time:219790ms step_avg:144.60ms
step:1531/3242 train_loss:3.4522 train_time:219933ms step_avg:144.60ms
step:1532/3242 train_loss:3.4088 train_time:220076ms step_avg:144.60ms
step:1533/3242 train_loss:3.5642 train_time:220219ms step_avg:144.60ms
step:1534/3242 train_loss:3.5129 train_time:220363ms step_avg:144.60ms
step:1535/3242 train_loss:3.5088 train_time:220510ms step_avg:144.60ms
step:1536/3242 train_loss:3.5043 train_time:220654ms step_avg:144.60ms
step:1537/3242 train_loss:3.4382 train_time:220796ms step_avg:144.59ms
step:1538/3242 train_loss:3.4925 train_time:220939ms step_avg:144.59ms
step:1539/3242 train_loss:3.6701 train_time:221081ms step_avg:144.59ms
step:1540/3242 train_loss:3.6079 train_time:221222ms step_avg:144.59ms
step:1541/3242 train_loss:3.5117 train_time:221366ms step_avg:144.59ms
step:1542/3242 train_loss:3.4637 train_time:221511ms step_avg:144.59ms
step:1543/3242 train_loss:3.4654 train_time:221656ms step_avg:144.59ms
step:1544/3242 train_loss:3.4188 train_time:221799ms step_avg:144.59ms
step:1545/3242 train_loss:3.5164 train_time:221942ms step_avg:144.59ms
step:1546/3242 train_loss:3.4847 train_time:222084ms step_avg:144.59ms
step:1547/3242 train_loss:3.4641 train_time:222229ms step_avg:144.59ms
step:1548/3242 train_loss:3.4229 train_time:222375ms step_avg:144.59ms
step:1549/3242 train_loss:3.4607 train_time:222518ms step_avg:144.59ms
step:1550/3242 train_loss:3.5727 train_time:222661ms step_avg:144.59ms
step:1551/3242 train_loss:3.4987 train_time:222805ms step_avg:144.58ms
step:1552/3242 train_loss:3.4336 train_time:222948ms step_avg:144.58ms
step:1553/3242 train_loss:3.4299 train_time:223089ms step_avg:144.58ms
step:1554/3242 train_loss:3.4298 train_time:223234ms step_avg:144.58ms
step:1555/3242 train_loss:3.5514 train_time:223380ms step_avg:144.58ms
step:1556/3242 train_loss:3.5569 train_time:223522ms step_avg:144.58ms
step:1557/3242 train_loss:3.4928 train_time:223665ms step_avg:144.58ms
step:1558/3242 train_loss:3.5441 train_time:223810ms step_avg:144.58ms
step:1559/3242 train_loss:3.4686 train_time:223952ms step_avg:144.58ms
step:1560/3242 train_loss:3.3739 train_time:224095ms step_avg:144.58ms
step:1561/3242 train_loss:3.6305 train_time:224237ms step_avg:144.58ms
step:1562/3242 train_loss:3.4462 train_time:224380ms step_avg:144.57ms
step:1563/3242 train_loss:3.4238 train_time:224523ms step_avg:144.57ms
step:1564/3242 train_loss:3.5492 train_time:224666ms step_avg:144.57ms
step:1565/3242 train_loss:3.3780 train_time:224810ms step_avg:144.57ms
step:1566/3242 train_loss:3.4306 train_time:224953ms step_avg:144.57ms
step:1567/3242 train_loss:3.5819 train_time:225096ms step_avg:144.57ms
step:1568/3242 train_loss:3.4625 train_time:225240ms step_avg:144.57ms
step:1569/3242 train_loss:3.4493 train_time:225383ms step_avg:144.57ms
step:1570/3242 train_loss:3.5442 train_time:225528ms step_avg:144.57ms
step:1571/3242 train_loss:3.5508 train_time:225672ms step_avg:144.57ms
step:1572/3242 train_loss:3.3743 train_time:225814ms step_avg:144.57ms
step:1573/3242 train_loss:3.4107 train_time:225957ms step_avg:144.57ms
step:1574/3242 train_loss:3.5309 train_time:226101ms step_avg:144.57ms
step:1575/3242 train_loss:3.3965 train_time:226246ms step_avg:144.57ms
step:1576/3242 train_loss:3.5439 train_time:226390ms step_avg:144.57ms
step:1577/3242 train_loss:3.4528 train_time:226532ms step_avg:144.56ms
step:1578/3242 train_loss:3.5040 train_time:226676ms step_avg:144.56ms
step:1579/3242 train_loss:3.4837 train_time:226817ms step_avg:144.56ms
step:1580/3242 train_loss:3.4493 train_time:226961ms step_avg:144.56ms
step:1581/3242 train_loss:3.4211 train_time:227104ms step_avg:144.56ms
step:1582/3242 train_loss:3.6633 train_time:227248ms step_avg:144.56ms
step:1583/3242 train_loss:3.4376 train_time:227390ms step_avg:144.56ms
step:1584/3242 train_loss:3.5890 train_time:227534ms step_avg:144.56ms
step:1585/3242 train_loss:3.4209 train_time:227677ms step_avg:144.56ms
step:1586/3242 train_loss:3.5793 train_time:227819ms step_avg:144.56ms
step:1587/3242 train_loss:3.3700 train_time:227962ms step_avg:144.55ms
step:1588/3242 train_loss:3.5581 train_time:228105ms step_avg:144.55ms
step:1589/3242 train_loss:3.4732 train_time:228249ms step_avg:144.55ms
step:1590/3242 train_loss:3.6254 train_time:228392ms step_avg:144.55ms
step:1591/3242 train_loss:3.4425 train_time:228535ms step_avg:144.55ms
step:1592/3242 train_loss:3.4662 train_time:228679ms step_avg:144.55ms
step:1593/3242 train_loss:3.5310 train_time:228821ms step_avg:144.55ms
step:1594/3242 train_loss:3.5027 train_time:228964ms step_avg:144.55ms
step:1595/3242 train_loss:3.4759 train_time:229108ms step_avg:144.55ms
step:1596/3242 train_loss:3.6241 train_time:229252ms step_avg:144.55ms
step:1597/3242 train_loss:3.3483 train_time:229395ms step_avg:144.55ms
step:1598/3242 train_loss:3.5170 train_time:229539ms step_avg:144.55ms
step:1599/3242 train_loss:3.5564 train_time:229681ms step_avg:144.54ms
step:1600/3242 train_loss:3.6103 train_time:229825ms step_avg:144.54ms
step:1601/3242 train_loss:3.4588 train_time:229966ms step_avg:144.54ms
step:1602/3242 train_loss:3.7524 train_time:230110ms step_avg:144.54ms
step:1603/3242 train_loss:3.6310 train_time:230253ms step_avg:144.54ms
step:1604/3242 train_loss:3.4120 train_time:230395ms step_avg:144.54ms
step:1605/3242 train_loss:3.4506 train_time:230538ms step_avg:144.54ms
step:1606/3242 train_loss:3.3411 train_time:230682ms step_avg:144.54ms
step:1607/3242 train_loss:3.6664 train_time:230825ms step_avg:144.54ms
step:1608/3242 train_loss:3.4676 train_time:230970ms step_avg:144.54ms
step:1609/3242 train_loss:3.4880 train_time:231113ms step_avg:144.54ms
step:1610/3242 train_loss:3.4387 train_time:231256ms step_avg:144.54ms
step:1611/3242 train_loss:4.0453 train_time:231399ms step_avg:144.53ms
step:1612/3242 train_loss:3.6763 train_time:231542ms step_avg:144.53ms
step:1613/3242 train_loss:3.5838 train_time:231686ms step_avg:144.53ms
step:1614/3242 train_loss:3.4482 train_time:231830ms step_avg:144.53ms
step:1615/3242 train_loss:3.4896 train_time:231973ms step_avg:144.53ms
step:1616/3242 train_loss:3.4841 train_time:232115ms step_avg:144.53ms
step:1617/3242 train_loss:3.4537 train_time:232259ms step_avg:144.53ms
step:1618/3242 train_loss:3.5268 train_time:232403ms step_avg:144.53ms
step:1619/3242 train_loss:3.4776 train_time:232547ms step_avg:144.53ms
step:1620/3242 train_loss:3.3713 train_time:232691ms step_avg:144.53ms
step:1621/3242 train_loss:3.6383 train_time:232835ms step_avg:144.53ms
step:1622/3242 train_loss:3.5526 train_time:232978ms step_avg:144.53ms
step:1623/3242 train_loss:3.3397 train_time:233120ms step_avg:144.53ms
step:1624/3242 train_loss:3.4544 train_time:233263ms step_avg:144.52ms
step:1625/3242 train_loss:3.4097 train_time:233407ms step_avg:144.52ms
step:1625/3242 val_loss:3.4869 train_time:233450ms step_avg:144.55ms
step:1626/3242 train_loss:3.4980 train_time:233562ms step_avg:144.53ms
step:1627/3242 train_loss:3.4630 train_time:233710ms step_avg:144.53ms
step:1628/3242 train_loss:3.4184 train_time:233852ms step_avg:144.53ms
step:1629/3242 train_loss:3.5284 train_time:233993ms step_avg:144.53ms
step:1630/3242 train_loss:3.4264 train_time:234134ms step_avg:144.53ms
step:1631/3242 train_loss:3.4883 train_time:234275ms step_avg:144.53ms
step:1632/3242 train_loss:3.3634 train_time:234417ms step_avg:144.52ms
step:1633/3242 train_loss:3.3327 train_time:234564ms step_avg:144.52ms
step:1634/3242 train_loss:3.4880 train_time:234709ms step_avg:144.53ms
step:1635/3242 train_loss:3.4827 train_time:234853ms step_avg:144.52ms
step:1636/3242 train_loss:3.4260 train_time:234996ms step_avg:144.52ms
step:1637/3242 train_loss:3.5069 train_time:235140ms step_avg:144.52ms
step:1638/3242 train_loss:3.5540 train_time:235282ms step_avg:144.52ms
step:1639/3242 train_loss:3.5944 train_time:235423ms step_avg:144.52ms
step:1640/3242 train_loss:3.7523 train_time:235568ms step_avg:144.52ms
step:1641/3242 train_loss:3.5644 train_time:235712ms step_avg:144.52ms
step:1642/3242 train_loss:3.4929 train_time:235855ms step_avg:144.52ms
step:1643/3242 train_loss:3.5776 train_time:235999ms step_avg:144.52ms
step:1644/3242 train_loss:3.4712 train_time:236142ms step_avg:144.52ms
step:1645/3242 train_loss:3.4872 train_time:236284ms step_avg:144.52ms
step:1646/3242 train_loss:3.4872 train_time:236425ms step_avg:144.51ms
step:1647/3242 train_loss:3.2611 train_time:236569ms step_avg:144.51ms
step:1648/3242 train_loss:3.5306 train_time:236713ms step_avg:144.51ms
step:1649/3242 train_loss:3.3975 train_time:236857ms step_avg:144.51ms
step:1650/3242 train_loss:3.4663 train_time:237001ms step_avg:144.51ms
step:1651/3242 train_loss:3.4479 train_time:237143ms step_avg:144.51ms
step:1652/3242 train_loss:3.5154 train_time:237285ms step_avg:144.51ms
step:1653/3242 train_loss:3.4456 train_time:237427ms step_avg:144.51ms
step:1654/3242 train_loss:3.5662 train_time:237571ms step_avg:144.51ms
step:1655/3242 train_loss:3.5572 train_time:237714ms step_avg:144.51ms
step:1656/3242 train_loss:3.3779 train_time:237857ms step_avg:144.51ms
step:1657/3242 train_loss:3.5491 train_time:238000ms step_avg:144.51ms
step:1658/3242 train_loss:3.4323 train_time:238143ms step_avg:144.50ms
step:1659/3242 train_loss:3.4140 train_time:238286ms step_avg:144.50ms
step:1660/3242 train_loss:3.5006 train_time:238428ms step_avg:144.50ms
step:1661/3242 train_loss:3.5231 train_time:238571ms step_avg:144.50ms
step:1662/3242 train_loss:3.4360 train_time:238714ms step_avg:144.50ms
step:1663/3242 train_loss:3.5315 train_time:238858ms step_avg:144.50ms
step:1664/3242 train_loss:3.5400 train_time:239001ms step_avg:144.50ms
step:1665/3242 train_loss:3.5694 train_time:239143ms step_avg:144.50ms
step:1666/3242 train_loss:3.5397 train_time:239288ms step_avg:144.50ms
step:1667/3242 train_loss:3.6879 train_time:239431ms step_avg:144.50ms
step:1668/3242 train_loss:3.3888 train_time:239574ms step_avg:144.50ms
step:1669/3242 train_loss:3.4754 train_time:239717ms step_avg:144.49ms
step:1670/3242 train_loss:3.3951 train_time:239861ms step_avg:144.49ms
step:1671/3242 train_loss:3.4040 train_time:240004ms step_avg:144.49ms
step:1672/3242 train_loss:3.5601 train_time:240148ms step_avg:144.49ms
step:1673/3242 train_loss:3.7364 train_time:240292ms step_avg:144.49ms
step:1674/3242 train_loss:3.4573 train_time:240434ms step_avg:144.49ms
step:1675/3242 train_loss:3.4435 train_time:240578ms step_avg:144.49ms
step:1676/3242 train_loss:3.3272 train_time:240721ms step_avg:144.49ms
step:1677/3242 train_loss:3.5341 train_time:240864ms step_avg:144.49ms
step:1678/3242 train_loss:3.4497 train_time:241007ms step_avg:144.49ms
step:1679/3242 train_loss:3.4832 train_time:241153ms step_avg:144.49ms
step:1680/3242 train_loss:3.4709 train_time:241297ms step_avg:144.49ms
step:1681/3242 train_loss:3.2885 train_time:241440ms step_avg:144.49ms
step:1682/3242 train_loss:3.4731 train_time:241583ms step_avg:144.49ms
step:1683/3242 train_loss:3.4795 train_time:241725ms step_avg:144.49ms
step:1684/3242 train_loss:3.5216 train_time:241869ms step_avg:144.49ms
step:1685/3242 train_loss:3.5228 train_time:242011ms step_avg:144.48ms
step:1686/3242 train_loss:3.4363 train_time:242155ms step_avg:144.48ms
step:1687/3242 train_loss:3.5357 train_time:242298ms step_avg:144.48ms
step:1688/3242 train_loss:3.4258 train_time:242442ms step_avg:144.48ms
step:1689/3242 train_loss:3.5003 train_time:242585ms step_avg:144.48ms
step:1690/3242 train_loss:3.4136 train_time:242727ms step_avg:144.48ms
step:1691/3242 train_loss:3.3178 train_time:242870ms step_avg:144.48ms
step:1692/3242 train_loss:3.4783 train_time:243012ms step_avg:144.48ms
step:1693/3242 train_loss:3.4689 train_time:243155ms step_avg:144.48ms
step:1694/3242 train_loss:3.3804 train_time:243298ms step_avg:144.48ms
step:1695/3242 train_loss:3.8286 train_time:243442ms step_avg:144.48ms
step:1696/3242 train_loss:3.5428 train_time:243584ms step_avg:144.47ms
step:1697/3242 train_loss:3.5255 train_time:243727ms step_avg:144.47ms
step:1698/3242 train_loss:3.4295 train_time:243870ms step_avg:144.47ms
step:1699/3242 train_loss:3.3386 train_time:244013ms step_avg:144.47ms
step:1700/3242 train_loss:3.4259 train_time:244157ms step_avg:144.47ms
step:1701/3242 train_loss:3.4270 train_time:244424ms step_avg:144.54ms
step:1702/3242 train_loss:3.4969 train_time:244575ms step_avg:144.55ms
step:1703/3242 train_loss:3.4195 train_time:244719ms step_avg:144.55ms
step:1704/3242 train_loss:3.6254 train_time:244860ms step_avg:144.55ms
step:1705/3242 train_loss:3.3879 train_time:245000ms step_avg:144.54ms
step:1706/3242 train_loss:3.6182 train_time:245141ms step_avg:144.54ms
step:1707/3242 train_loss:3.4563 train_time:245284ms step_avg:144.54ms
step:1708/3242 train_loss:3.2437 train_time:245433ms step_avg:144.54ms
step:1709/3242 train_loss:3.5710 train_time:245579ms step_avg:144.54ms
step:1710/3242 train_loss:3.4806 train_time:245858ms step_avg:144.62ms
step:1711/3242 train_loss:3.4670 train_time:246000ms step_avg:144.62ms
step:1712/3242 train_loss:3.4672 train_time:246141ms step_avg:144.62ms
step:1713/3242 train_loss:3.5006 train_time:246282ms step_avg:144.62ms
step:1714/3242 train_loss:3.5259 train_time:246423ms step_avg:144.61ms
step:1715/3242 train_loss:3.4524 train_time:246564ms step_avg:144.61ms
step:1716/3242 train_loss:3.4574 train_time:246709ms step_avg:144.61ms
step:1717/3242 train_loss:3.2935 train_time:246859ms step_avg:144.62ms
step:1718/3242 train_loss:3.4278 train_time:247002ms step_avg:144.61ms
step:1719/3242 train_loss:3.4498 train_time:247145ms step_avg:144.61ms
step:1720/3242 train_loss:3.3971 train_time:247287ms step_avg:144.61ms
step:1721/3242 train_loss:3.5576 train_time:247429ms step_avg:144.61ms
step:1722/3242 train_loss:3.3623 train_time:247570ms step_avg:144.61ms
step:1723/3242 train_loss:3.5047 train_time:247715ms step_avg:144.61ms
step:1724/3242 train_loss:3.5872 train_time:247861ms step_avg:144.61ms
step:1725/3242 train_loss:3.4376 train_time:248006ms step_avg:144.61ms
step:1726/3242 train_loss:3.6629 train_time:248150ms step_avg:144.61ms
step:1727/3242 train_loss:3.4543 train_time:248293ms step_avg:144.61ms
step:1728/3242 train_loss:3.5131 train_time:248435ms step_avg:144.61ms
step:1729/3242 train_loss:3.4866 train_time:248579ms step_avg:144.61ms
step:1730/3242 train_loss:3.4960 train_time:248723ms step_avg:144.61ms
step:1731/3242 train_loss:3.8600 train_time:248868ms step_avg:144.61ms
step:1732/3242 train_loss:3.4799 train_time:249011ms step_avg:144.61ms
step:1733/3242 train_loss:3.6045 train_time:249155ms step_avg:144.61ms
step:1734/3242 train_loss:3.3861 train_time:249297ms step_avg:144.60ms
step:1735/3242 train_loss:3.4303 train_time:249440ms step_avg:144.60ms
step:1736/3242 train_loss:3.4559 train_time:249583ms step_avg:144.60ms
step:1737/3242 train_loss:3.4298 train_time:249726ms step_avg:144.60ms
step:1738/3242 train_loss:3.5674 train_time:249870ms step_avg:144.60ms
step:1739/3242 train_loss:3.4344 train_time:250014ms step_avg:144.60ms
step:1740/3242 train_loss:3.4916 train_time:250157ms step_avg:144.60ms
step:1741/3242 train_loss:3.5527 train_time:250300ms step_avg:144.60ms
step:1742/3242 train_loss:3.3571 train_time:250442ms step_avg:144.60ms
step:1743/3242 train_loss:3.2488 train_time:250585ms step_avg:144.60ms
step:1744/3242 train_loss:3.2011 train_time:250727ms step_avg:144.59ms
step:1745/3242 train_loss:3.4746 train_time:250870ms step_avg:144.59ms
step:1746/3242 train_loss:3.4845 train_time:251014ms step_avg:144.59ms
step:1747/3242 train_loss:3.4547 train_time:251158ms step_avg:144.59ms
step:1748/3242 train_loss:3.4704 train_time:251299ms step_avg:144.59ms
step:1749/3242 train_loss:3.7035 train_time:251443ms step_avg:144.59ms
step:1750/3242 train_loss:3.4157 train_time:251586ms step_avg:144.59ms
step:1750/3242 val_loss:3.4682 train_time:251628ms step_avg:144.61ms
step:1751/3242 train_loss:3.4825 train_time:251737ms step_avg:144.59ms
step:1752/3242 train_loss:3.4779 train_time:251887ms step_avg:144.60ms
step:1753/3242 train_loss:3.1146 train_time:252029ms step_avg:144.59ms
step:1754/3242 train_loss:3.2352 train_time:252170ms step_avg:144.59ms
step:1755/3242 train_loss:3.3187 train_time:252312ms step_avg:144.59ms
step:1756/3242 train_loss:3.2853 train_time:252454ms step_avg:144.59ms
step:1757/3242 train_loss:3.4443 train_time:252597ms step_avg:144.59ms
step:1758/3242 train_loss:3.3280 train_time:252742ms step_avg:144.59ms
step:1759/3242 train_loss:3.3220 train_time:252888ms step_avg:144.59ms
step:1760/3242 train_loss:4.3860 train_time:253031ms step_avg:144.59ms
step:1761/3242 train_loss:3.4550 train_time:253175ms step_avg:144.59ms
step:1762/3242 train_loss:3.4918 train_time:253315ms step_avg:144.59ms
step:1763/3242 train_loss:3.4836 train_time:253457ms step_avg:144.58ms
step:1764/3242 train_loss:3.5066 train_time:253598ms step_avg:144.58ms
step:1765/3242 train_loss:3.4207 train_time:253744ms step_avg:144.58ms
step:1766/3242 train_loss:3.4647 train_time:253891ms step_avg:144.58ms
step:1767/3242 train_loss:3.4732 train_time:254035ms step_avg:144.58ms
step:1768/3242 train_loss:3.7237 train_time:254181ms step_avg:144.59ms
step:1769/3242 train_loss:3.4567 train_time:254323ms step_avg:144.58ms
step:1770/3242 train_loss:3.5168 train_time:254463ms step_avg:144.58ms
step:1771/3242 train_loss:3.8695 train_time:254607ms step_avg:144.58ms
step:1772/3242 train_loss:3.4528 train_time:254749ms step_avg:144.58ms
step:1773/3242 train_loss:3.3606 train_time:254893ms step_avg:144.58ms
step:1774/3242 train_loss:3.6124 train_time:255037ms step_avg:144.58ms
step:1775/3242 train_loss:3.3716 train_time:255181ms step_avg:144.58ms
step:1776/3242 train_loss:3.5218 train_time:255324ms step_avg:144.58ms
step:1777/3242 train_loss:3.5678 train_time:255466ms step_avg:144.58ms
step:1778/3242 train_loss:3.6536 train_time:255608ms step_avg:144.57ms
step:1779/3242 train_loss:3.4629 train_time:255750ms step_avg:144.57ms
step:1780/3242 train_loss:3.7560 train_time:255895ms step_avg:144.57ms
step:1781/3242 train_loss:3.5275 train_time:256039ms step_avg:144.57ms
step:1782/3242 train_loss:3.5474 train_time:256185ms step_avg:144.57ms
step:1783/3242 train_loss:3.3321 train_time:256327ms step_avg:144.57ms
step:1784/3242 train_loss:3.4193 train_time:256470ms step_avg:144.57ms
step:1785/3242 train_loss:3.5632 train_time:256612ms step_avg:144.57ms
step:1786/3242 train_loss:3.4482 train_time:256755ms step_avg:144.57ms
step:1787/3242 train_loss:3.6196 train_time:256898ms step_avg:144.57ms
step:1788/3242 train_loss:3.4258 train_time:257043ms step_avg:144.57ms
step:1789/3242 train_loss:3.4075 train_time:257187ms step_avg:144.57ms
step:1790/3242 train_loss:3.5515 train_time:257331ms step_avg:144.57ms
step:1791/3242 train_loss:3.4573 train_time:257475ms step_avg:144.57ms
step:1792/3242 train_loss:3.4076 train_time:257618ms step_avg:144.57ms
step:1793/3242 train_loss:3.5310 train_time:257760ms step_avg:144.57ms
step:1794/3242 train_loss:3.4136 train_time:257904ms step_avg:144.56ms
step:1795/3242 train_loss:3.4013 train_time:258046ms step_avg:144.56ms
step:1796/3242 train_loss:3.4617 train_time:258190ms step_avg:144.56ms
step:1797/3242 train_loss:3.4200 train_time:258333ms step_avg:144.56ms
step:1798/3242 train_loss:3.5607 train_time:258477ms step_avg:144.56ms
step:1799/3242 train_loss:3.4440 train_time:258619ms step_avg:144.56ms
step:1800/3242 train_loss:3.5239 train_time:258763ms step_avg:144.56ms
step:1801/3242 train_loss:3.4466 train_time:258905ms step_avg:144.56ms
step:1802/3242 train_loss:3.4862 train_time:259048ms step_avg:144.56ms
step:1803/3242 train_loss:3.3967 train_time:259192ms step_avg:144.56ms
step:1804/3242 train_loss:3.3252 train_time:259335ms step_avg:144.56ms
step:1805/3242 train_loss:3.5724 train_time:259478ms step_avg:144.56ms
step:1806/3242 train_loss:3.5000 train_time:259621ms step_avg:144.56ms
step:1807/3242 train_loss:3.5132 train_time:259765ms step_avg:144.55ms
step:1808/3242 train_loss:3.6151 train_time:259909ms step_avg:144.55ms
step:1809/3242 train_loss:3.4157 train_time:260050ms step_avg:144.55ms
step:1810/3242 train_loss:3.5124 train_time:260193ms step_avg:144.55ms
step:1811/3242 train_loss:3.6535 train_time:260336ms step_avg:144.55ms
step:1812/3242 train_loss:3.5068 train_time:260482ms step_avg:144.55ms
step:1813/3242 train_loss:3.5476 train_time:260624ms step_avg:144.55ms
step:1814/3242 train_loss:3.5681 train_time:260768ms step_avg:144.55ms
step:1815/3242 train_loss:3.5114 train_time:260910ms step_avg:144.55ms
step:1816/3242 train_loss:3.5438 train_time:261052ms step_avg:144.55ms
step:1817/3242 train_loss:3.5015 train_time:261196ms step_avg:144.55ms
step:1818/3242 train_loss:3.5592 train_time:261339ms step_avg:144.55ms
step:1819/3242 train_loss:3.4781 train_time:261482ms step_avg:144.54ms
step:1820/3242 train_loss:3.4733 train_time:261624ms step_avg:144.54ms
step:1821/3242 train_loss:3.4271 train_time:261767ms step_avg:144.54ms
step:1822/3242 train_loss:3.4049 train_time:261911ms step_avg:144.54ms
step:1823/3242 train_loss:3.3371 train_time:262057ms step_avg:144.54ms
step:1824/3242 train_loss:3.4878 train_time:262201ms step_avg:144.54ms
step:1825/3242 train_loss:3.5994 train_time:262344ms step_avg:144.54ms
step:1826/3242 train_loss:3.5585 train_time:262488ms step_avg:144.54ms
step:1827/3242 train_loss:3.5488 train_time:262631ms step_avg:144.54ms
step:1828/3242 train_loss:3.4091 train_time:262774ms step_avg:144.54ms
step:1829/3242 train_loss:3.4303 train_time:262916ms step_avg:144.54ms
step:1830/3242 train_loss:3.5733 train_time:263061ms step_avg:144.54ms
step:1831/3242 train_loss:3.3459 train_time:263206ms step_avg:144.54ms
step:1832/3242 train_loss:3.4973 train_time:263349ms step_avg:144.54ms
step:1833/3242 train_loss:3.3797 train_time:263492ms step_avg:144.54ms
step:1834/3242 train_loss:3.6964 train_time:263635ms step_avg:144.54ms
step:1835/3242 train_loss:3.5317 train_time:263778ms step_avg:144.54ms
step:1836/3242 train_loss:3.5079 train_time:263920ms step_avg:144.53ms
step:1837/3242 train_loss:3.6343 train_time:264064ms step_avg:144.53ms
step:1838/3242 train_loss:3.4958 train_time:264207ms step_avg:144.53ms
step:1839/3242 train_loss:3.3766 train_time:264349ms step_avg:144.53ms
step:1840/3242 train_loss:3.4932 train_time:264493ms step_avg:144.53ms
step:1841/3242 train_loss:3.3802 train_time:264637ms step_avg:144.53ms
step:1842/3242 train_loss:3.4958 train_time:264779ms step_avg:144.53ms
step:1843/3242 train_loss:3.5483 train_time:264923ms step_avg:144.53ms
step:1844/3242 train_loss:3.2986 train_time:265067ms step_avg:144.53ms
step:1845/3242 train_loss:3.4205 train_time:265210ms step_avg:144.53ms
step:1846/3242 train_loss:3.4844 train_time:265353ms step_avg:144.53ms
step:1847/3242 train_loss:3.4167 train_time:265497ms step_avg:144.53ms
step:1848/3242 train_loss:3.3177 train_time:265640ms step_avg:144.53ms
step:1849/3242 train_loss:3.5885 train_time:265783ms step_avg:144.53ms
step:1850/3242 train_loss:3.3553 train_time:265927ms step_avg:144.53ms
step:1851/3242 train_loss:3.4377 train_time:266070ms step_avg:144.52ms
step:1852/3242 train_loss:3.3971 train_time:266215ms step_avg:144.53ms
step:1853/3242 train_loss:3.5930 train_time:266358ms step_avg:144.52ms
step:1854/3242 train_loss:3.5719 train_time:266503ms step_avg:144.52ms
step:1855/3242 train_loss:3.4479 train_time:266644ms step_avg:144.52ms
step:1856/3242 train_loss:3.4038 train_time:266787ms step_avg:144.52ms
step:1857/3242 train_loss:3.4275 train_time:266930ms step_avg:144.52ms
step:1858/3242 train_loss:3.6758 train_time:267073ms step_avg:144.52ms
step:1859/3242 train_loss:3.5158 train_time:267217ms step_avg:144.52ms
step:1860/3242 train_loss:3.4557 train_time:267360ms step_avg:144.52ms
step:1861/3242 train_loss:3.4992 train_time:267504ms step_avg:144.52ms
step:1862/3242 train_loss:3.3897 train_time:267646ms step_avg:144.52ms
step:1863/3242 train_loss:3.3876 train_time:267789ms step_avg:144.52ms
step:1864/3242 train_loss:3.4613 train_time:267932ms step_avg:144.52ms
step:1865/3242 train_loss:3.4992 train_time:268076ms step_avg:144.52ms
step:1866/3242 train_loss:3.2605 train_time:268220ms step_avg:144.52ms
step:1867/3242 train_loss:3.3901 train_time:268365ms step_avg:144.52ms
step:1868/3242 train_loss:3.3488 train_time:268507ms step_avg:144.51ms
step:1869/3242 train_loss:3.3521 train_time:268649ms step_avg:144.51ms
step:1870/3242 train_loss:3.5085 train_time:268792ms step_avg:144.51ms
step:1871/3242 train_loss:3.4958 train_time:268935ms step_avg:144.51ms
step:1872/3242 train_loss:3.4399 train_time:269079ms step_avg:144.51ms
step:1873/3242 train_loss:3.4465 train_time:269222ms step_avg:144.51ms
step:1874/3242 train_loss:3.3819 train_time:269366ms step_avg:144.51ms
step:1875/3242 train_loss:3.4784 train_time:269509ms step_avg:144.51ms
step:1875/3242 val_loss:3.4543 train_time:269551ms step_avg:144.53ms
step:1876/3242 train_loss:3.4834 train_time:269665ms step_avg:144.52ms
step:1877/3242 train_loss:3.4061 train_time:269811ms step_avg:144.52ms
step:1878/3242 train_loss:3.4536 train_time:269953ms step_avg:144.51ms
step:1879/3242 train_loss:3.5647 train_time:270094ms step_avg:144.51ms
step:1880/3242 train_loss:3.4425 train_time:270235ms step_avg:144.51ms
step:1881/3242 train_loss:3.4931 train_time:270376ms step_avg:144.51ms
step:1882/3242 train_loss:3.4124 train_time:270517ms step_avg:144.51ms
step:1883/3242 train_loss:3.4816 train_time:270663ms step_avg:144.51ms
step:1884/3242 train_loss:3.4779 train_time:270809ms step_avg:144.51ms
step:1885/3242 train_loss:3.2318 train_time:270953ms step_avg:144.51ms
step:1886/3242 train_loss:3.6288 train_time:271097ms step_avg:144.51ms
step:1887/3242 train_loss:3.3636 train_time:271238ms step_avg:144.51ms
step:1888/3242 train_loss:3.3763 train_time:271380ms step_avg:144.50ms
step:1889/3242 train_loss:3.4570 train_time:271522ms step_avg:144.50ms
step:1890/3242 train_loss:3.5006 train_time:271780ms step_avg:144.56ms
step:1891/3242 train_loss:3.3215 train_time:271930ms step_avg:144.57ms
step:1892/3242 train_loss:3.5964 train_time:272071ms step_avg:144.56ms
step:1893/3242 train_loss:3.3459 train_time:272212ms step_avg:144.56ms
step:1894/3242 train_loss:3.4853 train_time:272352ms step_avg:144.56ms
step:1895/3242 train_loss:3.5167 train_time:272493ms step_avg:144.56ms
step:1896/3242 train_loss:3.3235 train_time:272635ms step_avg:144.56ms
step:1897/3242 train_loss:3.4856 train_time:272786ms step_avg:144.56ms
step:1898/3242 train_loss:3.4401 train_time:272931ms step_avg:144.56ms
step:1899/3242 train_loss:3.5197 train_time:273074ms step_avg:144.56ms
step:1900/3242 train_loss:3.3045 train_time:273347ms step_avg:144.63ms
step:1901/3242 train_loss:3.5453 train_time:273486ms step_avg:144.63ms
step:1902/3242 train_loss:3.4334 train_time:273628ms step_avg:144.62ms
step:1903/3242 train_loss:3.5965 train_time:273770ms step_avg:144.62ms
step:1904/3242 train_loss:3.3973 train_time:273913ms step_avg:144.62ms
step:1905/3242 train_loss:3.6714 train_time:274054ms step_avg:144.62ms
step:1906/3242 train_loss:3.4084 train_time:274197ms step_avg:144.62ms
step:1907/3242 train_loss:3.4035 train_time:274346ms step_avg:144.62ms
step:1908/3242 train_loss:3.4726 train_time:274491ms step_avg:144.62ms
step:1909/3242 train_loss:3.3546 train_time:274635ms step_avg:144.62ms
step:1910/3242 train_loss:3.4305 train_time:274777ms step_avg:144.62ms
step:1911/3242 train_loss:3.5234 train_time:274919ms step_avg:144.62ms
step:1912/3242 train_loss:3.4458 train_time:275060ms step_avg:144.62ms
step:1913/3242 train_loss:3.3313 train_time:275203ms step_avg:144.62ms
step:1914/3242 train_loss:3.1935 train_time:275348ms step_avg:144.62ms
step:1915/3242 train_loss:3.3932 train_time:275491ms step_avg:144.61ms
step:1916/3242 train_loss:3.6028 train_time:275636ms step_avg:144.61ms
step:1917/3242 train_loss:3.6096 train_time:275780ms step_avg:144.61ms
step:1918/3242 train_loss:3.5636 train_time:275922ms step_avg:144.61ms
step:1919/3242 train_loss:3.3831 train_time:276063ms step_avg:144.61ms
step:1920/3242 train_loss:3.6373 train_time:276207ms step_avg:144.61ms
step:1921/3242 train_loss:3.4584 train_time:276349ms step_avg:144.61ms
step:1922/3242 train_loss:3.3893 train_time:276494ms step_avg:144.61ms
step:1923/3242 train_loss:3.5694 train_time:276637ms step_avg:144.61ms
step:1924/3242 train_loss:3.5278 train_time:276781ms step_avg:144.61ms
step:1925/3242 train_loss:3.3711 train_time:276926ms step_avg:144.61ms
step:1926/3242 train_loss:3.4022 train_time:277069ms step_avg:144.61ms
step:1927/3242 train_loss:3.3136 train_time:277211ms step_avg:144.61ms
step:1928/3242 train_loss:3.4251 train_time:277354ms step_avg:144.61ms
step:1929/3242 train_loss:3.2755 train_time:277497ms step_avg:144.60ms
step:1930/3242 train_loss:3.3966 train_time:277639ms step_avg:144.60ms
step:1931/3242 train_loss:3.5301 train_time:277783ms step_avg:144.60ms
step:1932/3242 train_loss:3.3976 train_time:277926ms step_avg:144.60ms
step:1933/3242 train_loss:3.5406 train_time:278068ms step_avg:144.60ms
step:1934/3242 train_loss:3.4072 train_time:278210ms step_avg:144.60ms
step:1935/3242 train_loss:3.4548 train_time:278354ms step_avg:144.60ms
step:1936/3242 train_loss:3.4905 train_time:278496ms step_avg:144.60ms
step:1937/3242 train_loss:3.4490 train_time:278639ms step_avg:144.60ms
step:1938/3242 train_loss:3.4761 train_time:278784ms step_avg:144.60ms
step:1939/3242 train_loss:3.4046 train_time:278926ms step_avg:144.60ms
step:1940/3242 train_loss:3.4993 train_time:279069ms step_avg:144.60ms
step:1941/3242 train_loss:3.5314 train_time:279212ms step_avg:144.59ms
step:1942/3242 train_loss:3.3721 train_time:279354ms step_avg:144.59ms
step:1943/3242 train_loss:3.4049 train_time:279497ms step_avg:144.59ms
step:1944/3242 train_loss:3.4736 train_time:279640ms step_avg:144.59ms
step:1945/3242 train_loss:3.3208 train_time:279784ms step_avg:144.59ms
step:1946/3242 train_loss:3.5895 train_time:279926ms step_avg:144.59ms
step:1947/3242 train_loss:3.4629 train_time:280068ms step_avg:144.59ms
step:1948/3242 train_loss:3.4360 train_time:280212ms step_avg:144.59ms
step:1949/3242 train_loss:3.4380 train_time:280355ms step_avg:144.59ms
step:1950/3242 train_loss:3.3176 train_time:280497ms step_avg:144.59ms
step:1951/3242 train_loss:3.4407 train_time:280639ms step_avg:144.58ms
step:1952/3242 train_loss:3.2898 train_time:280784ms step_avg:144.58ms
step:1953/3242 train_loss:3.4981 train_time:280927ms step_avg:144.58ms
step:1954/3242 train_loss:3.4890 train_time:281069ms step_avg:144.58ms
step:1955/3242 train_loss:3.4436 train_time:281213ms step_avg:144.58ms
step:1956/3242 train_loss:3.3348 train_time:281356ms step_avg:144.58ms
step:1957/3242 train_loss:3.4214 train_time:281499ms step_avg:144.58ms
step:1958/3242 train_loss:3.6044 train_time:281643ms step_avg:144.58ms
step:1959/3242 train_loss:3.5292 train_time:281786ms step_avg:144.58ms
step:1960/3242 train_loss:3.5460 train_time:281929ms step_avg:144.58ms
step:1961/3242 train_loss:3.3465 train_time:282074ms step_avg:144.58ms
step:1962/3242 train_loss:3.4692 train_time:282218ms step_avg:144.58ms
step:1963/3242 train_loss:3.5162 train_time:282359ms step_avg:144.58ms
step:1964/3242 train_loss:3.4566 train_time:282502ms step_avg:144.58ms
step:1965/3242 train_loss:3.3754 train_time:282645ms step_avg:144.58ms
step:1966/3242 train_loss:3.7807 train_time:282788ms step_avg:144.57ms
step:1967/3242 train_loss:3.3839 train_time:282932ms step_avg:144.57ms
step:1968/3242 train_loss:3.4331 train_time:283076ms step_avg:144.57ms
step:1969/3242 train_loss:3.4873 train_time:283219ms step_avg:144.57ms
step:1970/3242 train_loss:3.4403 train_time:283361ms step_avg:144.57ms
step:1971/3242 train_loss:3.3253 train_time:283504ms step_avg:144.57ms
step:1972/3242 train_loss:3.3081 train_time:283647ms step_avg:144.57ms
step:1973/3242 train_loss:3.4276 train_time:283789ms step_avg:144.57ms
step:1974/3242 train_loss:3.3967 train_time:283935ms step_avg:144.57ms
step:1975/3242 train_loss:3.3799 train_time:284079ms step_avg:144.57ms
step:1976/3242 train_loss:3.5363 train_time:284222ms step_avg:144.57ms
step:1977/3242 train_loss:3.4046 train_time:284364ms step_avg:144.57ms
step:1978/3242 train_loss:3.7656 train_time:284507ms step_avg:144.57ms
step:1979/3242 train_loss:3.4468 train_time:284650ms step_avg:144.57ms
step:1980/3242 train_loss:3.4526 train_time:284793ms step_avg:144.57ms
step:1981/3242 train_loss:3.4644 train_time:284935ms step_avg:144.56ms
step:1982/3242 train_loss:3.4843 train_time:285079ms step_avg:144.56ms
step:1983/3242 train_loss:3.4081 train_time:285222ms step_avg:144.56ms
step:1984/3242 train_loss:3.3717 train_time:285366ms step_avg:144.56ms
step:1985/3242 train_loss:3.4348 train_time:285508ms step_avg:144.56ms
step:1986/3242 train_loss:3.4943 train_time:285651ms step_avg:144.56ms
step:1987/3242 train_loss:3.4620 train_time:285793ms step_avg:144.56ms
step:1988/3242 train_loss:3.4363 train_time:285936ms step_avg:144.56ms
step:1989/3242 train_loss:3.5227 train_time:286080ms step_avg:144.56ms
step:1990/3242 train_loss:3.5540 train_time:286223ms step_avg:144.56ms
step:1991/3242 train_loss:3.3351 train_time:286365ms step_avg:144.56ms
step:1992/3242 train_loss:3.3290 train_time:286507ms step_avg:144.55ms
step:1993/3242 train_loss:3.5067 train_time:286650ms step_avg:144.55ms
step:1994/3242 train_loss:3.3332 train_time:286793ms step_avg:144.55ms
step:1995/3242 train_loss:3.4212 train_time:286935ms step_avg:144.55ms
step:1996/3242 train_loss:3.4946 train_time:287079ms step_avg:144.55ms
step:1997/3242 train_loss:3.3671 train_time:287223ms step_avg:144.55ms
step:1998/3242 train_loss:3.4692 train_time:287365ms step_avg:144.55ms
step:1999/3242 train_loss:3.4644 train_time:287508ms step_avg:144.55ms
step:2000/3242 train_loss:3.3838 train_time:287653ms step_avg:144.55ms
step:2000/3242 val_loss:3.4407 train_time:287696ms step_avg:144.57ms
step:2001/3242 train_loss:3.5340 train_time:287808ms step_avg:144.55ms
step:2002/3242 train_loss:3.4781 train_time:287954ms step_avg:144.56ms
step:2003/3242 train_loss:3.5610 train_time:288094ms step_avg:144.55ms
step:2004/3242 train_loss:3.4806 train_time:288236ms step_avg:144.55ms
step:2005/3242 train_loss:3.4891 train_time:288376ms step_avg:144.55ms
step:2006/3242 train_loss:3.3817 train_time:288517ms step_avg:144.55ms
step:2007/3242 train_loss:3.4088 train_time:288658ms step_avg:144.55ms
step:2008/3242 train_loss:3.4567 train_time:288809ms step_avg:144.55ms
step:2009/3242 train_loss:3.4949 train_time:288954ms step_avg:144.55ms
step:2010/3242 train_loss:3.3904 train_time:289099ms step_avg:144.55ms
step:2011/3242 train_loss:3.4736 train_time:289241ms step_avg:144.55ms
step:2012/3242 train_loss:3.4583 train_time:289382ms step_avg:144.55ms
step:2013/3242 train_loss:3.4520 train_time:289524ms step_avg:144.55ms
step:2014/3242 train_loss:3.3699 train_time:289667ms step_avg:144.54ms
step:2015/3242 train_loss:3.4152 train_time:289813ms step_avg:144.55ms
step:2016/3242 train_loss:3.4362 train_time:289958ms step_avg:144.55ms
step:2017/3242 train_loss:3.5538 train_time:290102ms step_avg:144.55ms
step:2018/3242 train_loss:3.4208 train_time:290246ms step_avg:144.54ms
step:2019/3242 train_loss:3.5508 train_time:290387ms step_avg:144.54ms
step:2020/3242 train_loss:3.5754 train_time:290529ms step_avg:144.54ms
step:2021/3242 train_loss:3.2860 train_time:290672ms step_avg:144.54ms
step:2022/3242 train_loss:3.5140 train_time:290816ms step_avg:144.54ms
step:2023/3242 train_loss:3.4459 train_time:290961ms step_avg:144.54ms
step:2024/3242 train_loss:3.5409 train_time:291104ms step_avg:144.54ms
step:2025/3242 train_loss:3.5843 train_time:291247ms step_avg:144.54ms
step:2026/3242 train_loss:3.3674 train_time:291389ms step_avg:144.54ms
step:2027/3242 train_loss:3.3979 train_time:291532ms step_avg:144.54ms
step:2028/3242 train_loss:3.3160 train_time:291676ms step_avg:144.54ms
step:2029/3242 train_loss:3.4138 train_time:291821ms step_avg:144.54ms
step:2030/3242 train_loss:3.3404 train_time:291965ms step_avg:144.54ms
step:2031/3242 train_loss:3.4281 train_time:292109ms step_avg:144.54ms
step:2032/3242 train_loss:3.4294 train_time:292252ms step_avg:144.54ms
step:2033/3242 train_loss:3.4426 train_time:292396ms step_avg:144.54ms
step:2034/3242 train_loss:3.3304 train_time:292538ms step_avg:144.53ms
step:2035/3242 train_loss:3.5022 train_time:292680ms step_avg:144.53ms
step:2036/3242 train_loss:3.5062 train_time:292824ms step_avg:144.53ms
step:2037/3242 train_loss:3.4873 train_time:292968ms step_avg:144.53ms
step:2038/3242 train_loss:3.3656 train_time:293112ms step_avg:144.53ms
step:2039/3242 train_loss:3.6212 train_time:293255ms step_avg:144.53ms
step:2040/3242 train_loss:3.4545 train_time:293398ms step_avg:144.53ms
step:2041/3242 train_loss:3.4720 train_time:293541ms step_avg:144.53ms
step:2042/3242 train_loss:3.4236 train_time:293683ms step_avg:144.53ms
step:2043/3242 train_loss:3.3205 train_time:293826ms step_avg:144.53ms
step:2044/3242 train_loss:3.4439 train_time:293970ms step_avg:144.53ms
step:2045/3242 train_loss:3.4357 train_time:294114ms step_avg:144.53ms
step:2046/3242 train_loss:3.3054 train_time:294256ms step_avg:144.53ms
step:2047/3242 train_loss:3.3827 train_time:294400ms step_avg:144.53ms
step:2048/3242 train_loss:3.4607 train_time:294545ms step_avg:144.53ms
step:2049/3242 train_loss:3.4133 train_time:294686ms step_avg:144.53ms
step:2050/3242 train_loss:3.4647 train_time:294829ms step_avg:144.52ms
step:2051/3242 train_loss:3.6012 train_time:294973ms step_avg:144.52ms
step:2052/3242 train_loss:3.4666 train_time:295116ms step_avg:144.52ms
step:2053/3242 train_loss:3.4199 train_time:295261ms step_avg:144.52ms
step:2054/3242 train_loss:3.4002 train_time:295405ms step_avg:144.52ms
step:2055/3242 train_loss:3.2660 train_time:295548ms step_avg:144.52ms
step:2056/3242 train_loss:3.3821 train_time:295691ms step_avg:144.52ms
step:2057/3242 train_loss:3.5485 train_time:295835ms step_avg:144.52ms
step:2058/3242 train_loss:3.5794 train_time:295977ms step_avg:144.52ms
step:2059/3242 train_loss:3.4321 train_time:296119ms step_avg:144.52ms
step:2060/3242 train_loss:3.4773 train_time:296262ms step_avg:144.52ms
step:2061/3242 train_loss:3.4577 train_time:296406ms step_avg:144.52ms
step:2062/3242 train_loss:3.4167 train_time:296549ms step_avg:144.52ms
step:2063/3242 train_loss:3.3322 train_time:296693ms step_avg:144.52ms
step:2064/3242 train_loss:3.6400 train_time:296835ms step_avg:144.52ms
step:2065/3242 train_loss:3.5012 train_time:296977ms step_avg:144.51ms
step:2066/3242 train_loss:3.4519 train_time:297121ms step_avg:144.51ms
step:2067/3242 train_loss:3.4922 train_time:297264ms step_avg:144.51ms
step:2068/3242 train_loss:3.3936 train_time:297407ms step_avg:144.51ms
step:2069/3242 train_loss:3.4471 train_time:297553ms step_avg:144.51ms
step:2070/3242 train_loss:3.5810 train_time:297700ms step_avg:144.51ms
step:2071/3242 train_loss:3.5872 train_time:297843ms step_avg:144.51ms
step:2072/3242 train_loss:3.4356 train_time:297985ms step_avg:144.51ms
step:2073/3242 train_loss:3.4699 train_time:298129ms step_avg:144.51ms
step:2074/3242 train_loss:3.3551 train_time:298271ms step_avg:144.51ms
step:2075/3242 train_loss:3.8885 train_time:298414ms step_avg:144.51ms
step:2076/3242 train_loss:3.3162 train_time:298558ms step_avg:144.51ms
step:2077/3242 train_loss:3.4845 train_time:298701ms step_avg:144.51ms
step:2078/3242 train_loss:3.3732 train_time:298845ms step_avg:144.51ms
step:2079/3242 train_loss:3.3529 train_time:299103ms step_avg:144.56ms
step:2080/3242 train_loss:3.4387 train_time:299251ms step_avg:144.57ms
step:2081/3242 train_loss:3.6888 train_time:299392ms step_avg:144.56ms
step:2082/3242 train_loss:3.3173 train_time:299533ms step_avg:144.56ms
step:2083/3242 train_loss:3.6650 train_time:299673ms step_avg:144.56ms
step:2084/3242 train_loss:3.3664 train_time:299814ms step_avg:144.56ms
step:2085/3242 train_loss:3.3497 train_time:299955ms step_avg:144.56ms
step:2086/3242 train_loss:3.5929 train_time:300107ms step_avg:144.56ms
step:2087/3242 train_loss:3.5146 train_time:300253ms step_avg:144.56ms
step:2088/3242 train_loss:3.5002 train_time:300397ms step_avg:144.56ms
step:2089/3242 train_loss:3.5634 train_time:300539ms step_avg:144.56ms
step:2090/3242 train_loss:3.4872 train_time:300806ms step_avg:144.62ms
step:2091/3242 train_loss:3.4718 train_time:300947ms step_avg:144.62ms
step:2092/3242 train_loss:3.4261 train_time:301089ms step_avg:144.62ms
step:2093/3242 train_loss:3.4933 train_time:301230ms step_avg:144.61ms
step:2094/3242 train_loss:3.4104 train_time:301372ms step_avg:144.61ms
step:2095/3242 train_loss:3.1907 train_time:301512ms step_avg:144.61ms
step:2096/3242 train_loss:3.4225 train_time:301656ms step_avg:144.61ms
step:2097/3242 train_loss:3.5936 train_time:301806ms step_avg:144.61ms
step:2098/3242 train_loss:3.4133 train_time:301950ms step_avg:144.61ms
step:2099/3242 train_loss:3.3145 train_time:302093ms step_avg:144.61ms
step:2100/3242 train_loss:3.4106 train_time:302235ms step_avg:144.61ms
step:2101/3242 train_loss:3.3665 train_time:302376ms step_avg:144.61ms
step:2102/3242 train_loss:3.5093 train_time:302517ms step_avg:144.61ms
step:2103/3242 train_loss:3.3434 train_time:302661ms step_avg:144.61ms
step:2104/3242 train_loss:3.3141 train_time:302806ms step_avg:144.61ms
step:2105/3242 train_loss:3.5700 train_time:302953ms step_avg:144.61ms
step:2106/3242 train_loss:3.3014 train_time:303096ms step_avg:144.61ms
step:2107/3242 train_loss:3.7072 train_time:303238ms step_avg:144.61ms
step:2108/3242 train_loss:3.5338 train_time:303380ms step_avg:144.60ms
step:2109/3242 train_loss:3.4381 train_time:303524ms step_avg:144.60ms
step:2110/3242 train_loss:3.4655 train_time:303666ms step_avg:144.60ms
step:2111/3242 train_loss:3.2787 train_time:303811ms step_avg:144.60ms
step:2112/3242 train_loss:3.7539 train_time:303955ms step_avg:144.60ms
step:2113/3242 train_loss:3.4510 train_time:304100ms step_avg:144.60ms
step:2114/3242 train_loss:3.3865 train_time:304242ms step_avg:144.60ms
step:2115/3242 train_loss:3.4986 train_time:304383ms step_avg:144.60ms
step:2116/3242 train_loss:3.4552 train_time:304525ms step_avg:144.60ms
step:2117/3242 train_loss:3.4473 train_time:304668ms step_avg:144.60ms
step:2118/3242 train_loss:3.5037 train_time:304812ms step_avg:144.60ms
step:2119/3242 train_loss:3.3584 train_time:304957ms step_avg:144.60ms
step:2120/3242 train_loss:3.4213 train_time:305100ms step_avg:144.60ms
step:2121/3242 train_loss:3.1231 train_time:305244ms step_avg:144.60ms
step:2122/3242 train_loss:3.3212 train_time:305386ms step_avg:144.60ms
step:2123/3242 train_loss:3.4897 train_time:305529ms step_avg:144.59ms
step:2124/3242 train_loss:3.3983 train_time:305673ms step_avg:144.59ms
step:2125/3242 train_loss:3.5700 train_time:305818ms step_avg:144.59ms
step:2125/3242 val_loss:3.4300 train_time:305860ms step_avg:144.61ms
step:2126/3242 train_loss:3.4225 train_time:305974ms step_avg:144.60ms
step:2127/3242 train_loss:3.5308 train_time:306122ms step_avg:144.60ms
step:2128/3242 train_loss:3.5107 train_time:306264ms step_avg:144.60ms
step:2129/3242 train_loss:3.3584 train_time:306405ms step_avg:144.60ms
step:2130/3242 train_loss:3.3589 train_time:306546ms step_avg:144.60ms
step:2131/3242 train_loss:3.3833 train_time:306687ms step_avg:144.60ms
step:2132/3242 train_loss:3.5363 train_time:306828ms step_avg:144.59ms
step:2133/3242 train_loss:3.4175 train_time:306975ms step_avg:144.59ms
step:2134/3242 train_loss:3.3162 train_time:307124ms step_avg:144.60ms
step:2135/3242 train_loss:3.3832 train_time:307269ms step_avg:144.60ms
step:2136/3242 train_loss:3.5057 train_time:307411ms step_avg:144.60ms
step:2137/3242 train_loss:3.5272 train_time:307553ms step_avg:144.59ms
step:2138/3242 train_loss:3.4667 train_time:307694ms step_avg:144.59ms
step:2139/3242 train_loss:3.4620 train_time:307836ms step_avg:144.59ms
step:2140/3242 train_loss:3.4454 train_time:307980ms step_avg:144.59ms
step:2141/3242 train_loss:3.5248 train_time:308127ms step_avg:144.59ms
step:2142/3242 train_loss:3.8285 train_time:308272ms step_avg:144.59ms
step:2143/3242 train_loss:3.3542 train_time:308415ms step_avg:144.59ms
step:2144/3242 train_loss:3.3884 train_time:308559ms step_avg:144.59ms
step:2145/3242 train_loss:3.4334 train_time:308700ms step_avg:144.59ms
step:2146/3242 train_loss:3.5628 train_time:308843ms step_avg:144.59ms
step:2147/3242 train_loss:3.4889 train_time:308985ms step_avg:144.59ms
step:2148/3242 train_loss:3.9041 train_time:309131ms step_avg:144.59ms
step:2149/3242 train_loss:3.4184 train_time:309274ms step_avg:144.59ms
step:2150/3242 train_loss:3.3821 train_time:309419ms step_avg:144.59ms
step:2151/3242 train_loss:3.4607 train_time:309562ms step_avg:144.59ms
step:2152/3242 train_loss:3.4847 train_time:309705ms step_avg:144.59ms
step:2153/3242 train_loss:3.4373 train_time:309846ms step_avg:144.58ms
step:2154/3242 train_loss:3.3751 train_time:309988ms step_avg:144.58ms
step:2155/3242 train_loss:3.5862 train_time:310133ms step_avg:144.58ms
step:2156/3242 train_loss:3.2132 train_time:310279ms step_avg:144.58ms
step:2157/3242 train_loss:3.3688 train_time:310423ms step_avg:144.58ms
step:2158/3242 train_loss:3.4974 train_time:310567ms step_avg:144.58ms
step:2159/3242 train_loss:3.4480 train_time:310710ms step_avg:144.58ms
step:2160/3242 train_loss:3.6011 train_time:310852ms step_avg:144.58ms
step:2161/3242 train_loss:3.5067 train_time:310995ms step_avg:144.58ms
step:2162/3242 train_loss:3.4421 train_time:311139ms step_avg:144.58ms
step:2163/3242 train_loss:3.4112 train_time:311282ms step_avg:144.58ms
step:2164/3242 train_loss:3.4050 train_time:311426ms step_avg:144.58ms
step:2165/3242 train_loss:3.4873 train_time:311569ms step_avg:144.58ms
step:2166/3242 train_loss:3.5139 train_time:311711ms step_avg:144.58ms
step:2167/3242 train_loss:3.4398 train_time:311854ms step_avg:144.58ms
step:2168/3242 train_loss:3.3421 train_time:311996ms step_avg:144.58ms
step:2169/3242 train_loss:3.4234 train_time:312140ms step_avg:144.58ms
step:2170/3242 train_loss:3.4644 train_time:312282ms step_avg:144.58ms
step:2171/3242 train_loss:3.5883 train_time:312428ms step_avg:144.58ms
step:2172/3242 train_loss:3.3784 train_time:312572ms step_avg:144.58ms
step:2173/3242 train_loss:3.3701 train_time:312715ms step_avg:144.57ms
step:2174/3242 train_loss:3.3804 train_time:312857ms step_avg:144.57ms
step:2175/3242 train_loss:3.4318 train_time:313000ms step_avg:144.57ms
step:2176/3242 train_loss:3.3896 train_time:313144ms step_avg:144.57ms
step:2177/3242 train_loss:3.3691 train_time:313287ms step_avg:144.57ms
step:2178/3242 train_loss:3.5834 train_time:313430ms step_avg:144.57ms
step:2179/3242 train_loss:3.4106 train_time:313574ms step_avg:144.57ms
step:2180/3242 train_loss:3.4292 train_time:313718ms step_avg:144.57ms
step:2181/3242 train_loss:3.4765 train_time:313862ms step_avg:144.57ms
step:2182/3242 train_loss:3.4583 train_time:314004ms step_avg:144.57ms
step:2183/3242 train_loss:3.4119 train_time:314146ms step_avg:144.57ms
step:2184/3242 train_loss:3.3199 train_time:314289ms step_avg:144.57ms
step:2185/3242 train_loss:3.5002 train_time:314432ms step_avg:144.57ms
step:2186/3242 train_loss:3.6577 train_time:314576ms step_avg:144.57ms
step:2187/3242 train_loss:3.3104 train_time:314719ms step_avg:144.57ms
step:2188/3242 train_loss:3.3486 train_time:314863ms step_avg:144.57ms
step:2189/3242 train_loss:3.1923 train_time:315005ms step_avg:144.56ms
step:2190/3242 train_loss:3.3504 train_time:315148ms step_avg:144.56ms
step:2191/3242 train_loss:3.4996 train_time:315291ms step_avg:144.56ms
step:2192/3242 train_loss:3.4271 train_time:315434ms step_avg:144.56ms
step:2193/3242 train_loss:3.6673 train_time:315578ms step_avg:144.56ms
step:2194/3242 train_loss:3.4287 train_time:315722ms step_avg:144.56ms
step:2195/3242 train_loss:3.4922 train_time:315866ms step_avg:144.56ms
step:2196/3242 train_loss:3.4325 train_time:316009ms step_avg:144.56ms
step:2197/3242 train_loss:3.3573 train_time:316152ms step_avg:144.56ms
step:2198/3242 train_loss:3.4296 train_time:316295ms step_avg:144.56ms
step:2199/3242 train_loss:3.3740 train_time:316438ms step_avg:144.56ms
step:2200/3242 train_loss:3.3780 train_time:316581ms step_avg:144.56ms
step:2201/3242 train_loss:3.4328 train_time:316724ms step_avg:144.56ms
step:2202/3242 train_loss:3.4169 train_time:316867ms step_avg:144.56ms
step:2203/3242 train_loss:3.4013 train_time:317010ms step_avg:144.56ms
step:2204/3242 train_loss:3.9022 train_time:317154ms step_avg:144.56ms
step:2205/3242 train_loss:3.3131 train_time:317299ms step_avg:144.56ms
step:2206/3242 train_loss:3.4322 train_time:317443ms step_avg:144.56ms
step:2207/3242 train_loss:3.4524 train_time:317585ms step_avg:144.55ms
step:2208/3242 train_loss:3.4583 train_time:317729ms step_avg:144.55ms
step:2209/3242 train_loss:3.3644 train_time:317873ms step_avg:144.55ms
step:2210/3242 train_loss:3.4331 train_time:318015ms step_avg:144.55ms
step:2211/3242 train_loss:3.4480 train_time:318160ms step_avg:144.55ms
step:2212/3242 train_loss:3.4393 train_time:318303ms step_avg:144.55ms
step:2213/3242 train_loss:3.4618 train_time:318445ms step_avg:144.55ms
step:2214/3242 train_loss:3.3221 train_time:318588ms step_avg:144.55ms
step:2215/3242 train_loss:3.3914 train_time:318731ms step_avg:144.55ms
step:2216/3242 train_loss:3.5311 train_time:318874ms step_avg:144.55ms
step:2217/3242 train_loss:3.4796 train_time:319017ms step_avg:144.55ms
step:2218/3242 train_loss:3.4430 train_time:319161ms step_avg:144.55ms
step:2219/3242 train_loss:3.4555 train_time:319304ms step_avg:144.55ms
step:2220/3242 train_loss:3.3572 train_time:319447ms step_avg:144.55ms
step:2221/3242 train_loss:3.6190 train_time:319589ms step_avg:144.54ms
step:2222/3242 train_loss:3.5014 train_time:319732ms step_avg:144.54ms
step:2223/3242 train_loss:3.5263 train_time:319875ms step_avg:144.54ms
step:2224/3242 train_loss:3.3978 train_time:320020ms step_avg:144.54ms
step:2225/3242 train_loss:3.5376 train_time:320163ms step_avg:144.54ms
step:2226/3242 train_loss:3.2836 train_time:320306ms step_avg:144.54ms
step:2227/3242 train_loss:3.5586 train_time:320448ms step_avg:144.54ms
step:2228/3242 train_loss:3.4949 train_time:320590ms step_avg:144.54ms
step:2229/3242 train_loss:3.2977 train_time:320733ms step_avg:144.54ms
step:2230/3242 train_loss:3.6482 train_time:320876ms step_avg:144.54ms
step:2231/3242 train_loss:3.3384 train_time:321020ms step_avg:144.54ms
step:2232/3242 train_loss:3.8021 train_time:321164ms step_avg:144.54ms
step:2233/3242 train_loss:3.4869 train_time:321307ms step_avg:144.54ms
step:2234/3242 train_loss:3.4364 train_time:321451ms step_avg:144.54ms
step:2235/3242 train_loss:3.4568 train_time:321593ms step_avg:144.54ms
step:2236/3242 train_loss:3.2489 train_time:321737ms step_avg:144.54ms
step:2237/3242 train_loss:3.2500 train_time:321880ms step_avg:144.54ms
step:2238/3242 train_loss:3.4767 train_time:322023ms step_avg:144.53ms
step:2239/3242 train_loss:3.5744 train_time:322168ms step_avg:144.53ms
step:2240/3242 train_loss:3.2884 train_time:322310ms step_avg:144.53ms
step:2241/3242 train_loss:3.3509 train_time:322454ms step_avg:144.53ms
step:2242/3242 train_loss:3.5459 train_time:322597ms step_avg:144.53ms
step:2243/3242 train_loss:3.5058 train_time:322740ms step_avg:144.53ms
step:2244/3242 train_loss:3.3734 train_time:322884ms step_avg:144.53ms
step:2245/3242 train_loss:3.4322 train_time:323028ms step_avg:144.53ms
step:2246/3242 train_loss:3.4583 train_time:323171ms step_avg:144.53ms
step:2247/3242 train_loss:3.2871 train_time:323314ms step_avg:144.53ms
step:2248/3242 train_loss:3.3099 train_time:323457ms step_avg:144.53ms
step:2249/3242 train_loss:3.5730 train_time:323600ms step_avg:144.53ms
step:2250/3242 train_loss:3.2882 train_time:323744ms step_avg:144.53ms
step:2250/3242 val_loss:3.4188 train_time:323786ms step_avg:144.55ms
step:2251/3242 train_loss:3.2954 train_time:323895ms step_avg:144.53ms
step:2252/3242 train_loss:3.3673 train_time:324041ms step_avg:144.53ms
step:2253/3242 train_loss:3.3455 train_time:324184ms step_avg:144.53ms
step:2254/3242 train_loss:3.3974 train_time:324326ms step_avg:144.53ms
step:2255/3242 train_loss:3.4506 train_time:324467ms step_avg:144.53ms
step:2256/3242 train_loss:3.3237 train_time:324609ms step_avg:144.53ms
step:2257/3242 train_loss:3.6123 train_time:324751ms step_avg:144.53ms
step:2258/3242 train_loss:3.4804 train_time:324899ms step_avg:144.53ms
step:2259/3242 train_loss:3.8080 train_time:325046ms step_avg:144.53ms
step:2260/3242 train_loss:3.4886 train_time:325190ms step_avg:144.53ms
step:2261/3242 train_loss:3.5387 train_time:325331ms step_avg:144.53ms
step:2262/3242 train_loss:3.4478 train_time:325473ms step_avg:144.53ms
step:2263/3242 train_loss:3.4548 train_time:325615ms step_avg:144.53ms
step:2264/3242 train_loss:3.2128 train_time:325757ms step_avg:144.52ms
step:2265/3242 train_loss:3.3371 train_time:325903ms step_avg:144.52ms
step:2266/3242 train_loss:3.5473 train_time:326051ms step_avg:144.53ms
step:2267/3242 train_loss:3.2850 train_time:326195ms step_avg:144.53ms
step:2268/3242 train_loss:3.3565 train_time:326455ms step_avg:144.58ms
step:2269/3242 train_loss:3.3319 train_time:326605ms step_avg:144.58ms
step:2270/3242 train_loss:3.2990 train_time:326746ms step_avg:144.58ms
step:2271/3242 train_loss:3.6997 train_time:326887ms step_avg:144.58ms
step:2272/3242 train_loss:3.3546 train_time:327028ms step_avg:144.57ms
step:2273/3242 train_loss:3.3604 train_time:327169ms step_avg:144.57ms
step:2274/3242 train_loss:3.4451 train_time:327311ms step_avg:144.57ms
step:2275/3242 train_loss:3.3911 train_time:327463ms step_avg:144.58ms
step:2276/3242 train_loss:3.4077 train_time:327610ms step_avg:144.58ms
step:2277/3242 train_loss:3.2885 train_time:327753ms step_avg:144.58ms
step:2278/3242 train_loss:3.3942 train_time:327894ms step_avg:144.57ms
step:2279/3242 train_loss:3.5166 train_time:328035ms step_avg:144.57ms
step:2280/3242 train_loss:3.3194 train_time:328302ms step_avg:144.63ms
step:2281/3242 train_loss:3.3821 train_time:328445ms step_avg:144.63ms
step:2282/3242 train_loss:3.3972 train_time:328586ms step_avg:144.62ms
step:2283/3242 train_loss:3.5310 train_time:328726ms step_avg:144.62ms
step:2284/3242 train_loss:3.4092 train_time:328868ms step_avg:144.62ms
step:2285/3242 train_loss:3.4269 train_time:329009ms step_avg:144.62ms
step:2286/3242 train_loss:3.4252 train_time:329152ms step_avg:144.62ms
step:2287/3242 train_loss:3.4358 train_time:329302ms step_avg:144.62ms
step:2288/3242 train_loss:3.3833 train_time:329446ms step_avg:144.62ms
step:2289/3242 train_loss:3.5167 train_time:329589ms step_avg:144.62ms
step:2290/3242 train_loss:3.4862 train_time:329731ms step_avg:144.62ms
step:2291/3242 train_loss:3.3736 train_time:329873ms step_avg:144.62ms
step:2292/3242 train_loss:3.7100 train_time:330013ms step_avg:144.62ms
step:2293/3242 train_loss:3.3710 train_time:330158ms step_avg:144.62ms
step:2294/3242 train_loss:3.3165 train_time:330303ms step_avg:144.62ms
step:2295/3242 train_loss:3.5007 train_time:330449ms step_avg:144.62ms
step:2296/3242 train_loss:3.4486 train_time:330592ms step_avg:144.62ms
step:2297/3242 train_loss:3.4352 train_time:330735ms step_avg:144.62ms
step:2298/3242 train_loss:3.8057 train_time:330876ms step_avg:144.61ms
step:2299/3242 train_loss:3.3195 train_time:331018ms step_avg:144.61ms
step:2300/3242 train_loss:3.3244 train_time:331161ms step_avg:144.61ms
step:2301/3242 train_loss:3.6557 train_time:331306ms step_avg:144.61ms
step:2302/3242 train_loss:3.3847 train_time:331450ms step_avg:144.61ms
step:2303/3242 train_loss:3.3999 train_time:331593ms step_avg:144.61ms
step:2304/3242 train_loss:3.3909 train_time:331737ms step_avg:144.61ms
step:2305/3242 train_loss:3.3264 train_time:331879ms step_avg:144.61ms
step:2306/3242 train_loss:3.4863 train_time:332022ms step_avg:144.61ms
step:2307/3242 train_loss:3.3449 train_time:332167ms step_avg:144.61ms
step:2308/3242 train_loss:3.3674 train_time:332312ms step_avg:144.61ms
step:2309/3242 train_loss:3.4849 train_time:332455ms step_avg:144.61ms
step:2310/3242 train_loss:3.4531 train_time:332599ms step_avg:144.61ms
step:2311/3242 train_loss:3.3273 train_time:332744ms step_avg:144.61ms
step:2312/3242 train_loss:3.4334 train_time:332887ms step_avg:144.61ms
step:2313/3242 train_loss:3.5638 train_time:333028ms step_avg:144.61ms
step:2314/3242 train_loss:3.3706 train_time:333172ms step_avg:144.61ms
step:2315/3242 train_loss:3.3027 train_time:333315ms step_avg:144.61ms
step:2316/3242 train_loss:3.3902 train_time:333457ms step_avg:144.60ms
step:2317/3242 train_loss:3.2845 train_time:333600ms step_avg:144.60ms
step:2318/3242 train_loss:3.3811 train_time:333744ms step_avg:144.60ms
step:2319/3242 train_loss:3.4093 train_time:333890ms step_avg:144.60ms
step:2320/3242 train_loss:3.2588 train_time:334033ms step_avg:144.60ms
step:2321/3242 train_loss:3.3900 train_time:334176ms step_avg:144.60ms
step:2322/3242 train_loss:3.4353 train_time:334318ms step_avg:144.60ms
step:2323/3242 train_loss:3.3553 train_time:334462ms step_avg:144.60ms
step:2324/3242 train_loss:3.4049 train_time:334605ms step_avg:144.60ms
step:2325/3242 train_loss:3.3196 train_time:334749ms step_avg:144.60ms
step:2326/3242 train_loss:3.4600 train_time:334891ms step_avg:144.60ms
step:2327/3242 train_loss:3.4674 train_time:335034ms step_avg:144.60ms
step:2328/3242 train_loss:3.2426 train_time:335176ms step_avg:144.60ms
step:2329/3242 train_loss:3.3534 train_time:335321ms step_avg:144.60ms
step:2330/3242 train_loss:3.3740 train_time:335465ms step_avg:144.60ms
step:2331/3242 train_loss:3.3541 train_time:335608ms step_avg:144.60ms
step:2332/3242 train_loss:3.5280 train_time:335751ms step_avg:144.60ms
step:2333/3242 train_loss:3.4133 train_time:335894ms step_avg:144.59ms
step:2334/3242 train_loss:3.3943 train_time:336037ms step_avg:144.59ms
step:2335/3242 train_loss:3.4737 train_time:336180ms step_avg:144.59ms
step:2336/3242 train_loss:3.3152 train_time:336323ms step_avg:144.59ms
step:2337/3242 train_loss:3.4679 train_time:336466ms step_avg:144.59ms
step:2338/3242 train_loss:3.4256 train_time:336609ms step_avg:144.59ms
step:2339/3242 train_loss:3.3709 train_time:336751ms step_avg:144.59ms
step:2340/3242 train_loss:3.4482 train_time:336896ms step_avg:144.59ms
step:2341/3242 train_loss:3.4997 train_time:337039ms step_avg:144.59ms
step:2342/3242 train_loss:3.3659 train_time:337182ms step_avg:144.59ms
step:2343/3242 train_loss:3.3835 train_time:337325ms step_avg:144.59ms
step:2344/3242 train_loss:3.4437 train_time:337469ms step_avg:144.59ms
step:2345/3242 train_loss:3.3892 train_time:337613ms step_avg:144.59ms
step:2346/3242 train_loss:3.4998 train_time:337758ms step_avg:144.59ms
step:2347/3242 train_loss:3.4051 train_time:337899ms step_avg:144.59ms
step:2348/3242 train_loss:3.5176 train_time:338042ms step_avg:144.59ms
step:2349/3242 train_loss:3.4777 train_time:338185ms step_avg:144.59ms
step:2350/3242 train_loss:3.5194 train_time:338328ms step_avg:144.58ms
step:2351/3242 train_loss:3.2172 train_time:338471ms step_avg:144.58ms
step:2352/3242 train_loss:3.3342 train_time:338615ms step_avg:144.58ms
step:2353/3242 train_loss:3.3300 train_time:338759ms step_avg:144.58ms
step:2354/3242 train_loss:3.5464 train_time:338902ms step_avg:144.58ms
step:2355/3242 train_loss:3.3353 train_time:339045ms step_avg:144.58ms
step:2356/3242 train_loss:3.3358 train_time:339189ms step_avg:144.58ms
step:2357/3242 train_loss:3.4876 train_time:339331ms step_avg:144.58ms
step:2358/3242 train_loss:3.3367 train_time:339474ms step_avg:144.58ms
step:2359/3242 train_loss:3.4376 train_time:339618ms step_avg:144.58ms
step:2360/3242 train_loss:3.3445 train_time:339762ms step_avg:144.58ms
step:2361/3242 train_loss:3.3599 train_time:339904ms step_avg:144.58ms
step:2362/3242 train_loss:3.3849 train_time:340047ms step_avg:144.58ms
step:2363/3242 train_loss:3.4446 train_time:340191ms step_avg:144.58ms
step:2364/3242 train_loss:3.3982 train_time:340334ms step_avg:144.58ms
step:2365/3242 train_loss:3.8297 train_time:340478ms step_avg:144.58ms
step:2366/3242 train_loss:3.4603 train_time:340622ms step_avg:144.58ms
step:2367/3242 train_loss:3.6036 train_time:340764ms step_avg:144.58ms
step:2368/3242 train_loss:3.4215 train_time:340907ms step_avg:144.57ms
step:2369/3242 train_loss:3.4302 train_time:341050ms step_avg:144.57ms
step:2370/3242 train_loss:3.4616 train_time:341194ms step_avg:144.57ms
step:2371/3242 train_loss:3.3399 train_time:341337ms step_avg:144.57ms
step:2372/3242 train_loss:3.5696 train_time:341481ms step_avg:144.57ms
step:2373/3242 train_loss:3.4177 train_time:341625ms step_avg:144.57ms
step:2374/3242 train_loss:3.9738 train_time:341767ms step_avg:144.57ms
step:2375/3242 train_loss:3.4040 train_time:341910ms step_avg:144.57ms
step:2375/3242 val_loss:3.4062 train_time:341953ms step_avg:144.59ms
step:2376/3242 train_loss:3.3055 train_time:342062ms step_avg:144.57ms
step:2377/3242 train_loss:3.4655 train_time:342210ms step_avg:144.58ms
step:2378/3242 train_loss:3.4378 train_time:342352ms step_avg:144.57ms
step:2379/3242 train_loss:3.4550 train_time:342493ms step_avg:144.57ms
step:2380/3242 train_loss:3.4299 train_time:342635ms step_avg:144.57ms
step:2381/3242 train_loss:3.3321 train_time:342776ms step_avg:144.57ms
step:2382/3242 train_loss:3.4386 train_time:342918ms step_avg:144.57ms
step:2383/3242 train_loss:3.4486 train_time:343064ms step_avg:144.57ms
step:2384/3242 train_loss:3.3908 train_time:343211ms step_avg:144.57ms
step:2385/3242 train_loss:3.3276 train_time:343353ms step_avg:144.57ms
step:2386/3242 train_loss:3.4415 train_time:343495ms step_avg:144.57ms
step:2387/3242 train_loss:3.3900 train_time:343638ms step_avg:144.57ms
step:2388/3242 train_loss:3.3950 train_time:343781ms step_avg:144.57ms
step:2389/3242 train_loss:3.4313 train_time:343922ms step_avg:144.57ms
step:2390/3242 train_loss:3.4118 train_time:344067ms step_avg:144.57ms
step:2391/3242 train_loss:3.4123 train_time:344213ms step_avg:144.57ms
step:2392/3242 train_loss:3.2940 train_time:344356ms step_avg:144.57ms
step:2393/3242 train_loss:3.5148 train_time:344499ms step_avg:144.57ms
step:2394/3242 train_loss:3.3415 train_time:344641ms step_avg:144.56ms
step:2395/3242 train_loss:3.4521 train_time:344782ms step_avg:144.56ms
step:2396/3242 train_loss:3.5601 train_time:344924ms step_avg:144.56ms
step:2397/3242 train_loss:3.5696 train_time:345068ms step_avg:144.56ms
step:2398/3242 train_loss:3.5360 train_time:345213ms step_avg:144.56ms
step:2399/3242 train_loss:3.4904 train_time:345358ms step_avg:144.56ms
step:2400/3242 train_loss:3.3653 train_time:345503ms step_avg:144.56ms
step:2401/3242 train_loss:3.3729 train_time:345644ms step_avg:144.56ms
step:2402/3242 train_loss:3.4736 train_time:345786ms step_avg:144.56ms
step:2403/3242 train_loss:3.3111 train_time:345929ms step_avg:144.56ms
step:2404/3242 train_loss:3.4390 train_time:346072ms step_avg:144.56ms
step:2405/3242 train_loss:3.6530 train_time:346217ms step_avg:144.56ms
step:2406/3242 train_loss:3.3753 train_time:346361ms step_avg:144.56ms
step:2407/3242 train_loss:3.5259 train_time:346505ms step_avg:144.56ms
step:2408/3242 train_loss:3.3916 train_time:346646ms step_avg:144.56ms
step:2409/3242 train_loss:3.3165 train_time:346789ms step_avg:144.56ms
step:2410/3242 train_loss:3.4647 train_time:346931ms step_avg:144.55ms
step:2411/3242 train_loss:3.2403 train_time:347074ms step_avg:144.55ms
step:2412/3242 train_loss:3.6837 train_time:347217ms step_avg:144.55ms
step:2413/3242 train_loss:3.3679 train_time:347361ms step_avg:144.55ms
step:2414/3242 train_loss:3.4504 train_time:347504ms step_avg:144.55ms
step:2415/3242 train_loss:3.3645 train_time:347646ms step_avg:144.55ms
step:2416/3242 train_loss:3.4365 train_time:347789ms step_avg:144.55ms
step:2417/3242 train_loss:3.2554 train_time:347933ms step_avg:144.55ms
step:2418/3242 train_loss:3.1735 train_time:348077ms step_avg:144.55ms
step:2419/3242 train_loss:3.4795 train_time:348220ms step_avg:144.55ms
step:2420/3242 train_loss:3.3575 train_time:348364ms step_avg:144.55ms
step:2421/3242 train_loss:3.3811 train_time:348508ms step_avg:144.55ms
step:2422/3242 train_loss:3.4890 train_time:348649ms step_avg:144.55ms
step:2423/3242 train_loss:3.5336 train_time:348792ms step_avg:144.55ms
step:2424/3242 train_loss:3.3507 train_time:348935ms step_avg:144.55ms
step:2425/3242 train_loss:3.4467 train_time:349079ms step_avg:144.55ms
step:2426/3242 train_loss:3.4438 train_time:349224ms step_avg:144.55ms
step:2427/3242 train_loss:3.3721 train_time:349370ms step_avg:144.55ms
step:2428/3242 train_loss:3.3074 train_time:349514ms step_avg:144.55ms
step:2429/3242 train_loss:3.4528 train_time:349656ms step_avg:144.55ms
step:2430/3242 train_loss:3.3379 train_time:349800ms step_avg:144.55ms
step:2431/3242 train_loss:3.3974 train_time:349942ms step_avg:144.54ms
step:2432/3242 train_loss:3.4611 train_time:350085ms step_avg:144.54ms
step:2433/3242 train_loss:3.4270 train_time:350229ms step_avg:144.54ms
step:2434/3242 train_loss:3.2973 train_time:350372ms step_avg:144.54ms
step:2435/3242 train_loss:3.2594 train_time:350515ms step_avg:144.54ms
step:2436/3242 train_loss:3.4285 train_time:350660ms step_avg:144.54ms
step:2437/3242 train_loss:3.2823 train_time:350802ms step_avg:144.54ms
step:2438/3242 train_loss:3.3598 train_time:350944ms step_avg:144.54ms
step:2439/3242 train_loss:3.4546 train_time:351088ms step_avg:144.54ms
step:2440/3242 train_loss:3.3706 train_time:351231ms step_avg:144.54ms
step:2441/3242 train_loss:3.4520 train_time:351374ms step_avg:144.54ms
step:2442/3242 train_loss:3.3462 train_time:351517ms step_avg:144.54ms
step:2443/3242 train_loss:3.3966 train_time:351661ms step_avg:144.54ms
step:2444/3242 train_loss:3.2790 train_time:351803ms step_avg:144.54ms
step:2445/3242 train_loss:3.2977 train_time:351946ms step_avg:144.54ms
step:2446/3242 train_loss:3.4617 train_time:352089ms step_avg:144.54ms
step:2447/3242 train_loss:3.3242 train_time:352232ms step_avg:144.53ms
step:2448/3242 train_loss:3.3911 train_time:352375ms step_avg:144.53ms
step:2449/3242 train_loss:3.5519 train_time:352518ms step_avg:144.53ms
step:2450/3242 train_loss:3.3839 train_time:352662ms step_avg:144.53ms
step:2451/3242 train_loss:3.4600 train_time:352803ms step_avg:144.53ms
step:2452/3242 train_loss:3.3598 train_time:352946ms step_avg:144.53ms
step:2453/3242 train_loss:3.4599 train_time:353088ms step_avg:144.53ms
step:2454/3242 train_loss:3.3552 train_time:353231ms step_avg:144.53ms
step:2455/3242 train_loss:3.4802 train_time:353374ms step_avg:144.53ms
step:2456/3242 train_loss:3.4135 train_time:353518ms step_avg:144.53ms
step:2457/3242 train_loss:3.3385 train_time:353783ms step_avg:144.58ms
step:2458/3242 train_loss:3.2601 train_time:353934ms step_avg:144.58ms
step:2459/3242 train_loss:3.3941 train_time:354075ms step_avg:144.58ms
step:2460/3242 train_loss:3.9896 train_time:354216ms step_avg:144.58ms
step:2461/3242 train_loss:3.4454 train_time:354358ms step_avg:144.58ms
step:2462/3242 train_loss:3.2654 train_time:354499ms step_avg:144.58ms
step:2463/3242 train_loss:3.4667 train_time:354641ms step_avg:144.57ms
step:2464/3242 train_loss:3.3820 train_time:354792ms step_avg:144.58ms
step:2465/3242 train_loss:3.5816 train_time:354937ms step_avg:144.58ms
step:2466/3242 train_loss:3.7516 train_time:355079ms step_avg:144.58ms
step:2467/3242 train_loss:3.4986 train_time:355220ms step_avg:144.57ms
step:2468/3242 train_loss:3.3726 train_time:355361ms step_avg:144.57ms
step:2469/3242 train_loss:3.4913 train_time:355502ms step_avg:144.57ms
step:2470/3242 train_loss:3.4992 train_time:355782ms step_avg:144.63ms
step:2471/3242 train_loss:3.3014 train_time:355923ms step_avg:144.63ms
step:2472/3242 train_loss:3.3916 train_time:356065ms step_avg:144.62ms
step:2473/3242 train_loss:3.3898 train_time:356207ms step_avg:144.62ms
step:2474/3242 train_loss:3.5309 train_time:356348ms step_avg:144.62ms
step:2475/3242 train_loss:3.6614 train_time:356489ms step_avg:144.62ms
step:2476/3242 train_loss:3.2466 train_time:356631ms step_avg:144.62ms
step:2477/3242 train_loss:3.4608 train_time:356779ms step_avg:144.62ms
step:2478/3242 train_loss:3.4260 train_time:356926ms step_avg:144.62ms
step:2479/3242 train_loss:3.2593 train_time:357068ms step_avg:144.62ms
step:2480/3242 train_loss:3.2609 train_time:357211ms step_avg:144.62ms
step:2481/3242 train_loss:3.4045 train_time:357352ms step_avg:144.62ms
step:2482/3242 train_loss:3.4139 train_time:357494ms step_avg:144.62ms
step:2483/3242 train_loss:3.4364 train_time:357638ms step_avg:144.62ms
step:2484/3242 train_loss:3.3913 train_time:357783ms step_avg:144.62ms
step:2485/3242 train_loss:3.3996 train_time:357927ms step_avg:144.62ms
step:2486/3242 train_loss:3.2856 train_time:358070ms step_avg:144.62ms
step:2487/3242 train_loss:3.4877 train_time:358213ms step_avg:144.62ms
step:2488/3242 train_loss:3.4354 train_time:358355ms step_avg:144.61ms
step:2489/3242 train_loss:3.3350 train_time:358497ms step_avg:144.61ms
step:2490/3242 train_loss:3.4524 train_time:358640ms step_avg:144.61ms
step:2491/3242 train_loss:3.4985 train_time:358784ms step_avg:144.61ms
step:2492/3242 train_loss:3.5834 train_time:358928ms step_avg:144.61ms
step:2493/3242 train_loss:3.4369 train_time:359072ms step_avg:144.61ms
step:2494/3242 train_loss:3.3535 train_time:359215ms step_avg:144.61ms
step:2495/3242 train_loss:3.4777 train_time:359359ms step_avg:144.61ms
step:2496/3242 train_loss:3.4311 train_time:359502ms step_avg:144.61ms
step:2497/3242 train_loss:3.3381 train_time:359644ms step_avg:144.61ms
step:2498/3242 train_loss:3.4351 train_time:359787ms step_avg:144.61ms
step:2499/3242 train_loss:3.4869 train_time:359931ms step_avg:144.61ms
step:2500/3242 train_loss:3.5154 train_time:360075ms step_avg:144.61ms
step:2500/3242 val_loss:3.3839 train_time:360119ms step_avg:144.63ms
step:2501/3242 train_loss:3.4533 train_time:360229ms step_avg:144.61ms
step:2502/3242 train_loss:3.4109 train_time:360375ms step_avg:144.61ms
step:2503/3242 train_loss:3.4274 train_time:360518ms step_avg:144.61ms
step:2504/3242 train_loss:3.2899 train_time:360659ms step_avg:144.61ms
step:2505/3242 train_loss:3.4916 train_time:360799ms step_avg:144.61ms
step:2506/3242 train_loss:3.4373 train_time:360940ms step_avg:144.61ms
step:2507/3242 train_loss:3.3803 train_time:361083ms step_avg:144.61ms
step:2508/3242 train_loss:3.3856 train_time:361232ms step_avg:144.61ms
step:2509/3242 train_loss:3.3480 train_time:361377ms step_avg:144.61ms
step:2510/3242 train_loss:3.5248 train_time:361521ms step_avg:144.61ms
step:2511/3242 train_loss:3.3513 train_time:361662ms step_avg:144.61ms
step:2512/3242 train_loss:3.3348 train_time:361805ms step_avg:144.61ms
step:2513/3242 train_loss:3.4192 train_time:361946ms step_avg:144.60ms
step:2514/3242 train_loss:3.4399 train_time:362089ms step_avg:144.60ms
step:2515/3242 train_loss:3.3459 train_time:362233ms step_avg:144.60ms
step:2516/3242 train_loss:3.4274 train_time:362379ms step_avg:144.60ms
step:2517/3242 train_loss:3.4200 train_time:362522ms step_avg:144.60ms
step:2518/3242 train_loss:3.3037 train_time:362663ms step_avg:144.60ms
step:2519/3242 train_loss:3.3291 train_time:362805ms step_avg:144.60ms
step:2520/3242 train_loss:3.4504 train_time:362947ms step_avg:144.60ms
step:2521/3242 train_loss:3.4415 train_time:363090ms step_avg:144.60ms
step:2522/3242 train_loss:3.3280 train_time:363236ms step_avg:144.60ms
step:2523/3242 train_loss:3.3047 train_time:363382ms step_avg:144.60ms
step:2524/3242 train_loss:3.4007 train_time:363526ms step_avg:144.60ms
step:2525/3242 train_loss:3.2540 train_time:363668ms step_avg:144.60ms
step:2526/3242 train_loss:3.4662 train_time:363811ms step_avg:144.60ms
step:2527/3242 train_loss:3.3720 train_time:363952ms step_avg:144.60ms
step:2528/3242 train_loss:3.3826 train_time:364095ms step_avg:144.60ms
step:2529/3242 train_loss:3.3676 train_time:364240ms step_avg:144.60ms
step:2530/3242 train_loss:3.3824 train_time:364388ms step_avg:144.60ms
step:2531/3242 train_loss:3.4225 train_time:364532ms step_avg:144.60ms
step:2532/3242 train_loss:3.2481 train_time:364674ms step_avg:144.60ms
step:2533/3242 train_loss:3.4135 train_time:364815ms step_avg:144.60ms
step:2534/3242 train_loss:3.3023 train_time:364957ms step_avg:144.59ms
step:2535/3242 train_loss:3.3410 train_time:365099ms step_avg:144.59ms
step:2536/3242 train_loss:3.3998 train_time:365242ms step_avg:144.59ms
step:2537/3242 train_loss:3.4037 train_time:365388ms step_avg:144.59ms
step:2538/3242 train_loss:3.2402 train_time:365532ms step_avg:144.59ms
step:2539/3242 train_loss:3.5360 train_time:365677ms step_avg:144.59ms
step:2540/3242 train_loss:3.2244 train_time:365820ms step_avg:144.59ms
step:2541/3242 train_loss:3.4058 train_time:365960ms step_avg:144.59ms
step:2542/3242 train_loss:3.1829 train_time:366102ms step_avg:144.59ms
step:2543/3242 train_loss:3.6065 train_time:366247ms step_avg:144.59ms
step:2544/3242 train_loss:3.3776 train_time:366391ms step_avg:144.59ms
step:2545/3242 train_loss:3.5366 train_time:366536ms step_avg:144.59ms
step:2546/3242 train_loss:3.3675 train_time:366680ms step_avg:144.59ms
step:2547/3242 train_loss:3.3435 train_time:366823ms step_avg:144.59ms
step:2548/3242 train_loss:3.3571 train_time:366964ms step_avg:144.59ms
step:2549/3242 train_loss:3.5125 train_time:367107ms step_avg:144.59ms
step:2550/3242 train_loss:3.3736 train_time:367251ms step_avg:144.59ms
step:2551/3242 train_loss:3.3713 train_time:367394ms step_avg:144.59ms
step:2552/3242 train_loss:3.4008 train_time:367538ms step_avg:144.59ms
step:2553/3242 train_loss:3.4204 train_time:367683ms step_avg:144.59ms
step:2554/3242 train_loss:3.3334 train_time:367827ms step_avg:144.59ms
step:2555/3242 train_loss:3.4404 train_time:367968ms step_avg:144.58ms
step:2556/3242 train_loss:3.4899 train_time:368111ms step_avg:144.58ms
step:2557/3242 train_loss:3.4726 train_time:368255ms step_avg:144.58ms
step:2558/3242 train_loss:3.3216 train_time:368398ms step_avg:144.58ms
step:2559/3242 train_loss:3.3298 train_time:368541ms step_avg:144.58ms
step:2560/3242 train_loss:3.3356 train_time:368685ms step_avg:144.58ms
step:2561/3242 train_loss:3.4558 train_time:368829ms step_avg:144.58ms
step:2562/3242 train_loss:3.4913 train_time:368970ms step_avg:144.58ms
step:2563/3242 train_loss:3.3664 train_time:369114ms step_avg:144.58ms
step:2564/3242 train_loss:3.3990 train_time:369258ms step_avg:144.58ms
step:2565/3242 train_loss:3.3200 train_time:369402ms step_avg:144.58ms
step:2566/3242 train_loss:3.3331 train_time:369546ms step_avg:144.58ms
step:2567/3242 train_loss:3.3282 train_time:369690ms step_avg:144.58ms
step:2568/3242 train_loss:3.3751 train_time:369833ms step_avg:144.58ms
step:2569/3242 train_loss:3.5174 train_time:369976ms step_avg:144.58ms
step:2570/3242 train_loss:3.4215 train_time:370119ms step_avg:144.58ms
step:2571/3242 train_loss:3.4981 train_time:370263ms step_avg:144.58ms
step:2572/3242 train_loss:3.2676 train_time:370407ms step_avg:144.58ms
step:2573/3242 train_loss:3.3600 train_time:370550ms step_avg:144.58ms
step:2574/3242 train_loss:3.0238 train_time:370694ms step_avg:144.58ms
step:2575/3242 train_loss:3.2685 train_time:370837ms step_avg:144.58ms
step:2576/3242 train_loss:3.2141 train_time:370980ms step_avg:144.58ms
step:2577/3242 train_loss:3.3333 train_time:371123ms step_avg:144.57ms
step:2578/3242 train_loss:3.3755 train_time:371264ms step_avg:144.57ms
step:2579/3242 train_loss:3.2898 train_time:371408ms step_avg:144.57ms
step:2580/3242 train_loss:3.3488 train_time:371551ms step_avg:144.57ms
step:2581/3242 train_loss:3.2880 train_time:371695ms step_avg:144.57ms
step:2582/3242 train_loss:3.3945 train_time:371839ms step_avg:144.57ms
step:2583/3242 train_loss:3.2759 train_time:371983ms step_avg:144.57ms
step:2584/3242 train_loss:3.4694 train_time:372127ms step_avg:144.57ms
step:2585/3242 train_loss:3.3782 train_time:372269ms step_avg:144.57ms
step:2586/3242 train_loss:3.3859 train_time:372412ms step_avg:144.57ms
step:2587/3242 train_loss:3.5135 train_time:372555ms step_avg:144.57ms
step:2588/3242 train_loss:3.4050 train_time:372699ms step_avg:144.57ms
step:2589/3242 train_loss:3.2630 train_time:372843ms step_avg:144.57ms
step:2590/3242 train_loss:3.4282 train_time:372988ms step_avg:144.57ms
step:2591/3242 train_loss:3.3339 train_time:373132ms step_avg:144.57ms
step:2592/3242 train_loss:3.5543 train_time:373274ms step_avg:144.57ms
step:2593/3242 train_loss:3.4123 train_time:373418ms step_avg:144.57ms
step:2594/3242 train_loss:3.2274 train_time:373561ms step_avg:144.57ms
step:2595/3242 train_loss:3.3053 train_time:373704ms step_avg:144.57ms
step:2596/3242 train_loss:3.7268 train_time:373847ms step_avg:144.57ms
step:2597/3242 train_loss:3.3910 train_time:373992ms step_avg:144.57ms
step:2598/3242 train_loss:3.3902 train_time:374134ms step_avg:144.56ms
step:2599/3242 train_loss:3.2345 train_time:374278ms step_avg:144.56ms
step:2600/3242 train_loss:3.4867 train_time:374422ms step_avg:144.56ms
step:2601/3242 train_loss:3.6466 train_time:374562ms step_avg:144.56ms
step:2602/3242 train_loss:3.2299 train_time:374704ms step_avg:144.56ms
step:2603/3242 train_loss:3.3663 train_time:374848ms step_avg:144.56ms
step:2604/3242 train_loss:3.2117 train_time:374992ms step_avg:144.56ms
step:2605/3242 train_loss:3.5033 train_time:375136ms step_avg:144.56ms
step:2606/3242 train_loss:3.3688 train_time:375280ms step_avg:144.56ms
step:2607/3242 train_loss:3.2616 train_time:375423ms step_avg:144.56ms
step:2608/3242 train_loss:3.2247 train_time:375565ms step_avg:144.56ms
step:2609/3242 train_loss:3.3369 train_time:375708ms step_avg:144.56ms
step:2610/3242 train_loss:3.5170 train_time:375851ms step_avg:144.56ms
step:2611/3242 train_loss:3.3801 train_time:375994ms step_avg:144.56ms
step:2612/3242 train_loss:3.2289 train_time:376137ms step_avg:144.56ms
step:2613/3242 train_loss:3.3097 train_time:376281ms step_avg:144.56ms
step:2614/3242 train_loss:3.4268 train_time:376424ms step_avg:144.56ms
step:2615/3242 train_loss:3.3618 train_time:376566ms step_avg:144.56ms
step:2616/3242 train_loss:3.3555 train_time:376708ms step_avg:144.55ms
step:2617/3242 train_loss:3.3973 train_time:376851ms step_avg:144.55ms
step:2618/3242 train_loss:3.4256 train_time:376994ms step_avg:144.55ms
step:2619/3242 train_loss:3.2836 train_time:377137ms step_avg:144.55ms
step:2620/3242 train_loss:3.4519 train_time:377281ms step_avg:144.55ms
step:2621/3242 train_loss:3.4127 train_time:377425ms step_avg:144.55ms
step:2622/3242 train_loss:3.5429 train_time:377566ms step_avg:144.55ms
step:2623/3242 train_loss:3.4555 train_time:377709ms step_avg:144.55ms
step:2624/3242 train_loss:3.3710 train_time:377852ms step_avg:144.55ms
step:2625/3242 train_loss:3.3289 train_time:377995ms step_avg:144.55ms
step:2625/3242 val_loss:3.3607 train_time:378039ms step_avg:144.57ms
step:2626/3242 train_loss:3.3575 train_time:378143ms step_avg:144.55ms
step:2627/3242 train_loss:3.4188 train_time:378292ms step_avg:144.55ms
step:2628/3242 train_loss:3.2335 train_time:378435ms step_avg:144.55ms
step:2629/3242 train_loss:3.5049 train_time:378576ms step_avg:144.55ms
step:2630/3242 train_loss:3.3880 train_time:378717ms step_avg:144.55ms
step:2631/3242 train_loss:3.4283 train_time:378858ms step_avg:144.55ms
step:2632/3242 train_loss:3.6647 train_time:379002ms step_avg:144.55ms
step:2633/3242 train_loss:3.4068 train_time:379150ms step_avg:144.55ms
step:2634/3242 train_loss:3.3273 train_time:379295ms step_avg:144.55ms
step:2635/3242 train_loss:3.2990 train_time:379438ms step_avg:144.55ms
step:2636/3242 train_loss:3.3431 train_time:379579ms step_avg:144.55ms
step:2637/3242 train_loss:3.1287 train_time:379720ms step_avg:144.55ms
step:2638/3242 train_loss:3.4415 train_time:379863ms step_avg:144.54ms
step:2639/3242 train_loss:3.4142 train_time:380007ms step_avg:144.54ms
step:2640/3242 train_loss:3.3022 train_time:380153ms step_avg:144.54ms
step:2641/3242 train_loss:3.3885 train_time:380298ms step_avg:144.55ms
step:2642/3242 train_loss:3.4228 train_time:380443ms step_avg:144.55ms
step:2643/3242 train_loss:3.2124 train_time:380585ms step_avg:144.54ms
step:2644/3242 train_loss:3.3353 train_time:380727ms step_avg:144.54ms
step:2645/3242 train_loss:3.4065 train_time:380869ms step_avg:144.54ms
step:2646/3242 train_loss:3.3648 train_time:381128ms step_avg:144.59ms
step:2647/3242 train_loss:3.2642 train_time:381276ms step_avg:144.59ms
step:2648/3242 train_loss:3.4864 train_time:381416ms step_avg:144.59ms
step:2649/3242 train_loss:3.7374 train_time:381557ms step_avg:144.58ms
step:2650/3242 train_loss:3.3777 train_time:381698ms step_avg:144.58ms
step:2651/3242 train_loss:3.3413 train_time:381839ms step_avg:144.58ms
step:2652/3242 train_loss:3.4762 train_time:381983ms step_avg:144.58ms
step:2653/3242 train_loss:3.3114 train_time:382137ms step_avg:144.58ms
step:2654/3242 train_loss:3.3016 train_time:382284ms step_avg:144.59ms
step:2655/3242 train_loss:3.3677 train_time:382426ms step_avg:144.58ms
step:2656/3242 train_loss:3.2887 train_time:382568ms step_avg:144.58ms
step:2657/3242 train_loss:3.3198 train_time:382710ms step_avg:144.58ms
step:2658/3242 train_loss:3.2937 train_time:382851ms step_avg:144.58ms
step:2659/3242 train_loss:3.3800 train_time:382994ms step_avg:144.58ms
step:2660/3242 train_loss:3.5149 train_time:383311ms step_avg:144.65ms
step:2661/3242 train_loss:3.3170 train_time:383464ms step_avg:144.65ms
step:2662/3242 train_loss:3.4627 train_time:383606ms step_avg:144.65ms
step:2663/3242 train_loss:3.3305 train_time:383746ms step_avg:144.65ms
step:2664/3242 train_loss:3.3264 train_time:383887ms step_avg:144.64ms
step:2665/3242 train_loss:3.2560 train_time:384029ms step_avg:144.64ms
step:2666/3242 train_loss:3.3052 train_time:384173ms step_avg:144.64ms
step:2667/3242 train_loss:3.3450 train_time:384321ms step_avg:144.64ms
step:2668/3242 train_loss:3.3854 train_time:384465ms step_avg:144.64ms
step:2669/3242 train_loss:3.2973 train_time:384608ms step_avg:144.64ms
step:2670/3242 train_loss:3.3604 train_time:384750ms step_avg:144.64ms
step:2671/3242 train_loss:3.2488 train_time:384891ms step_avg:144.64ms
step:2672/3242 train_loss:3.3149 train_time:385033ms step_avg:144.64ms
step:2673/3242 train_loss:3.3050 train_time:385176ms step_avg:144.64ms
step:2674/3242 train_loss:3.3633 train_time:385321ms step_avg:144.64ms
step:2675/3242 train_loss:3.3911 train_time:385465ms step_avg:144.64ms
step:2676/3242 train_loss:3.3533 train_time:385608ms step_avg:144.64ms
step:2677/3242 train_loss:3.3433 train_time:385750ms step_avg:144.64ms
step:2678/3242 train_loss:3.3752 train_time:385893ms step_avg:144.64ms
step:2679/3242 train_loss:3.4210 train_time:386035ms step_avg:144.64ms
step:2680/3242 train_loss:3.3311 train_time:386178ms step_avg:144.64ms
step:2681/3242 train_loss:3.2504 train_time:386322ms step_avg:144.64ms
step:2682/3242 train_loss:3.2977 train_time:386467ms step_avg:144.64ms
step:2683/3242 train_loss:3.7710 train_time:386610ms step_avg:144.64ms
step:2684/3242 train_loss:3.3550 train_time:386755ms step_avg:144.64ms
step:2685/3242 train_loss:3.3897 train_time:386898ms step_avg:144.63ms
step:2686/3242 train_loss:3.4278 train_time:387039ms step_avg:144.63ms
step:2687/3242 train_loss:3.3509 train_time:387182ms step_avg:144.63ms
step:2688/3242 train_loss:3.4338 train_time:387326ms step_avg:144.63ms
step:2689/3242 train_loss:3.3634 train_time:387470ms step_avg:144.63ms
step:2690/3242 train_loss:3.3459 train_time:387613ms step_avg:144.63ms
step:2691/3242 train_loss:3.3733 train_time:387758ms step_avg:144.63ms
step:2692/3242 train_loss:3.4521 train_time:387900ms step_avg:144.63ms
step:2693/3242 train_loss:3.2385 train_time:388042ms step_avg:144.63ms
step:2694/3242 train_loss:3.6319 train_time:388184ms step_avg:144.63ms
step:2695/3242 train_loss:3.4229 train_time:388327ms step_avg:144.63ms
step:2696/3242 train_loss:3.2102 train_time:388471ms step_avg:144.63ms
step:2697/3242 train_loss:3.4135 train_time:388615ms step_avg:144.63ms
step:2698/3242 train_loss:3.3751 train_time:388760ms step_avg:144.63ms
step:2699/3242 train_loss:3.3325 train_time:388904ms step_avg:144.63ms
step:2700/3242 train_loss:3.4277 train_time:389047ms step_avg:144.63ms
step:2701/3242 train_loss:3.4030 train_time:389189ms step_avg:144.63ms
step:2702/3242 train_loss:3.3077 train_time:389332ms step_avg:144.63ms
step:2703/3242 train_loss:3.3263 train_time:389475ms step_avg:144.62ms
step:2704/3242 train_loss:3.3381 train_time:389619ms step_avg:144.62ms
step:2705/3242 train_loss:3.3092 train_time:389763ms step_avg:144.62ms
step:2706/3242 train_loss:3.4755 train_time:389906ms step_avg:144.62ms
step:2707/3242 train_loss:3.4363 train_time:390047ms step_avg:144.62ms
step:2708/3242 train_loss:3.3411 train_time:390190ms step_avg:144.62ms
step:2709/3242 train_loss:3.3421 train_time:390334ms step_avg:144.62ms
step:2710/3242 train_loss:3.4456 train_time:390477ms step_avg:144.62ms
step:2711/3242 train_loss:3.3224 train_time:390622ms step_avg:144.62ms
step:2712/3242 train_loss:3.4390 train_time:390764ms step_avg:144.62ms
step:2713/3242 train_loss:3.1752 train_time:390907ms step_avg:144.62ms
step:2714/3242 train_loss:3.3714 train_time:391050ms step_avg:144.62ms
step:2715/3242 train_loss:3.2529 train_time:391193ms step_avg:144.62ms
step:2716/3242 train_loss:3.2721 train_time:391336ms step_avg:144.62ms
step:2717/3242 train_loss:3.4679 train_time:391480ms step_avg:144.62ms
step:2718/3242 train_loss:3.3688 train_time:391623ms step_avg:144.62ms
step:2719/3242 train_loss:3.5965 train_time:391767ms step_avg:144.62ms
step:2720/3242 train_loss:3.3308 train_time:391910ms step_avg:144.62ms
step:2721/3242 train_loss:3.3278 train_time:392053ms step_avg:144.62ms
step:2722/3242 train_loss:3.5591 train_time:392197ms step_avg:144.62ms
step:2723/3242 train_loss:3.3277 train_time:392339ms step_avg:144.61ms
step:2724/3242 train_loss:3.4987 train_time:392482ms step_avg:144.61ms
step:2725/3242 train_loss:3.3792 train_time:392627ms step_avg:144.61ms
step:2726/3242 train_loss:3.3457 train_time:392771ms step_avg:144.61ms
step:2727/3242 train_loss:3.3507 train_time:392916ms step_avg:144.61ms
step:2728/3242 train_loss:3.6844 train_time:393061ms step_avg:144.61ms
step:2729/3242 train_loss:3.4153 train_time:393204ms step_avg:144.61ms
step:2730/3242 train_loss:3.2743 train_time:393347ms step_avg:144.61ms
step:2731/3242 train_loss:3.3896 train_time:393489ms step_avg:144.61ms
step:2732/3242 train_loss:3.2948 train_time:393631ms step_avg:144.61ms
step:2733/3242 train_loss:3.1868 train_time:393775ms step_avg:144.61ms
step:2734/3242 train_loss:3.2983 train_time:393919ms step_avg:144.61ms
step:2735/3242 train_loss:3.3712 train_time:394063ms step_avg:144.61ms
step:2736/3242 train_loss:3.2589 train_time:394206ms step_avg:144.61ms
step:2737/3242 train_loss:3.6620 train_time:394350ms step_avg:144.61ms
step:2738/3242 train_loss:3.4081 train_time:394493ms step_avg:144.61ms
step:2739/3242 train_loss:3.6055 train_time:394636ms step_avg:144.61ms
step:2740/3242 train_loss:3.3555 train_time:394778ms step_avg:144.61ms
step:2741/3242 train_loss:3.3504 train_time:394921ms step_avg:144.61ms
step:2742/3242 train_loss:3.2921 train_time:395065ms step_avg:144.61ms
step:2743/3242 train_loss:3.3628 train_time:395208ms step_avg:144.61ms
step:2744/3242 train_loss:3.3725 train_time:395351ms step_avg:144.61ms
step:2745/3242 train_loss:3.4628 train_time:395495ms step_avg:144.61ms
step:2746/3242 train_loss:3.2427 train_time:395639ms step_avg:144.61ms
step:2747/3242 train_loss:3.3328 train_time:395782ms step_avg:144.60ms
step:2748/3242 train_loss:3.3706 train_time:395925ms step_avg:144.60ms
step:2749/3242 train_loss:3.4867 train_time:396069ms step_avg:144.60ms
step:2750/3242 train_loss:3.3297 train_time:396214ms step_avg:144.60ms
step:2750/3242 val_loss:3.3397 train_time:396258ms step_avg:144.62ms
step:2751/3242 train_loss:3.4066 train_time:396363ms step_avg:144.61ms
step:2752/3242 train_loss:3.4503 train_time:396509ms step_avg:144.61ms
step:2753/3242 train_loss:3.3627 train_time:396650ms step_avg:144.60ms
step:2754/3242 train_loss:3.2941 train_time:396791ms step_avg:144.60ms
step:2755/3242 train_loss:3.2945 train_time:396933ms step_avg:144.60ms
step:2756/3242 train_loss:3.3738 train_time:397075ms step_avg:144.60ms
step:2757/3242 train_loss:3.3092 train_time:397220ms step_avg:144.60ms
step:2758/3242 train_loss:3.1929 train_time:397369ms step_avg:144.60ms
step:2759/3242 train_loss:3.5855 train_time:397513ms step_avg:144.60ms
step:2760/3242 train_loss:3.3983 train_time:397655ms step_avg:144.60ms
step:2761/3242 train_loss:3.3629 train_time:397797ms step_avg:144.60ms
step:2762/3242 train_loss:3.3299 train_time:397939ms step_avg:144.60ms
step:2763/3242 train_loss:3.2356 train_time:398082ms step_avg:144.60ms
step:2764/3242 train_loss:3.4014 train_time:398225ms step_avg:144.60ms
step:2765/3242 train_loss:3.3357 train_time:398371ms step_avg:144.60ms
step:2766/3242 train_loss:3.2310 train_time:398515ms step_avg:144.60ms
step:2767/3242 train_loss:3.3216 train_time:398658ms step_avg:144.60ms
step:2768/3242 train_loss:3.3945 train_time:398800ms step_avg:144.60ms
step:2769/3242 train_loss:3.2772 train_time:398942ms step_avg:144.60ms
step:2770/3242 train_loss:3.3543 train_time:399084ms step_avg:144.60ms
step:2771/3242 train_loss:3.3312 train_time:399228ms step_avg:144.60ms
step:2772/3242 train_loss:3.7649 train_time:399373ms step_avg:144.60ms
step:2773/3242 train_loss:3.2423 train_time:399516ms step_avg:144.60ms
step:2774/3242 train_loss:3.3762 train_time:399661ms step_avg:144.60ms
step:2775/3242 train_loss:3.4369 train_time:399805ms step_avg:144.59ms
step:2776/3242 train_loss:3.3967 train_time:399948ms step_avg:144.59ms
step:2777/3242 train_loss:3.4750 train_time:400089ms step_avg:144.59ms
step:2778/3242 train_loss:3.4783 train_time:400233ms step_avg:144.59ms
step:2779/3242 train_loss:3.3565 train_time:400378ms step_avg:144.59ms
step:2780/3242 train_loss:3.2129 train_time:400520ms step_avg:144.59ms
step:2781/3242 train_loss:3.3608 train_time:400665ms step_avg:144.59ms
step:2782/3242 train_loss:3.3837 train_time:400808ms step_avg:144.59ms
step:2783/3242 train_loss:3.2510 train_time:400950ms step_avg:144.59ms
step:2784/3242 train_loss:3.3466 train_time:401092ms step_avg:144.59ms
step:2785/3242 train_loss:3.4107 train_time:401237ms step_avg:144.59ms
step:2786/3242 train_loss:3.2948 train_time:401382ms step_avg:144.59ms
step:2787/3242 train_loss:3.4016 train_time:401524ms step_avg:144.59ms
step:2788/3242 train_loss:3.3697 train_time:401669ms step_avg:144.59ms
step:2789/3242 train_loss:3.3030 train_time:401812ms step_avg:144.59ms
step:2790/3242 train_loss:3.3917 train_time:401957ms step_avg:144.59ms
step:2791/3242 train_loss:3.3195 train_time:402101ms step_avg:144.59ms
step:2792/3242 train_loss:3.2179 train_time:402243ms step_avg:144.59ms
step:2793/3242 train_loss:3.3154 train_time:402387ms step_avg:144.59ms
step:2794/3242 train_loss:3.3620 train_time:402531ms step_avg:144.59ms
step:2795/3242 train_loss:3.2795 train_time:402674ms step_avg:144.59ms
step:2796/3242 train_loss:3.3181 train_time:402816ms step_avg:144.59ms
step:2797/3242 train_loss:3.2305 train_time:402961ms step_avg:144.59ms
step:2798/3242 train_loss:3.3418 train_time:403103ms step_avg:144.59ms
step:2799/3242 train_loss:3.2970 train_time:403246ms step_avg:144.58ms
step:2800/3242 train_loss:3.4600 train_time:403390ms step_avg:144.58ms
step:2801/3242 train_loss:3.4017 train_time:403532ms step_avg:144.58ms
step:2802/3242 train_loss:3.3886 train_time:403676ms step_avg:144.58ms
step:2803/3242 train_loss:3.3329 train_time:403819ms step_avg:144.58ms
step:2804/3242 train_loss:3.5039 train_time:403962ms step_avg:144.58ms
step:2805/3242 train_loss:3.4770 train_time:404105ms step_avg:144.58ms
step:2806/3242 train_loss:3.1989 train_time:404249ms step_avg:144.58ms
step:2807/3242 train_loss:3.6033 train_time:404392ms step_avg:144.58ms
step:2808/3242 train_loss:3.3458 train_time:404535ms step_avg:144.58ms
step:2809/3242 train_loss:3.2815 train_time:404678ms step_avg:144.58ms
step:2810/3242 train_loss:3.2939 train_time:404820ms step_avg:144.58ms
step:2811/3242 train_loss:3.4529 train_time:404963ms step_avg:144.58ms
step:2812/3242 train_loss:3.4402 train_time:405106ms step_avg:144.58ms
step:2813/3242 train_loss:3.1873 train_time:405250ms step_avg:144.58ms
step:2814/3242 train_loss:3.4178 train_time:405396ms step_avg:144.58ms
step:2815/3242 train_loss:3.4870 train_time:405540ms step_avg:144.58ms
step:2816/3242 train_loss:3.2936 train_time:405683ms step_avg:144.58ms
step:2817/3242 train_loss:2.9797 train_time:405827ms step_avg:144.58ms
step:2818/3242 train_loss:3.3159 train_time:405969ms step_avg:144.58ms
step:2819/3242 train_loss:3.2863 train_time:406112ms step_avg:144.58ms
step:2820/3242 train_loss:3.4824 train_time:406255ms step_avg:144.57ms
step:2821/3242 train_loss:3.3424 train_time:406398ms step_avg:144.57ms
step:2822/3242 train_loss:3.4031 train_time:406542ms step_avg:144.57ms
step:2823/3242 train_loss:3.3359 train_time:406685ms step_avg:144.57ms
step:2824/3242 train_loss:3.3087 train_time:406829ms step_avg:144.57ms
step:2825/3242 train_loss:3.2058 train_time:406972ms step_avg:144.57ms
step:2826/3242 train_loss:3.4605 train_time:407115ms step_avg:144.57ms
step:2827/3242 train_loss:3.3550 train_time:407259ms step_avg:144.57ms
step:2828/3242 train_loss:3.2499 train_time:407402ms step_avg:144.57ms
step:2829/3242 train_loss:3.3765 train_time:407546ms step_avg:144.57ms
step:2830/3242 train_loss:3.3715 train_time:407690ms step_avg:144.57ms
step:2831/3242 train_loss:3.3076 train_time:407834ms step_avg:144.57ms
step:2832/3242 train_loss:3.4561 train_time:407977ms step_avg:144.57ms
step:2833/3242 train_loss:3.3720 train_time:408119ms step_avg:144.57ms
step:2834/3242 train_loss:3.3602 train_time:408262ms step_avg:144.57ms
step:2835/3242 train_loss:3.1663 train_time:408522ms step_avg:144.61ms
step:2836/3242 train_loss:3.3935 train_time:408670ms step_avg:144.61ms
step:2837/3242 train_loss:3.3226 train_time:408811ms step_avg:144.61ms
step:2838/3242 train_loss:3.6092 train_time:408952ms step_avg:144.61ms
step:2839/3242 train_loss:3.2798 train_time:409094ms step_avg:144.61ms
step:2840/3242 train_loss:3.2910 train_time:409235ms step_avg:144.61ms
step:2841/3242 train_loss:3.3399 train_time:409378ms step_avg:144.61ms
step:2842/3242 train_loss:3.2772 train_time:409530ms step_avg:144.61ms
step:2843/3242 train_loss:3.2791 train_time:409677ms step_avg:144.61ms
step:2844/3242 train_loss:3.4483 train_time:409818ms step_avg:144.61ms
step:2845/3242 train_loss:3.3261 train_time:409960ms step_avg:144.61ms
step:2846/3242 train_loss:3.3578 train_time:410102ms step_avg:144.61ms
step:2847/3242 train_loss:3.3217 train_time:410243ms step_avg:144.60ms
step:2848/3242 train_loss:3.5824 train_time:410385ms step_avg:144.60ms
step:2849/3242 train_loss:3.2475 train_time:410531ms step_avg:144.60ms
step:2850/3242 train_loss:3.2863 train_time:410849ms step_avg:144.67ms
step:2851/3242 train_loss:3.3880 train_time:411001ms step_avg:144.67ms
step:2852/3242 train_loss:3.3583 train_time:411142ms step_avg:144.67ms
step:2853/3242 train_loss:3.3246 train_time:411283ms step_avg:144.67ms
step:2854/3242 train_loss:3.3924 train_time:411424ms step_avg:144.66ms
step:2855/3242 train_loss:3.2133 train_time:411565ms step_avg:144.66ms
step:2856/3242 train_loss:3.2407 train_time:411708ms step_avg:144.66ms
step:2857/3242 train_loss:3.3365 train_time:411857ms step_avg:144.66ms
step:2858/3242 train_loss:3.3310 train_time:412002ms step_avg:144.66ms
step:2859/3242 train_loss:3.2294 train_time:412145ms step_avg:144.66ms
step:2860/3242 train_loss:3.3130 train_time:412287ms step_avg:144.66ms
step:2861/3242 train_loss:3.2805 train_time:412430ms step_avg:144.66ms
step:2862/3242 train_loss:3.3165 train_time:412572ms step_avg:144.66ms
step:2863/3242 train_loss:3.3624 train_time:412713ms step_avg:144.66ms
step:2864/3242 train_loss:3.6244 train_time:412859ms step_avg:144.66ms
step:2865/3242 train_loss:3.4316 train_time:413004ms step_avg:144.66ms
step:2866/3242 train_loss:3.3224 train_time:413148ms step_avg:144.66ms
step:2867/3242 train_loss:3.1997 train_time:413290ms step_avg:144.66ms
step:2868/3242 train_loss:3.4130 train_time:413432ms step_avg:144.66ms
step:2869/3242 train_loss:3.3641 train_time:413574ms step_avg:144.66ms
step:2870/3242 train_loss:3.3220 train_time:413715ms step_avg:144.66ms
step:2871/3242 train_loss:3.4610 train_time:413861ms step_avg:144.66ms
step:2872/3242 train_loss:3.2297 train_time:414005ms step_avg:144.66ms
step:2873/3242 train_loss:3.3027 train_time:414148ms step_avg:144.66ms
step:2874/3242 train_loss:3.1729 train_time:414289ms step_avg:144.65ms
step:2875/3242 train_loss:3.3208 train_time:414431ms step_avg:144.65ms
step:2875/3242 val_loss:3.3200 train_time:414474ms step_avg:144.67ms
step:2876/3242 train_loss:3.2403 train_time:414576ms step_avg:144.65ms
step:2877/3242 train_loss:3.2239 train_time:414729ms step_avg:144.66ms
step:2878/3242 train_loss:3.3114 train_time:414873ms step_avg:144.66ms
step:2879/3242 train_loss:3.4265 train_time:415014ms step_avg:144.65ms
step:2880/3242 train_loss:3.3772 train_time:415155ms step_avg:144.65ms
step:2881/3242 train_loss:3.3303 train_time:415295ms step_avg:144.65ms
step:2882/3242 train_loss:3.3210 train_time:415440ms step_avg:144.65ms
step:2883/3242 train_loss:3.4324 train_time:415590ms step_avg:144.65ms
step:2884/3242 train_loss:3.2104 train_time:415736ms step_avg:144.65ms
step:2885/3242 train_loss:3.2314 train_time:415878ms step_avg:144.65ms
step:2886/3242 train_loss:3.2827 train_time:416019ms step_avg:144.65ms
step:2887/3242 train_loss:3.2800 train_time:416161ms step_avg:144.65ms
step:2888/3242 train_loss:3.2830 train_time:416302ms step_avg:144.65ms
step:2889/3242 train_loss:3.3169 train_time:416446ms step_avg:144.65ms
step:2890/3242 train_loss:3.5043 train_time:416593ms step_avg:144.65ms
step:2891/3242 train_loss:3.3387 train_time:416739ms step_avg:144.65ms
step:2892/3242 train_loss:3.1693 train_time:416885ms step_avg:144.65ms
step:2893/3242 train_loss:3.1081 train_time:417029ms step_avg:144.65ms
step:2894/3242 train_loss:3.2511 train_time:417170ms step_avg:144.65ms
step:2895/3242 train_loss:3.1360 train_time:417312ms step_avg:144.65ms
step:2896/3242 train_loss:3.3093 train_time:417454ms step_avg:144.65ms
step:2897/3242 train_loss:3.4454 train_time:417598ms step_avg:144.65ms
step:2898/3242 train_loss:3.2669 train_time:417741ms step_avg:144.65ms
step:2899/3242 train_loss:3.3646 train_time:417887ms step_avg:144.65ms
step:2900/3242 train_loss:3.2424 train_time:418031ms step_avg:144.65ms
step:2901/3242 train_loss:3.4330 train_time:418172ms step_avg:144.65ms
step:2902/3242 train_loss:3.4145 train_time:418314ms step_avg:144.65ms
step:2903/3242 train_loss:3.4407 train_time:418457ms step_avg:144.64ms
step:2904/3242 train_loss:3.1763 train_time:418601ms step_avg:144.64ms
step:2905/3242 train_loss:3.3180 train_time:418745ms step_avg:144.64ms
step:2906/3242 train_loss:3.2970 train_time:418890ms step_avg:144.64ms
step:2907/3242 train_loss:3.3595 train_time:419033ms step_avg:144.64ms
step:2908/3242 train_loss:3.3044 train_time:419174ms step_avg:144.64ms
step:2909/3242 train_loss:3.2780 train_time:419317ms step_avg:144.64ms
step:2910/3242 train_loss:3.6116 train_time:419460ms step_avg:144.64ms
step:2911/3242 train_loss:3.3206 train_time:419604ms step_avg:144.64ms
step:2912/3242 train_loss:3.2332 train_time:419749ms step_avg:144.64ms
step:2913/3242 train_loss:3.2117 train_time:419893ms step_avg:144.64ms
step:2914/3242 train_loss:3.6944 train_time:420036ms step_avg:144.64ms
step:2915/3242 train_loss:3.2861 train_time:420178ms step_avg:144.64ms
step:2916/3242 train_loss:3.2386 train_time:420320ms step_avg:144.64ms
step:2917/3242 train_loss:3.2253 train_time:420463ms step_avg:144.64ms
step:2918/3242 train_loss:3.5084 train_time:420607ms step_avg:144.64ms
step:2919/3242 train_loss:3.0084 train_time:420751ms step_avg:144.64ms
step:2920/3242 train_loss:3.2034 train_time:420894ms step_avg:144.64ms
step:2921/3242 train_loss:3.2302 train_time:421037ms step_avg:144.64ms
step:2922/3242 train_loss:3.3282 train_time:421180ms step_avg:144.64ms
step:2923/3242 train_loss:3.3697 train_time:421324ms step_avg:144.64ms
step:2924/3242 train_loss:3.3999 train_time:421466ms step_avg:144.63ms
step:2925/3242 train_loss:3.4120 train_time:421608ms step_avg:144.63ms
step:2926/3242 train_loss:3.3030 train_time:421752ms step_avg:144.63ms
step:2927/3242 train_loss:3.2918 train_time:421894ms step_avg:144.63ms
step:2928/3242 train_loss:3.2938 train_time:422038ms step_avg:144.63ms
step:2929/3242 train_loss:3.2911 train_time:422180ms step_avg:144.63ms
step:2930/3242 train_loss:3.2534 train_time:422323ms step_avg:144.63ms
step:2931/3242 train_loss:3.2827 train_time:422465ms step_avg:144.63ms
step:2932/3242 train_loss:3.4090 train_time:422608ms step_avg:144.63ms
step:2933/3242 train_loss:3.4513 train_time:422752ms step_avg:144.63ms
step:2934/3242 train_loss:3.4275 train_time:422896ms step_avg:144.63ms
step:2935/3242 train_loss:3.2676 train_time:423040ms step_avg:144.63ms
step:2936/3242 train_loss:3.3169 train_time:423183ms step_avg:144.63ms
step:2937/3242 train_loss:3.2694 train_time:423326ms step_avg:144.63ms
step:2938/3242 train_loss:3.2857 train_time:423468ms step_avg:144.63ms
step:2939/3242 train_loss:3.3145 train_time:423611ms step_avg:144.63ms
step:2940/3242 train_loss:3.3510 train_time:423754ms step_avg:144.63ms
step:2941/3242 train_loss:3.3988 train_time:423897ms step_avg:144.63ms
step:2942/3242 train_loss:3.3809 train_time:424042ms step_avg:144.63ms
step:2943/3242 train_loss:3.3131 train_time:424186ms step_avg:144.63ms
step:2944/3242 train_loss:3.1891 train_time:424328ms step_avg:144.62ms
step:2945/3242 train_loss:3.1428 train_time:424471ms step_avg:144.62ms
step:2946/3242 train_loss:3.3433 train_time:424615ms step_avg:144.62ms
step:2947/3242 train_loss:3.4075 train_time:424759ms step_avg:144.62ms
step:2948/3242 train_loss:3.3445 train_time:424901ms step_avg:144.62ms
step:2949/3242 train_loss:3.5267 train_time:425046ms step_avg:144.62ms
step:2950/3242 train_loss:3.3342 train_time:425190ms step_avg:144.62ms
step:2951/3242 train_loss:3.3436 train_time:425332ms step_avg:144.62ms
step:2952/3242 train_loss:3.7410 train_time:425473ms step_avg:144.62ms
step:2953/3242 train_loss:3.4145 train_time:425617ms step_avg:144.62ms
step:2954/3242 train_loss:3.3623 train_time:425761ms step_avg:144.62ms
step:2955/3242 train_loss:3.3759 train_time:425905ms step_avg:144.62ms
step:2956/3242 train_loss:3.3063 train_time:426048ms step_avg:144.62ms
step:2957/3242 train_loss:3.3313 train_time:426191ms step_avg:144.62ms
step:2958/3242 train_loss:3.2052 train_time:426333ms step_avg:144.62ms
step:2959/3242 train_loss:3.2874 train_time:426475ms step_avg:144.62ms
step:2960/3242 train_loss:3.4313 train_time:426617ms step_avg:144.62ms
step:2961/3242 train_loss:3.2358 train_time:426761ms step_avg:144.62ms
step:2962/3242 train_loss:3.3669 train_time:426905ms step_avg:144.62ms
step:2963/3242 train_loss:3.2308 train_time:427049ms step_avg:144.62ms
step:2964/3242 train_loss:3.2901 train_time:427192ms step_avg:144.61ms
step:2965/3242 train_loss:3.2684 train_time:427334ms step_avg:144.61ms
step:2966/3242 train_loss:3.3677 train_time:427477ms step_avg:144.61ms
step:2967/3242 train_loss:3.2569 train_time:427620ms step_avg:144.61ms
step:2968/3242 train_loss:3.4910 train_time:427763ms step_avg:144.61ms
step:2969/3242 train_loss:3.3552 train_time:427907ms step_avg:144.61ms
step:2970/3242 train_loss:3.3668 train_time:428051ms step_avg:144.61ms
step:2971/3242 train_loss:3.3396 train_time:428193ms step_avg:144.61ms
step:2972/3242 train_loss:3.4209 train_time:428336ms step_avg:144.61ms
step:2973/3242 train_loss:3.2514 train_time:428479ms step_avg:144.61ms
step:2974/3242 train_loss:3.2487 train_time:428622ms step_avg:144.61ms
step:2975/3242 train_loss:3.1800 train_time:428764ms step_avg:144.61ms
step:2976/3242 train_loss:3.2566 train_time:428908ms step_avg:144.61ms
step:2977/3242 train_loss:3.2359 train_time:429052ms step_avg:144.61ms
step:2978/3242 train_loss:3.2681 train_time:429194ms step_avg:144.61ms
step:2979/3242 train_loss:3.5438 train_time:429337ms step_avg:144.61ms
step:2980/3242 train_loss:3.3462 train_time:429481ms step_avg:144.61ms
step:2981/3242 train_loss:3.3888 train_time:429624ms step_avg:144.61ms
step:2982/3242 train_loss:3.4062 train_time:429766ms step_avg:144.60ms
step:2983/3242 train_loss:3.4778 train_time:429909ms step_avg:144.60ms
step:2984/3242 train_loss:3.2951 train_time:430052ms step_avg:144.60ms
step:2985/3242 train_loss:3.3807 train_time:430194ms step_avg:144.60ms
step:2986/3242 train_loss:3.3835 train_time:430337ms step_avg:144.60ms
step:2987/3242 train_loss:3.3384 train_time:430481ms step_avg:144.60ms
step:2988/3242 train_loss:3.4550 train_time:430624ms step_avg:144.60ms
step:2989/3242 train_loss:3.0499 train_time:430766ms step_avg:144.60ms
step:2990/3242 train_loss:3.3896 train_time:430910ms step_avg:144.60ms
step:2991/3242 train_loss:3.3569 train_time:431053ms step_avg:144.60ms
step:2992/3242 train_loss:3.3106 train_time:431196ms step_avg:144.60ms
step:2993/3242 train_loss:3.2466 train_time:431339ms step_avg:144.60ms
step:2994/3242 train_loss:3.3820 train_time:431482ms step_avg:144.60ms
step:2995/3242 train_loss:3.2118 train_time:431625ms step_avg:144.60ms
step:2996/3242 train_loss:3.2221 train_time:431766ms step_avg:144.60ms
step:2997/3242 train_loss:3.3035 train_time:431910ms step_avg:144.60ms
step:2998/3242 train_loss:3.2442 train_time:432053ms step_avg:144.60ms
step:2999/3242 train_loss:3.3644 train_time:432195ms step_avg:144.60ms
step:3000/3242 train_loss:3.2674 train_time:432340ms step_avg:144.60ms
step:3000/3242 val_loss:3.3015 train_time:432383ms step_avg:144.61ms
step:3001/3242 train_loss:3.2589 train_time:432495ms step_avg:144.60ms
step:3002/3242 train_loss:3.2113 train_time:432641ms step_avg:144.60ms
step:3003/3242 train_loss:3.2411 train_time:432786ms step_avg:144.60ms
step:3004/3242 train_loss:3.3717 train_time:432928ms step_avg:144.60ms
step:3005/3242 train_loss:3.7147 train_time:433069ms step_avg:144.60ms
step:3006/3242 train_loss:3.2756 train_time:433210ms step_avg:144.60ms
step:3007/3242 train_loss:3.3586 train_time:433351ms step_avg:144.59ms
step:3008/3242 train_loss:3.1557 train_time:433497ms step_avg:144.60ms
step:3009/3242 train_loss:3.3813 train_time:433643ms step_avg:144.60ms
step:3010/3242 train_loss:3.2806 train_time:433788ms step_avg:144.60ms
step:3011/3242 train_loss:3.3386 train_time:433931ms step_avg:144.60ms
step:3012/3242 train_loss:3.3341 train_time:434074ms step_avg:144.59ms
step:3013/3242 train_loss:3.2143 train_time:434215ms step_avg:144.59ms
step:3014/3242 train_loss:3.4187 train_time:434357ms step_avg:144.59ms
step:3015/3242 train_loss:3.3760 train_time:434502ms step_avg:144.59ms
step:3016/3242 train_loss:3.2456 train_time:434648ms step_avg:144.59ms
step:3017/3242 train_loss:3.2922 train_time:434794ms step_avg:144.59ms
step:3018/3242 train_loss:3.3295 train_time:434936ms step_avg:144.59ms
step:3019/3242 train_loss:3.3676 train_time:435079ms step_avg:144.59ms
step:3020/3242 train_loss:3.1490 train_time:435223ms step_avg:144.59ms
step:3021/3242 train_loss:3.4546 train_time:435365ms step_avg:144.59ms
step:3022/3242 train_loss:3.2869 train_time:435508ms step_avg:144.59ms
step:3023/3242 train_loss:3.2100 train_time:435653ms step_avg:144.59ms
step:3024/3242 train_loss:3.3054 train_time:435913ms step_avg:144.63ms
step:3025/3242 train_loss:3.2796 train_time:436059ms step_avg:144.63ms
step:3026/3242 train_loss:3.3443 train_time:436200ms step_avg:144.63ms
step:3027/3242 train_loss:3.3619 train_time:436341ms step_avg:144.63ms
step:3028/3242 train_loss:3.2647 train_time:436481ms step_avg:144.63ms
step:3029/3242 train_loss:3.0765 train_time:436622ms step_avg:144.62ms
step:3030/3242 train_loss:3.4092 train_time:436764ms step_avg:144.62ms
step:3031/3242 train_loss:3.1737 train_time:436914ms step_avg:144.63ms
step:3032/3242 train_loss:3.1645 train_time:437062ms step_avg:144.63ms
step:3033/3242 train_loss:3.5013 train_time:437205ms step_avg:144.63ms
step:3034/3242 train_loss:3.5064 train_time:437347ms step_avg:144.63ms
step:3035/3242 train_loss:3.2664 train_time:437488ms step_avg:144.62ms
step:3036/3242 train_loss:3.3487 train_time:437630ms step_avg:144.62ms
step:3037/3242 train_loss:3.2962 train_time:437773ms step_avg:144.62ms
step:3038/3242 train_loss:3.1973 train_time:437919ms step_avg:144.62ms
step:3039/3242 train_loss:3.2469 train_time:438065ms step_avg:144.62ms
step:3040/3242 train_loss:3.3442 train_time:438341ms step_avg:144.67ms
step:3041/3242 train_loss:3.3351 train_time:438483ms step_avg:144.67ms
step:3042/3242 train_loss:3.1410 train_time:438626ms step_avg:144.67ms
step:3043/3242 train_loss:3.2956 train_time:438770ms step_avg:144.67ms
step:3044/3242 train_loss:3.3184 train_time:438911ms step_avg:144.66ms
step:3045/3242 train_loss:3.3270 train_time:439053ms step_avg:144.66ms
step:3046/3242 train_loss:3.4027 train_time:439197ms step_avg:144.66ms
step:3047/3242 train_loss:3.2221 train_time:439344ms step_avg:144.66ms
step:3048/3242 train_loss:3.3581 train_time:439489ms step_avg:144.66ms
step:3049/3242 train_loss:3.2953 train_time:439633ms step_avg:144.66ms
step:3050/3242 train_loss:3.2214 train_time:439776ms step_avg:144.66ms
step:3051/3242 train_loss:3.3499 train_time:439918ms step_avg:144.66ms
step:3052/3242 train_loss:3.1941 train_time:440060ms step_avg:144.66ms
step:3053/3242 train_loss:3.4390 train_time:440203ms step_avg:144.66ms
step:3054/3242 train_loss:3.3884 train_time:440347ms step_avg:144.66ms
step:3055/3242 train_loss:3.3640 train_time:440491ms step_avg:144.66ms
step:3056/3242 train_loss:3.3621 train_time:440634ms step_avg:144.66ms
step:3057/3242 train_loss:3.2458 train_time:440777ms step_avg:144.66ms
step:3058/3242 train_loss:3.2686 train_time:440919ms step_avg:144.66ms
step:3059/3242 train_loss:3.3401 train_time:441061ms step_avg:144.66ms
step:3060/3242 train_loss:3.2529 train_time:441204ms step_avg:144.66ms
step:3061/3242 train_loss:3.3125 train_time:441349ms step_avg:144.66ms
step:3062/3242 train_loss:3.3160 train_time:441493ms step_avg:144.66ms
step:3063/3242 train_loss:3.2559 train_time:441636ms step_avg:144.66ms
step:3064/3242 train_loss:3.2248 train_time:441779ms step_avg:144.66ms
step:3065/3242 train_loss:3.2436 train_time:441922ms step_avg:144.66ms
step:3066/3242 train_loss:3.2228 train_time:442064ms step_avg:144.65ms
step:3067/3242 train_loss:3.2111 train_time:442207ms step_avg:144.65ms
step:3068/3242 train_loss:3.1749 train_time:442351ms step_avg:144.65ms
step:3069/3242 train_loss:3.2090 train_time:442494ms step_avg:144.65ms
step:3070/3242 train_loss:3.1997 train_time:442638ms step_avg:144.65ms
step:3071/3242 train_loss:3.3912 train_time:442781ms step_avg:144.65ms
step:3072/3242 train_loss:3.3220 train_time:442925ms step_avg:144.65ms
step:3073/3242 train_loss:3.3653 train_time:443068ms step_avg:144.65ms
step:3074/3242 train_loss:3.3467 train_time:443210ms step_avg:144.65ms
step:3075/3242 train_loss:3.2998 train_time:443354ms step_avg:144.65ms
step:3076/3242 train_loss:3.3494 train_time:443497ms step_avg:144.65ms
step:3077/3242 train_loss:3.4056 train_time:443641ms step_avg:144.65ms
step:3078/3242 train_loss:3.2042 train_time:443783ms step_avg:144.65ms
step:3079/3242 train_loss:3.7302 train_time:443927ms step_avg:144.65ms
step:3080/3242 train_loss:3.2913 train_time:444069ms step_avg:144.65ms
step:3081/3242 train_loss:3.2549 train_time:444212ms step_avg:144.65ms
step:3082/3242 train_loss:3.4080 train_time:444355ms step_avg:144.65ms
step:3083/3242 train_loss:3.2076 train_time:444500ms step_avg:144.65ms
step:3084/3242 train_loss:3.2431 train_time:444645ms step_avg:144.65ms
step:3085/3242 train_loss:3.2973 train_time:444787ms step_avg:144.65ms
step:3086/3242 train_loss:3.3918 train_time:444931ms step_avg:144.65ms
step:3087/3242 train_loss:3.3017 train_time:445074ms step_avg:144.65ms
step:3088/3242 train_loss:3.2096 train_time:445217ms step_avg:144.64ms
step:3089/3242 train_loss:3.3695 train_time:445361ms step_avg:144.64ms
step:3090/3242 train_loss:3.2237 train_time:445505ms step_avg:144.64ms
step:3091/3242 train_loss:3.4846 train_time:445649ms step_avg:144.64ms
step:3092/3242 train_loss:4.0600 train_time:445793ms step_avg:144.64ms
step:3093/3242 train_loss:3.3226 train_time:445935ms step_avg:144.64ms
step:3094/3242 train_loss:3.2140 train_time:446078ms step_avg:144.64ms
step:3095/3242 train_loss:3.1672 train_time:446222ms step_avg:144.64ms
step:3096/3242 train_loss:3.3331 train_time:446365ms step_avg:144.64ms
step:3097/3242 train_loss:3.4739 train_time:446508ms step_avg:144.64ms
step:3098/3242 train_loss:3.2354 train_time:446651ms step_avg:144.64ms
step:3099/3242 train_loss:3.2753 train_time:446794ms step_avg:144.64ms
step:3100/3242 train_loss:3.4471 train_time:446937ms step_avg:144.64ms
step:3101/3242 train_loss:3.3548 train_time:447079ms step_avg:144.64ms
step:3102/3242 train_loss:3.3491 train_time:447222ms step_avg:144.64ms
step:3103/3242 train_loss:3.2561 train_time:447366ms step_avg:144.64ms
step:3104/3242 train_loss:3.5133 train_time:447508ms step_avg:144.64ms
step:3105/3242 train_loss:3.3377 train_time:447652ms step_avg:144.64ms
step:3106/3242 train_loss:3.1898 train_time:447795ms step_avg:144.64ms
step:3107/3242 train_loss:3.2187 train_time:447938ms step_avg:144.64ms
step:3108/3242 train_loss:3.1704 train_time:448081ms step_avg:144.64ms
step:3109/3242 train_loss:3.3969 train_time:448225ms step_avg:144.64ms
step:3110/3242 train_loss:3.2830 train_time:448369ms step_avg:144.64ms
step:3111/3242 train_loss:3.3171 train_time:448512ms step_avg:144.63ms
step:3112/3242 train_loss:3.2976 train_time:448656ms step_avg:144.63ms
step:3113/3242 train_loss:3.3497 train_time:448799ms step_avg:144.63ms
step:3114/3242 train_loss:3.3074 train_time:448943ms step_avg:144.63ms
step:3115/3242 train_loss:3.3088 train_time:449084ms step_avg:144.63ms
step:3116/3242 train_loss:3.3421 train_time:449228ms step_avg:144.63ms
step:3117/3242 train_loss:3.1883 train_time:449371ms step_avg:144.63ms
step:3118/3242 train_loss:3.2189 train_time:449514ms step_avg:144.63ms
step:3119/3242 train_loss:3.3923 train_time:449658ms step_avg:144.63ms
step:3120/3242 train_loss:3.3795 train_time:449802ms step_avg:144.63ms
step:3121/3242 train_loss:3.1644 train_time:449945ms step_avg:144.63ms
step:3122/3242 train_loss:3.3607 train_time:450088ms step_avg:144.63ms
step:3123/3242 train_loss:3.4171 train_time:450232ms step_avg:144.63ms
step:3124/3242 train_loss:3.3824 train_time:450375ms step_avg:144.63ms
step:3125/3242 train_loss:3.1804 train_time:450518ms step_avg:144.63ms
step:3125/3242 val_loss:3.2860 train_time:450562ms step_avg:144.64ms
step:3126/3242 train_loss:3.2626 train_time:450675ms step_avg:144.63ms
step:3127/3242 train_loss:3.2930 train_time:450820ms step_avg:144.63ms
step:3128/3242 train_loss:3.3850 train_time:450963ms step_avg:144.63ms
step:3129/3242 train_loss:3.4557 train_time:451104ms step_avg:144.63ms
step:3130/3242 train_loss:3.1587 train_time:451244ms step_avg:144.63ms
step:3131/3242 train_loss:3.3281 train_time:451385ms step_avg:144.63ms
step:3132/3242 train_loss:3.3225 train_time:451528ms step_avg:144.63ms
step:3133/3242 train_loss:3.3511 train_time:451678ms step_avg:144.63ms
step:3134/3242 train_loss:3.2368 train_time:451824ms step_avg:144.63ms
step:3135/3242 train_loss:3.3619 train_time:451968ms step_avg:144.63ms
step:3136/3242 train_loss:3.2686 train_time:452110ms step_avg:144.63ms
step:3137/3242 train_loss:3.3432 train_time:452252ms step_avg:144.63ms
step:3138/3242 train_loss:3.5287 train_time:452394ms step_avg:144.63ms
step:3139/3242 train_loss:3.5029 train_time:452537ms step_avg:144.63ms
step:3140/3242 train_loss:3.2726 train_time:452682ms step_avg:144.63ms
step:3141/3242 train_loss:3.2886 train_time:452826ms step_avg:144.63ms
step:3142/3242 train_loss:3.2150 train_time:452971ms step_avg:144.63ms
step:3143/3242 train_loss:3.3099 train_time:453114ms step_avg:144.63ms
step:3144/3242 train_loss:3.1061 train_time:453256ms step_avg:144.63ms
step:3145/3242 train_loss:3.3449 train_time:453398ms step_avg:144.62ms
step:3146/3242 train_loss:3.2527 train_time:453541ms step_avg:144.62ms
step:3147/3242 train_loss:3.2755 train_time:453686ms step_avg:144.62ms
step:3148/3242 train_loss:3.4396 train_time:453830ms step_avg:144.62ms
step:3149/3242 train_loss:3.5286 train_time:453976ms step_avg:144.62ms
step:3150/3242 train_loss:3.4032 train_time:454120ms step_avg:144.62ms
step:3151/3242 train_loss:3.2129 train_time:454264ms step_avg:144.62ms
step:3152/3242 train_loss:3.2635 train_time:454405ms step_avg:144.62ms
step:3153/3242 train_loss:3.2329 train_time:454548ms step_avg:144.62ms
step:3154/3242 train_loss:3.3583 train_time:454692ms step_avg:144.62ms
step:3155/3242 train_loss:3.1747 train_time:454837ms step_avg:144.62ms
step:3156/3242 train_loss:3.3008 train_time:454981ms step_avg:144.62ms
step:3157/3242 train_loss:3.2478 train_time:455125ms step_avg:144.62ms
step:3158/3242 train_loss:3.3832 train_time:455268ms step_avg:144.62ms
step:3159/3242 train_loss:3.4369 train_time:455410ms step_avg:144.62ms
step:3160/3242 train_loss:3.2797 train_time:455554ms step_avg:144.62ms
step:3161/3242 train_loss:3.3460 train_time:455699ms step_avg:144.62ms
step:3162/3242 train_loss:3.4335 train_time:455845ms step_avg:144.62ms
step:3163/3242 train_loss:3.3326 train_time:455989ms step_avg:144.62ms
step:3164/3242 train_loss:3.3807 train_time:456131ms step_avg:144.62ms
step:3165/3242 train_loss:3.2042 train_time:456274ms step_avg:144.62ms
step:3166/3242 train_loss:3.1909 train_time:456417ms step_avg:144.62ms
step:3167/3242 train_loss:3.2338 train_time:456560ms step_avg:144.62ms
step:3168/3242 train_loss:3.0530 train_time:456703ms step_avg:144.62ms
step:3169/3242 train_loss:3.2274 train_time:456849ms step_avg:144.62ms
step:3170/3242 train_loss:3.3603 train_time:456993ms step_avg:144.62ms
step:3171/3242 train_loss:3.3762 train_time:457136ms step_avg:144.62ms
step:3172/3242 train_loss:3.3550 train_time:457279ms step_avg:144.62ms
step:3173/3242 train_loss:3.3277 train_time:457422ms step_avg:144.62ms
step:3174/3242 train_loss:3.3001 train_time:457565ms step_avg:144.62ms
step:3175/3242 train_loss:3.2901 train_time:457707ms step_avg:144.62ms
step:3176/3242 train_loss:3.2786 train_time:457851ms step_avg:144.61ms
step:3177/3242 train_loss:3.2296 train_time:457995ms step_avg:144.61ms
step:3178/3242 train_loss:3.3435 train_time:458138ms step_avg:144.61ms
step:3179/3242 train_loss:3.4370 train_time:458281ms step_avg:144.61ms
step:3180/3242 train_loss:3.2652 train_time:458426ms step_avg:144.61ms
step:3181/3242 train_loss:3.2621 train_time:458568ms step_avg:144.61ms
step:3182/3242 train_loss:3.3044 train_time:458711ms step_avg:144.61ms
step:3183/3242 train_loss:3.3989 train_time:458854ms step_avg:144.61ms
step:3184/3242 train_loss:3.4159 train_time:458997ms step_avg:144.61ms
step:3185/3242 train_loss:3.3200 train_time:459143ms step_avg:144.61ms
step:3186/3242 train_loss:3.3870 train_time:459286ms step_avg:144.61ms
step:3187/3242 train_loss:3.3780 train_time:459429ms step_avg:144.61ms
step:3188/3242 train_loss:3.1740 train_time:459574ms step_avg:144.61ms
step:3189/3242 train_loss:3.2647 train_time:459718ms step_avg:144.61ms
step:3190/3242 train_loss:3.2874 train_time:459861ms step_avg:144.61ms
step:3191/3242 train_loss:3.3067 train_time:460005ms step_avg:144.61ms
step:3192/3242 train_loss:3.2710 train_time:460150ms step_avg:144.61ms
step:3193/3242 train_loss:3.1982 train_time:460293ms step_avg:144.61ms
step:3194/3242 train_loss:4.2155 train_time:460435ms step_avg:144.61ms
step:3195/3242 train_loss:3.3045 train_time:460579ms step_avg:144.61ms
step:3196/3242 train_loss:3.1096 train_time:460723ms step_avg:144.61ms
step:3197/3242 train_loss:3.2509 train_time:460865ms step_avg:144.61ms
step:3198/3242 train_loss:3.1220 train_time:461008ms step_avg:144.61ms
step:3199/3242 train_loss:3.2485 train_time:461152ms step_avg:144.61ms
step:3200/3242 train_loss:3.1911 train_time:461296ms step_avg:144.61ms
step:3201/3242 train_loss:3.2611 train_time:461438ms step_avg:144.61ms
step:3202/3242 train_loss:3.3594 train_time:461581ms step_avg:144.61ms
step:3203/3242 train_loss:3.2167 train_time:461724ms step_avg:144.61ms
step:3204/3242 train_loss:3.2614 train_time:461867ms step_avg:144.60ms
step:3205/3242 train_loss:3.3509 train_time:462010ms step_avg:144.60ms
step:3206/3242 train_loss:3.5011 train_time:462152ms step_avg:144.60ms
step:3207/3242 train_loss:3.1021 train_time:462295ms step_avg:144.60ms
step:3208/3242 train_loss:3.4646 train_time:462437ms step_avg:144.60ms
step:3209/3242 train_loss:3.2975 train_time:462581ms step_avg:144.60ms
step:3210/3242 train_loss:3.3777 train_time:462723ms step_avg:144.60ms
step:3211/3242 train_loss:3.4539 train_time:462869ms step_avg:144.60ms
step:3212/3242 train_loss:3.1299 train_time:463016ms step_avg:144.60ms
step:3213/3242 train_loss:3.1872 train_time:463273ms step_avg:144.64ms
step:3214/3242 train_loss:3.4063 train_time:463421ms step_avg:144.64ms
step:3215/3242 train_loss:3.1893 train_time:463563ms step_avg:144.64ms
step:3216/3242 train_loss:3.2614 train_time:463703ms step_avg:144.64ms
step:3217/3242 train_loss:3.1632 train_time:463844ms step_avg:144.63ms
step:3218/3242 train_loss:3.2951 train_time:463985ms step_avg:144.63ms
step:3219/3242 train_loss:3.3358 train_time:464126ms step_avg:144.63ms
step:3220/3242 train_loss:3.3846 train_time:464280ms step_avg:144.64ms
step:3221/3242 train_loss:3.3300 train_time:464424ms step_avg:144.64ms
step:3222/3242 train_loss:3.3307 train_time:464565ms step_avg:144.63ms
step:3223/3242 train_loss:3.1971 train_time:464706ms step_avg:144.63ms
step:3224/3242 train_loss:3.2247 train_time:464847ms step_avg:144.63ms
step:3225/3242 train_loss:3.2111 train_time:464990ms step_avg:144.63ms
step:3226/3242 train_loss:3.2559 train_time:465133ms step_avg:144.63ms
step:3227/3242 train_loss:3.1993 train_time:465279ms step_avg:144.63ms
step:3228/3242 train_loss:3.1190 train_time:465426ms step_avg:144.63ms
step:3229/3242 train_loss:3.2330 train_time:465567ms step_avg:144.63ms
step:3230/3242 train_loss:3.0003 train_time:465850ms step_avg:144.67ms
step:3231/3242 train_loss:3.1812 train_time:465991ms step_avg:144.67ms
step:3232/3242 train_loss:3.1815 train_time:466133ms step_avg:144.67ms
step:3233/3242 train_loss:3.4249 train_time:466275ms step_avg:144.67ms
step:3234/3242 train_loss:3.4043 train_time:466415ms step_avg:144.67ms
step:3235/3242 train_loss:3.3695 train_time:466557ms step_avg:144.67ms
step:3236/3242 train_loss:3.2567 train_time:466703ms step_avg:144.67ms
step:3237/3242 train_loss:3.4167 train_time:466853ms step_avg:144.67ms
step:3238/3242 train_loss:3.2821 train_time:466997ms step_avg:144.67ms
step:3239/3242 train_loss:3.4021 train_time:467138ms step_avg:144.67ms
step:3240/3242 train_loss:3.3749 train_time:467281ms step_avg:144.67ms
step:3241/3242 train_loss:3.2678 train_time:467422ms step_avg:144.67ms
step:3242/3242 train_loss:3.2329 train_time:467564ms step_avg:144.67ms
step:3242/3242 val_loss:3.2781 train_time:467607ms step_avg:144.68ms