records/110624_ShortcutsTweaks/dd7304a6-cc43-4d5e-adb8-c070111464a1.txt

====================================================================================================
import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import glob
import time
from dataclasses import dataclass

import numpy as np
import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' \sim Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = A @ X
        X = a * X + b * B + c * A @ B
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        super().__init__(params, defaults)

    def step(self):

        for group in self.param_groups:

            lr = group['lr']
            momentum = group['momentum']
            zeropower_backend = zeropower_backends[group['backend']]

            # generate weight updates in distributed fashion
            total_params = sum(p.numel() for p in group['params'])
            updates_flat = torch.zeros(total_params, device='cuda', dtype=torch.bfloat16)
            curr_idx = 0
            for i, p in enumerate(group['params']):
                # luckily this will perfectly distribute a transformer with multiple of 4 layers to 8 GPUs
                if i % int(os.environ['WORLD_SIZE']) == int(os.environ['RANK']):
                    g = p.grad
                    assert g is not None
                    state = self.state[p]
                    if 'momentum_buffer' not in state:
                        state['momentum_buffer'] = torch.zeros_like(g)
                    buf = state['momentum_buffer']
                    buf.mul_(momentum).add_(g)
                    if group['nesterov']:
                        g = g.add(buf, alpha=momentum)
                    g = zeropower_backend(g, steps=group['backend_steps'])
                    g *= max(1, g.size(0)/g.size(1))**0.5
                    updates_flat[curr_idx:curr_idx+p.numel()] = g.flatten()
                curr_idx += p.numel()

            # sync updates across devices. we are not memory-constrained so can do this simple deserialization
            dist.all_reduce(updates_flat, op=dist.ReduceOp.SUM)

            # deserialize and apply updates
            curr_idx = 0
            for p in group['params']:
                g = updates_flat[curr_idx:curr_idx+p.numel()].view_as(p.data).type_as(p.data)
                p.data.add_(g, alpha=-lr)
                curr_idx += p.numel()

# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.inv_freq = 1.0 / (base ** (torch.arange(0, dim, 2).float() / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            self.seq_len_cached = seq_len
            t = torch.arange(seq_len, device=x.device).type_as(self.inv_freq)
            freqs = torch.outer(t, self.inv_freq).to(x.device)
            self.cos_cached = freqs.cos().bfloat16()
            self.sin_cached = freqs.sin().bfloat16()
        return self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]

def apply_rotary_emb(x, cos, sin):
    assert x.ndim == 4 # multihead attention
    d = x.shape[3]//2
    x1 = x[..., :d]
    x2 = x[..., d:]
    y1 = x1 * cos + x2 * sin
    y2 = x1 * (-sin) + x2 * cos
    return torch.cat([y1, y2], 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.n_head = config.n_head
        self.n_embd = config.n_embd
        self.head_dim = self.n_embd // self.n_head
        assert self.n_embd % self.n_head == 0
        self.c_q = nn.Linear(self.n_embd, self.n_embd, bias=False)
        self.c_k = nn.Linear(self.n_embd, self.n_embd, bias=False)
        self.c_v = nn.Linear(self.n_embd, self.n_embd, bias=False)
        # output projection
        self.c_proj = nn.Linear(self.n_embd, self.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977
        self.rotary = Rotary(self.head_dim)
        self.lamb = nn.Parameter(torch.tensor(0.5)) # @Grad62304977

    def forward(self, x, v1=None):
        B, T, C = x.size() # batch size, sequence length, embedding dimensionality (n_embd)
        q = self.c_q(x).view(B, T, self.n_head, self.head_dim)
        k = self.c_k(x).view(B, T, self.n_head, self.head_dim)
        v = self.c_v(x).view(B, T, self.n_head, self.head_dim)
        if v1 is None:
            v1 = v # This happens if we are in the first block. v needs to be accessed by subsequent blocks
        v = (1 - self.lamb) * v + self.lamb * v1.view_as(v) # @Grad62304977
        cos, sin = self.rotary(q)
        q, k = F.rms_norm(q, (q.size(-1),)), F.rms_norm(k, (k.size(-1),)) # QK norm suggested by @Grad62304977
        q, k = apply_rotary_emb(q, cos, sin), apply_rotary_emb(k, cos, sin)
        y = F.scaled_dot_product_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), is_causal=True)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y, v1

class MLP(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.c_fc    = nn.Linear(config.n_embd, 4 * config.n_embd, bias=False)
        self.c_proj  = nn.Linear(4 * config.n_embd, config.n_embd, bias=False)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x):
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config)
        self.mlp = MLP(config)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x, v1, x0):
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x1, v1 = self.attn(F.rms_norm(x, (x.size(-1),)), v1)
        x = x + x1
        x = x + self.mlp(F.rms_norm(x, (x.size(-1),)))
        return x, v1

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768

class GPT(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.config = config

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx, targets=None, return_logits=True):

        # forward the GPT model itself
        x = self.transformer.wte(idx) # token embeddings of shape (b, t, n_embd)
        x = F.rms_norm(x, (x.size(-1),)) # @Grad62304977
        x0 = x
        v1 = None
        for block in self.transformer.h:
            x, v1 = block(x, v1, x0)
        x = F.rms_norm(x, (x.size(-1),))

        if targets is not None:
            # if we are given some desired targets also calculate the loss
            logits = self.lm_head(x)
            logits = 30 * torch.tanh(logits / 30)
            logits = logits.float() # use tf32/fp32 for logits
            loss = F.cross_entropy(logits.view(-1, logits.size(-1)), targets.view(-1), ignore_index=-1)
        else:
            # inference-time mini-optimization: only forward the lm_head on the very last position
            logits = self.lm_head(x[:, [-1], :]) # note: using list [-1] to preserve the time dim
            logits = 30 * torch.tanh(logits / 30)
            logits = logits.float() # use tf32/fp32 for logits
            loss = None

        # there are performance reasons why not returning logits is prudent, if not needed
        if not return_logits:
            logits = None

        return logits, loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(filename):
    # only reads the header, returns header data
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
    if header[0] != 20240520:
        print("ERROR: magic number mismatch in the data .bin file!")
        print("---> HINT: Are you passing in a correct file with --input_bin?")
        print("---> HINT: Dataset encoding changed recently, re-run data prepro or refer again to README")
        print("---> HINT: For example re-run: `python dev/data/tinyshakespeare.py`, then re-try")
        exit(1)
    assert header[1] == 1, "unsupported version"
    ntok = header[2] # number of tokens (claimed)
    return ntok # for now just return the number of tokens

def _load_data_shard(filename):
    with open(filename, "rb") as f:
        # first read the header, which is 256 int32 integers (4 bytes each)
        header = np.frombuffer(f.read(256*4), dtype=np.int32)
        assert header[0] == 20240520, "magic number mismatch in the data .bin file"
        assert header[1] == 1, "unsupported version"
        ntok = header[2] # number of tokens (claimed)
        # the rest of it are tokens, stored as uint16
        tokens = np.frombuffer(f.read(), dtype=np.uint16)
    assert len(tokens) == ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, B, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.B = B
        self.T = T

        # glob files that match the pattern
        self.files = sorted(glob.glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        ntok_total = 0
        for fname in self.files:
            shard_ntok = _peek_data_shard(fname)
            assert shard_ntok >= num_processes * B * T + 1
            ntok_total += int(shard_ntok)
        self.ntok_total = ntok_total

        # kick things off
        self.reset()

    def reset(self):
        self.current_shard = 0
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.B * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard])

    def next_batch(self):
        B = self.B
        T = self.T
        buf = self.tokens[self.current_position : self.current_position+B*T+1]
        buf = torch.tensor(buf.astype(np.int32), dtype=torch.long)
        x = (buf[:-1]).view(B, T) # inputs
        y = (buf[1:]).view(B, T) # targets
        # advance current position and load next shard if necessary
        self.current_position += B * T * self.num_processes
        if self.current_position + (B * T * self.num_processes + 1) > len(self.tokens):
            self.advance()
        return x.cuda(), y.cuda()

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8*64 # batch size, in sequences, across all devices
    device_batch_size : int = 64 # batch size, in sequences, per device
    sequence_length : int = 1024 # sequence length, in tokens
    num_iterations : int = 3200 # number of iterations to run
    warmup_iters : int = 0
    warmdown_iters : int = 914 # number of iterations of linear warmup/warmdown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# convenience variables
B, T = args.device_batch_size, args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (B * T * ddp_world_size) == 0
val_steps = args.val_tokens // (B * T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (B * ddp_world_size) == 0
train_accumulation_steps = args.batch_size // (B * ddp_world_size)

# load tokens
train_loader = DistributedDataLoader(args.input_bin, B, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, B, T, ddp_rank, ddp_world_size)
if master_process:
    print(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
    print(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model
ctx = torch.amp.autocast(device_type='cuda', dtype=torch.bfloat16)

# CUDNN attention is ~4ms faster than Flash, but doesn't get selected by default in PyTorch 2.5.1
from torch.backends.cuda import enable_cudnn_sdp, enable_flash_sdp, enable_math_sdp, enable_mem_efficient_sdp
enable_cudnn_sdp(True)
enable_flash_sdp(False)
enable_mem_efficient_sdp(False)
enable_math_sdp(False)

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight], lr=0.3,   betas=(0.9, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight],         lr=0.002, betas=(0.9, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2]
optimizer3 = Muon(matrix_params,           lr=0.02,  momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.02, betas=(0.9, 0.95), fused=True) # note that this learning rate is neither sensitive nor tuned
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and warmdown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.warmdown_iters:
        return 1.0
    # 3) linear warmdown
    else:
        decay_ratio = (args.num_iterations - it) / args.warmdown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

# begin logging
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write('='*100 + '\n')
        f.write(code)
        f.write('='*100 + '\n')
        # log information about the hardware/software environment this is running on
        # and print the full `nvidia-smi` to file
        f.write(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:\n")
        import subprocess
        result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
        f.write(f'{result.stdout}\n')
        f.write('='*100 + '\n')

training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.time()
# begin training
train_loader.reset()
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.time()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            x_val, y_val = val_loader.next_batch()
            with ctx: # of course, we'd like to use no_grad() here too, but that creates a torch.compile error for some reason
                _, loss = model(x_val, y_val, return_logits=False)
                val_loss += loss.detach()
                del loss
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        if master_process:
            print(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
            with open(logfile, "a") as f:
                f.write(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms\n')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.time() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.time()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    for i in range(1, train_accumulation_steps+1):
        # forward pass
        with ctx:
            _, loss = model(x, y, return_logits=False)
            train_loss = loss.detach()
        # advance the dataset for the next batch
        x, y = train_loader.next_batch()
        # backward pass
        if i < train_accumulation_steps:
            with model.no_sync(): # there's no need to sync gradients every accumulation step
                loss.backward()
        else:
            loss.backward() # just sync on the last step
    for p in model.parameters():
        p.grad /= train_accumulation_steps
    # momentum warmup for Muon
    frac = min(step/500, 1)
    optimizer3.param_groups[0]['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.

    #dist.all_reduce(train_loss, op=dist.ReduceOp.AVG) # all-reducing the training loss would be more correct in terms of logging, but slower
    if master_process:
        approx_time = training_time_ms + 1000 * (time.time() - t0)
        print(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")
        with open(logfile, "a") as f:
            f.write(f"step:{step+1}/{args.num_iterations} train_loss:{train_loss.item():.4f} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms\n")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.5.1+cu124 compiled for CUDA 12.4
nvidia-smi:
Wed Nov  6 20:35:58 2024       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 555.42.06              Driver Version: 555.42.06      CUDA Version: 12.5     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|=========================================+========================+======================|
|   0  NVIDIA H100 80GB HBM3          Off |   00000000:18:00.0 Off |                    0 |
| N/A   34C    P0            142W /  700W |    5304MiB /  81559MiB |      4%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          Off |   00000000:2A:00.0 Off |                    0 |
| N/A   36C    P0            131W /  700W |    5352MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          Off |   00000000:3A:00.0 Off |                    0 |
| N/A   36C    P0            126W /  700W |    5352MiB /  81559MiB |      3%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          Off |   00000000:5D:00.0 Off |                    0 |
| N/A   33C    P0            138W /  700W |    5352MiB /  81559MiB |      1%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          Off |   00000000:9A:00.0 Off |                    0 |
| N/A   34C    P0            143W /  700W |    5352MiB /  81559MiB |      6%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          Off |   00000000:AB:00.0 Off |                    0 |
| N/A   38C    P0            143W /  700W |    5352MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          Off |   00000000:BA:00.0 Off |                    0 |
| N/A   36C    P0            143W /  700W |    5352MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          Off |   00000000:DB:00.0 Off |                    0 |
| N/A   35C    P0            148W /  700W |    5112MiB /  81559MiB |      0%      Default |
|                                         |                        |             Disabled |
+-----------------------------------------+------------------------+----------------------+
                                                                                         
+-----------------------------------------------------------------------------------------+
| Processes:                                                                              |
|  GPU   GI   CI        PID   Type   Process name                              GPU Memory |
|        ID   ID                                                               Usage      |
|=========================================================================================|
|    0   N/A  N/A     37067      C   /usr/bin/python3                                0MiB |
|    1   N/A  N/A     37068      C   /usr/bin/python3                                0MiB |
|    2   N/A  N/A     37069      C   /usr/bin/python3                                0MiB |
|    3   N/A  N/A     37070      C   /usr/bin/python3                                0MiB |
|    4   N/A  N/A     37071      C   /usr/bin/python3                                0MiB |
|    5   N/A  N/A     37072      C   /usr/bin/python3                                0MiB |
|    6   N/A  N/A     37073      C   /usr/bin/python3                                0MiB |
|    7   N/A  N/A     37074      C   /usr/bin/python3                                0MiB |
+-----------------------------------------------------------------------------------------+

====================================================================================================
step:0/3200 val_loss:10.8258 train_time:500ms step_avg:nanms
step:1/3200 train_loss:10.8258 train_time:4005ms step_avg:nanms
step:2/3200 train_loss:10.4255 train_time:4113ms step_avg:nanms
step:3/3200 train_loss:9.9515 train_time:4260ms step_avg:nanms
step:4/3200 train_loss:9.0438 train_time:4409ms step_avg:nanms
step:5/3200 train_loss:8.0548 train_time:4559ms step_avg:nanms
step:6/3200 train_loss:7.5162 train_time:4710ms step_avg:nanms
step:7/3200 train_loss:7.0043 train_time:4859ms step_avg:nanms
step:8/3200 train_loss:7.2697 train_time:5015ms step_avg:nanms
step:9/3200 train_loss:6.9117 train_time:5174ms step_avg:nanms
step:10/3200 train_loss:6.7929 train_time:5329ms step_avg:nanms
step:11/3200 train_loss:6.7074 train_time:105ms step_avg:nanms
step:12/3200 train_loss:6.6538 train_time:258ms step_avg:nanms
step:13/3200 train_loss:6.5110 train_time:409ms step_avg:136.37ms
step:14/3200 train_loss:6.4721 train_time:561ms step_avg:140.17ms
step:15/3200 train_loss:6.4485 train_time:714ms step_avg:142.89ms
step:16/3200 train_loss:6.4023 train_time:869ms step_avg:144.84ms
step:17/3200 train_loss:6.4160 train_time:1024ms step_avg:146.23ms
step:18/3200 train_loss:6.4444 train_time:1175ms step_avg:146.87ms
step:19/3200 train_loss:6.2863 train_time:1327ms step_avg:147.43ms
step:20/3200 train_loss:6.3073 train_time:1480ms step_avg:148.00ms
step:21/3200 train_loss:6.0091 train_time:1632ms step_avg:148.40ms
step:22/3200 train_loss:6.3298 train_time:1785ms step_avg:148.79ms
step:23/3200 train_loss:6.5706 train_time:1939ms step_avg:149.16ms
step:24/3200 train_loss:6.2304 train_time:2091ms step_avg:149.37ms
step:25/3200 train_loss:6.3913 train_time:2243ms step_avg:149.53ms
step:26/3200 train_loss:6.0954 train_time:2395ms step_avg:149.69ms
step:27/3200 train_loss:6.0114 train_time:2548ms step_avg:149.88ms
step:28/3200 train_loss:6.1928 train_time:2701ms step_avg:150.05ms
step:29/3200 train_loss:5.8496 train_time:2854ms step_avg:150.19ms
step:30/3200 train_loss:6.1124 train_time:3007ms step_avg:150.33ms
step:31/3200 train_loss:5.9479 train_time:3161ms step_avg:150.55ms
step:32/3200 train_loss:5.9178 train_time:3313ms step_avg:150.61ms
step:33/3200 train_loss:5.7507 train_time:3466ms step_avg:150.68ms
step:34/3200 train_loss:6.0573 train_time:3620ms step_avg:150.83ms
step:35/3200 train_loss:5.9758 train_time:3773ms step_avg:150.90ms
step:36/3200 train_loss:6.1187 train_time:3925ms step_avg:150.98ms
step:37/3200 train_loss:6.0368 train_time:4081ms step_avg:151.13ms
step:38/3200 train_loss:5.9287 train_time:4234ms step_avg:151.22ms
step:39/3200 train_loss:5.8182 train_time:4386ms step_avg:151.24ms
step:40/3200 train_loss:5.8364 train_time:4540ms step_avg:151.35ms
step:41/3200 train_loss:5.7583 train_time:4693ms step_avg:151.40ms
step:42/3200 train_loss:5.7574 train_time:4846ms step_avg:151.45ms
step:43/3200 train_loss:5.6558 train_time:5001ms step_avg:151.56ms
step:44/3200 train_loss:5.7347 train_time:5154ms step_avg:151.58ms
step:45/3200 train_loss:5.7190 train_time:5307ms step_avg:151.63ms
step:46/3200 train_loss:5.8601 train_time:5461ms step_avg:151.68ms
step:47/3200 train_loss:5.6619 train_time:5613ms step_avg:151.72ms
step:48/3200 train_loss:5.5251 train_time:5766ms step_avg:151.73ms
step:49/3200 train_loss:5.7180 train_time:5920ms step_avg:151.79ms
step:50/3200 train_loss:5.6031 train_time:6074ms step_avg:151.84ms
step:51/3200 train_loss:5.7500 train_time:6226ms step_avg:151.85ms
step:52/3200 train_loss:5.6044 train_time:6381ms step_avg:151.93ms
step:53/3200 train_loss:5.4535 train_time:6535ms step_avg:151.98ms
step:54/3200 train_loss:5.5791 train_time:6687ms step_avg:151.97ms
step:55/3200 train_loss:5.4591 train_time:6841ms step_avg:152.02ms
step:56/3200 train_loss:5.7994 train_time:6994ms step_avg:152.04ms
step:57/3200 train_loss:5.4515 train_time:7148ms step_avg:152.08ms
step:58/3200 train_loss:5.3336 train_time:7302ms step_avg:152.13ms
step:59/3200 train_loss:5.4599 train_time:7457ms step_avg:152.17ms
step:60/3200 train_loss:5.4339 train_time:7609ms step_avg:152.18ms
step:61/3200 train_loss:5.5291 train_time:7763ms step_avg:152.21ms
step:62/3200 train_loss:5.2841 train_time:7916ms step_avg:152.23ms
step:63/3200 train_loss:5.3944 train_time:8069ms step_avg:152.24ms
step:64/3200 train_loss:5.3683 train_time:8223ms step_avg:152.27ms
step:65/3200 train_loss:5.1839 train_time:8375ms step_avg:152.28ms
step:66/3200 train_loss:5.1878 train_time:8529ms step_avg:152.30ms
step:67/3200 train_loss:5.3237 train_time:8684ms step_avg:152.35ms
step:68/3200 train_loss:5.2004 train_time:8838ms step_avg:152.38ms
step:69/3200 train_loss:5.4509 train_time:8991ms step_avg:152.39ms
step:70/3200 train_loss:5.1061 train_time:9144ms step_avg:152.40ms
step:71/3200 train_loss:5.1653 train_time:9298ms step_avg:152.43ms
step:72/3200 train_loss:5.3359 train_time:9450ms step_avg:152.42ms
step:73/3200 train_loss:5.2674 train_time:9604ms step_avg:152.44ms
step:74/3200 train_loss:5.1529 train_time:9759ms step_avg:152.48ms
step:75/3200 train_loss:5.2657 train_time:9911ms step_avg:152.48ms
step:76/3200 train_loss:5.2576 train_time:10065ms step_avg:152.49ms
step:77/3200 train_loss:5.2006 train_time:10219ms step_avg:152.53ms
step:78/3200 train_loss:5.2847 train_time:10371ms step_avg:152.51ms
step:79/3200 train_loss:5.3913 train_time:10525ms step_avg:152.53ms
step:80/3200 train_loss:5.1372 train_time:10680ms step_avg:152.57ms
step:81/3200 train_loss:5.2198 train_time:10831ms step_avg:152.55ms
step:82/3200 train_loss:4.9867 train_time:10986ms step_avg:152.58ms
step:83/3200 train_loss:5.1641 train_time:11140ms step_avg:152.61ms
step:84/3200 train_loss:5.1085 train_time:11293ms step_avg:152.60ms
step:85/3200 train_loss:5.1013 train_time:11446ms step_avg:152.61ms
step:86/3200 train_loss:4.9684 train_time:11600ms step_avg:152.63ms
step:87/3200 train_loss:5.1597 train_time:11753ms step_avg:152.64ms
step:88/3200 train_loss:5.0705 train_time:11906ms step_avg:152.64ms
step:89/3200 train_loss:5.1280 train_time:12061ms step_avg:152.68ms
step:90/3200 train_loss:5.0896 train_time:12214ms step_avg:152.68ms
step:91/3200 train_loss:5.0028 train_time:12367ms step_avg:152.68ms
step:92/3200 train_loss:5.0068 train_time:12521ms step_avg:152.69ms
step:93/3200 train_loss:5.1249 train_time:12675ms step_avg:152.71ms
step:94/3200 train_loss:4.9582 train_time:12828ms step_avg:152.71ms
step:95/3200 train_loss:4.9620 train_time:12983ms step_avg:152.74ms
step:96/3200 train_loss:5.0129 train_time:13136ms step_avg:152.74ms
step:97/3200 train_loss:4.9138 train_time:13287ms step_avg:152.73ms
step:98/3200 train_loss:4.9899 train_time:13441ms step_avg:152.74ms
step:99/3200 train_loss:4.9126 train_time:13593ms step_avg:152.73ms
step:100/3200 train_loss:5.0270 train_time:13746ms step_avg:152.74ms
step:101/3200 train_loss:4.9917 train_time:13901ms step_avg:152.75ms
step:102/3200 train_loss:4.8763 train_time:14055ms step_avg:152.77ms
step:103/3200 train_loss:5.0072 train_time:14207ms step_avg:152.77ms
step:104/3200 train_loss:4.9412 train_time:14361ms step_avg:152.77ms
step:105/3200 train_loss:4.8177 train_time:14513ms step_avg:152.77ms
step:106/3200 train_loss:4.8776 train_time:14666ms step_avg:152.77ms
step:107/3200 train_loss:5.0620 train_time:14820ms step_avg:152.79ms
step:108/3200 train_loss:4.8546 train_time:14973ms step_avg:152.79ms
step:109/3200 train_loss:4.6639 train_time:15126ms step_avg:152.79ms
step:110/3200 train_loss:4.8249 train_time:15281ms step_avg:152.81ms
step:111/3200 train_loss:4.8100 train_time:15434ms step_avg:152.81ms
step:112/3200 train_loss:4.7652 train_time:15587ms step_avg:152.81ms
step:113/3200 train_loss:4.9038 train_time:15741ms step_avg:152.82ms
step:114/3200 train_loss:4.8001 train_time:15893ms step_avg:152.82ms
step:115/3200 train_loss:4.6745 train_time:16045ms step_avg:152.81ms
step:116/3200 train_loss:4.8122 train_time:16200ms step_avg:152.83ms
step:117/3200 train_loss:4.7418 train_time:16353ms step_avg:152.83ms
step:118/3200 train_loss:4.6785 train_time:16506ms step_avg:152.83ms
step:119/3200 train_loss:4.8485 train_time:16660ms step_avg:152.84ms
step:120/3200 train_loss:4.7672 train_time:16812ms step_avg:152.84ms
step:121/3200 train_loss:4.6687 train_time:16964ms step_avg:152.83ms
step:122/3200 train_loss:4.6049 train_time:17119ms step_avg:152.85ms
step:123/3200 train_loss:4.7315 train_time:17271ms step_avg:152.84ms
step:124/3200 train_loss:4.5815 train_time:17424ms step_avg:152.84ms
step:125/3200 train_loss:4.8791 train_time:17579ms step_avg:152.86ms
step:125/3200 val_loss:4.6960 train_time:17627ms step_avg:153.27ms
step:126/3200 train_loss:4.7335 train_time:17736ms step_avg:152.90ms
step:127/3200 train_loss:4.6899 train_time:17890ms step_avg:152.91ms
step:128/3200 train_loss:4.7280 train_time:18043ms step_avg:152.91ms
step:129/3200 train_loss:4.6442 train_time:18194ms step_avg:152.89ms
step:130/3200 train_loss:4.9419 train_time:18346ms step_avg:152.88ms
step:131/3200 train_loss:4.6436 train_time:18498ms step_avg:152.87ms
step:132/3200 train_loss:4.6640 train_time:18653ms step_avg:152.89ms
step:133/3200 train_loss:4.6142 train_time:18809ms step_avg:152.92ms
step:134/3200 train_loss:4.6928 train_time:18963ms step_avg:152.93ms
step:135/3200 train_loss:4.5406 train_time:19115ms step_avg:152.92ms
step:136/3200 train_loss:4.6679 train_time:19267ms step_avg:152.91ms
step:137/3200 train_loss:4.4498 train_time:19418ms step_avg:152.90ms
step:138/3200 train_loss:4.6155 train_time:19572ms step_avg:152.91ms
step:139/3200 train_loss:4.5299 train_time:19727ms step_avg:152.93ms
step:140/3200 train_loss:4.6041 train_time:19881ms step_avg:152.93ms
step:141/3200 train_loss:4.6707 train_time:20033ms step_avg:152.92ms
step:142/3200 train_loss:4.5370 train_time:20187ms step_avg:152.93ms
step:143/3200 train_loss:4.5428 train_time:20338ms step_avg:152.92ms
step:144/3200 train_loss:4.4500 train_time:20489ms step_avg:152.91ms
step:145/3200 train_loss:4.5636 train_time:20645ms step_avg:152.92ms
step:146/3200 train_loss:4.5158 train_time:20797ms step_avg:152.92ms
step:147/3200 train_loss:4.3971 train_time:20951ms step_avg:152.93ms
step:148/3200 train_loss:4.5241 train_time:21105ms step_avg:152.93ms
step:149/3200 train_loss:4.5494 train_time:21257ms step_avg:152.93ms
step:150/3200 train_loss:4.5057 train_time:21410ms step_avg:152.93ms
step:151/3200 train_loss:4.6171 train_time:21563ms step_avg:152.93ms
step:152/3200 train_loss:4.4686 train_time:21716ms step_avg:152.93ms
step:153/3200 train_loss:4.4585 train_time:21870ms step_avg:152.94ms
step:154/3200 train_loss:4.5349 train_time:22023ms step_avg:152.94ms
step:155/3200 train_loss:4.5296 train_time:22176ms step_avg:152.94ms
step:156/3200 train_loss:4.4508 train_time:22329ms step_avg:152.94ms
step:157/3200 train_loss:4.4964 train_time:22482ms step_avg:152.94ms
step:158/3200 train_loss:4.5789 train_time:22635ms step_avg:152.94ms
step:159/3200 train_loss:4.4001 train_time:22789ms step_avg:152.95ms
step:160/3200 train_loss:4.4738 train_time:22944ms step_avg:152.96ms
step:161/3200 train_loss:4.2815 train_time:23095ms step_avg:152.95ms
step:162/3200 train_loss:4.4951 train_time:23249ms step_avg:152.95ms
step:163/3200 train_loss:4.5080 train_time:23402ms step_avg:152.96ms
step:164/3200 train_loss:4.4850 train_time:23554ms step_avg:152.95ms
step:165/3200 train_loss:4.3441 train_time:23708ms step_avg:152.96ms
step:166/3200 train_loss:4.4280 train_time:23862ms step_avg:152.96ms
step:167/3200 train_loss:4.5183 train_time:24014ms step_avg:152.96ms
step:168/3200 train_loss:4.3410 train_time:24168ms step_avg:152.96ms
step:169/3200 train_loss:4.4179 train_time:24321ms step_avg:152.96ms
step:170/3200 train_loss:4.3136 train_time:24472ms step_avg:152.95ms
step:171/3200 train_loss:4.1862 train_time:24627ms step_avg:152.96ms
step:172/3200 train_loss:4.3355 train_time:24779ms step_avg:152.96ms
step:173/3200 train_loss:4.3455 train_time:24932ms step_avg:152.96ms
step:174/3200 train_loss:4.4035 train_time:25087ms step_avg:152.97ms
step:175/3200 train_loss:4.5629 train_time:25240ms step_avg:152.97ms
step:176/3200 train_loss:4.3845 train_time:25392ms step_avg:152.96ms
step:177/3200 train_loss:4.2446 train_time:25547ms step_avg:152.98ms
step:178/3200 train_loss:4.2086 train_time:25699ms step_avg:152.97ms
step:179/3200 train_loss:4.3122 train_time:25851ms step_avg:152.96ms
step:180/3200 train_loss:4.2715 train_time:26005ms step_avg:152.97ms
step:181/3200 train_loss:4.2447 train_time:26158ms step_avg:152.97ms
step:182/3200 train_loss:4.4174 train_time:26311ms step_avg:152.97ms
step:183/3200 train_loss:4.2909 train_time:26467ms step_avg:152.99ms
step:184/3200 train_loss:4.2696 train_time:26619ms step_avg:152.98ms
step:185/3200 train_loss:4.2664 train_time:26771ms step_avg:152.98ms
step:186/3200 train_loss:4.3401 train_time:26924ms step_avg:152.98ms
step:187/3200 train_loss:4.3035 train_time:27076ms step_avg:152.97ms
step:188/3200 train_loss:4.3658 train_time:27229ms step_avg:152.97ms
step:189/3200 train_loss:4.2962 train_time:27530ms step_avg:153.80ms
step:190/3200 train_loss:4.2358 train_time:27862ms step_avg:154.79ms
step:191/3200 train_loss:4.3247 train_time:28010ms step_avg:154.75ms
step:192/3200 train_loss:4.2033 train_time:28160ms step_avg:154.73ms
step:193/3200 train_loss:4.1433 train_time:28311ms step_avg:154.71ms
step:194/3200 train_loss:4.3598 train_time:28463ms step_avg:154.69ms
step:195/3200 train_loss:4.2698 train_time:28614ms step_avg:154.67ms
step:196/3200 train_loss:4.4815 train_time:28772ms step_avg:154.69ms
step:197/3200 train_loss:4.3094 train_time:28927ms step_avg:154.69ms
step:198/3200 train_loss:4.1638 train_time:29078ms step_avg:154.67ms
step:199/3200 train_loss:4.2942 train_time:29231ms step_avg:154.66ms
step:200/3200 train_loss:4.1397 train_time:29383ms step_avg:154.65ms
step:201/3200 train_loss:4.2391 train_time:29535ms step_avg:154.64ms
step:202/3200 train_loss:4.1148 train_time:29688ms step_avg:154.62ms
step:203/3200 train_loss:4.3506 train_time:29843ms step_avg:154.63ms
step:204/3200 train_loss:4.1804 train_time:29996ms step_avg:154.62ms
step:205/3200 train_loss:4.2925 train_time:30149ms step_avg:154.61ms
step:206/3200 train_loss:4.3473 train_time:30302ms step_avg:154.60ms
step:207/3200 train_loss:4.0511 train_time:30453ms step_avg:154.59ms
step:208/3200 train_loss:4.2004 train_time:30607ms step_avg:154.58ms
step:209/3200 train_loss:4.1923 train_time:30759ms step_avg:154.57ms
step:210/3200 train_loss:4.3474 train_time:30913ms step_avg:154.56ms
step:211/3200 train_loss:4.2727 train_time:31067ms step_avg:154.56ms
step:212/3200 train_loss:4.1662 train_time:31220ms step_avg:154.56ms
step:213/3200 train_loss:4.1868 train_time:31372ms step_avg:154.54ms
step:214/3200 train_loss:4.1536 train_time:31525ms step_avg:154.54ms
step:215/3200 train_loss:4.2164 train_time:31679ms step_avg:154.53ms
step:216/3200 train_loss:4.0380 train_time:31831ms step_avg:154.52ms
step:217/3200 train_loss:4.0990 train_time:31986ms step_avg:154.52ms
step:218/3200 train_loss:4.1067 train_time:32141ms step_avg:154.52ms
step:219/3200 train_loss:4.1784 train_time:32293ms step_avg:154.51ms
step:220/3200 train_loss:4.1659 train_time:32448ms step_avg:154.51ms
step:221/3200 train_loss:4.1899 train_time:32600ms step_avg:154.50ms
step:222/3200 train_loss:4.1999 train_time:32752ms step_avg:154.49ms
step:223/3200 train_loss:4.1116 train_time:32906ms step_avg:154.49ms
step:224/3200 train_loss:4.0705 train_time:33060ms step_avg:154.49ms
step:225/3200 train_loss:4.3843 train_time:33214ms step_avg:154.48ms
step:226/3200 train_loss:4.0075 train_time:33366ms step_avg:154.47ms
step:227/3200 train_loss:4.0758 train_time:33520ms step_avg:154.47ms
step:228/3200 train_loss:4.0916 train_time:33671ms step_avg:154.45ms
step:229/3200 train_loss:4.2322 train_time:33824ms step_avg:154.45ms
step:230/3200 train_loss:4.0129 train_time:33975ms step_avg:154.43ms
step:231/3200 train_loss:4.1459 train_time:34129ms step_avg:154.43ms
step:232/3200 train_loss:3.9934 train_time:34284ms step_avg:154.43ms
step:233/3200 train_loss:4.0625 train_time:34436ms step_avg:154.42ms
step:234/3200 train_loss:4.1885 train_time:34588ms step_avg:154.41ms
step:235/3200 train_loss:4.1111 train_time:34741ms step_avg:154.41ms
step:236/3200 train_loss:3.9994 train_time:34893ms step_avg:154.39ms
step:237/3200 train_loss:4.1602 train_time:35047ms step_avg:154.39ms
step:238/3200 train_loss:4.1728 train_time:35199ms step_avg:154.38ms
step:239/3200 train_loss:4.0272 train_time:35353ms step_avg:154.38ms
step:240/3200 train_loss:4.1735 train_time:35507ms step_avg:154.38ms
step:241/3200 train_loss:4.2026 train_time:35659ms step_avg:154.37ms
step:242/3200 train_loss:4.0505 train_time:35813ms step_avg:154.36ms
step:243/3200 train_loss:4.2295 train_time:35967ms step_avg:154.36ms
step:244/3200 train_loss:4.1052 train_time:36120ms step_avg:154.36ms
step:245/3200 train_loss:4.1607 train_time:36273ms step_avg:154.35ms
step:246/3200 train_loss:4.2335 train_time:36427ms step_avg:154.35ms
step:247/3200 train_loss:4.1491 train_time:36580ms step_avg:154.35ms
step:248/3200 train_loss:4.0982 train_time:36732ms step_avg:154.34ms
step:249/3200 train_loss:4.2052 train_time:36887ms step_avg:154.34ms
step:250/3200 train_loss:4.0108 train_time:37040ms step_avg:154.33ms
step:250/3200 val_loss:4.0963 train_time:37087ms step_avg:154.53ms
step:251/3200 train_loss:4.0571 train_time:37200ms step_avg:154.36ms
step:252/3200 train_loss:4.1607 train_time:37353ms step_avg:154.35ms
step:253/3200 train_loss:4.2259 train_time:37504ms step_avg:154.34ms
step:254/3200 train_loss:4.0209 train_time:37656ms step_avg:154.33ms
step:255/3200 train_loss:3.9667 train_time:37806ms step_avg:154.31ms
step:256/3200 train_loss:4.1491 train_time:37958ms step_avg:154.30ms
step:257/3200 train_loss:4.0633 train_time:38113ms step_avg:154.31ms
step:258/3200 train_loss:4.0757 train_time:38269ms step_avg:154.31ms
step:259/3200 train_loss:4.0587 train_time:38423ms step_avg:154.31ms
step:260/3200 train_loss:4.1098 train_time:38575ms step_avg:154.30ms
step:261/3200 train_loss:4.1413 train_time:38728ms step_avg:154.30ms
step:262/3200 train_loss:4.1132 train_time:38880ms step_avg:154.28ms
step:263/3200 train_loss:4.0755 train_time:39034ms step_avg:154.28ms
step:264/3200 train_loss:3.9819 train_time:39188ms step_avg:154.28ms
step:265/3200 train_loss:4.0741 train_time:39342ms step_avg:154.28ms
step:266/3200 train_loss:3.9516 train_time:39496ms step_avg:154.28ms
step:267/3200 train_loss:4.0036 train_time:39647ms step_avg:154.27ms
step:268/3200 train_loss:4.0031 train_time:39800ms step_avg:154.26ms
step:269/3200 train_loss:4.0357 train_time:39952ms step_avg:154.25ms
step:270/3200 train_loss:3.9484 train_time:40103ms step_avg:154.24ms
step:271/3200 train_loss:4.1834 train_time:40258ms step_avg:154.25ms
step:272/3200 train_loss:4.0605 train_time:40412ms step_avg:154.24ms
step:273/3200 train_loss:3.9931 train_time:40564ms step_avg:154.23ms
step:274/3200 train_loss:4.0408 train_time:40718ms step_avg:154.23ms
step:275/3200 train_loss:4.1118 train_time:40870ms step_avg:154.23ms
step:276/3200 train_loss:4.1442 train_time:41022ms step_avg:154.22ms
step:277/3200 train_loss:4.3047 train_time:41177ms step_avg:154.22ms
step:278/3200 train_loss:4.1117 train_time:41331ms step_avg:154.22ms
step:279/3200 train_loss:4.1635 train_time:41483ms step_avg:154.21ms
step:280/3200 train_loss:4.0754 train_time:41638ms step_avg:154.21ms
step:281/3200 train_loss:4.2107 train_time:41790ms step_avg:154.21ms
step:282/3200 train_loss:4.0291 train_time:41942ms step_avg:154.20ms
step:283/3200 train_loss:4.0311 train_time:42096ms step_avg:154.20ms
step:284/3200 train_loss:3.9835 train_time:42249ms step_avg:154.19ms
step:285/3200 train_loss:4.1276 train_time:42401ms step_avg:154.19ms
step:286/3200 train_loss:4.1418 train_time:42554ms step_avg:154.18ms
step:287/3200 train_loss:4.1713 train_time:42707ms step_avg:154.18ms
step:288/3200 train_loss:3.9934 train_time:42860ms step_avg:154.17ms
step:289/3200 train_loss:4.0973 train_time:43013ms step_avg:154.17ms
step:290/3200 train_loss:3.9494 train_time:43166ms step_avg:154.16ms
step:291/3200 train_loss:3.9409 train_time:43319ms step_avg:154.16ms
step:292/3200 train_loss:4.0092 train_time:43471ms step_avg:154.15ms
step:293/3200 train_loss:3.9405 train_time:43624ms step_avg:154.15ms
step:294/3200 train_loss:3.9920 train_time:43779ms step_avg:154.15ms
step:295/3200 train_loss:4.0367 train_time:43931ms step_avg:154.14ms
step:296/3200 train_loss:3.9191 train_time:44083ms step_avg:154.14ms
step:297/3200 train_loss:3.9338 train_time:44237ms step_avg:154.14ms
step:298/3200 train_loss:3.9357 train_time:44389ms step_avg:154.13ms
step:299/3200 train_loss:4.0480 train_time:44541ms step_avg:154.12ms
step:300/3200 train_loss:3.9004 train_time:44696ms step_avg:154.13ms
step:301/3200 train_loss:4.0408 train_time:44849ms step_avg:154.12ms
step:302/3200 train_loss:4.0590 train_time:45001ms step_avg:154.11ms
step:303/3200 train_loss:4.0086 train_time:45156ms step_avg:154.12ms
step:304/3200 train_loss:4.0555 train_time:45309ms step_avg:154.11ms
step:305/3200 train_loss:4.0359 train_time:45461ms step_avg:154.11ms
step:306/3200 train_loss:4.5263 train_time:45616ms step_avg:154.11ms
step:307/3200 train_loss:4.0041 train_time:45769ms step_avg:154.10ms
step:308/3200 train_loss:3.9119 train_time:45922ms step_avg:154.10ms
step:309/3200 train_loss:4.0508 train_time:46076ms step_avg:154.10ms
step:310/3200 train_loss:3.9331 train_time:46229ms step_avg:154.10ms
step:311/3200 train_loss:4.1628 train_time:46382ms step_avg:154.09ms
step:312/3200 train_loss:4.0094 train_time:46536ms step_avg:154.09ms
step:313/3200 train_loss:3.9491 train_time:46690ms step_avg:154.09ms
step:314/3200 train_loss:4.0251 train_time:46842ms step_avg:154.09ms
step:315/3200 train_loss:4.1542 train_time:46996ms step_avg:154.09ms
step:316/3200 train_loss:4.0274 train_time:47148ms step_avg:154.08ms
step:317/3200 train_loss:3.8736 train_time:47301ms step_avg:154.07ms
step:318/3200 train_loss:3.9507 train_time:47455ms step_avg:154.08ms
step:319/3200 train_loss:3.9865 train_time:47606ms step_avg:154.07ms
step:320/3200 train_loss:3.9617 train_time:47761ms step_avg:154.07ms
step:321/3200 train_loss:4.0800 train_time:47916ms step_avg:154.07ms
step:322/3200 train_loss:4.0195 train_time:48068ms step_avg:154.07ms
step:323/3200 train_loss:4.0032 train_time:48221ms step_avg:154.06ms
step:324/3200 train_loss:4.0876 train_time:48375ms step_avg:154.06ms
step:325/3200 train_loss:4.0232 train_time:48529ms step_avg:154.06ms
step:326/3200 train_loss:4.0890 train_time:48681ms step_avg:154.05ms
step:327/3200 train_loss:3.9599 train_time:48836ms step_avg:154.06ms
step:328/3200 train_loss:4.4711 train_time:48989ms step_avg:154.05ms
step:329/3200 train_loss:4.1494 train_time:49141ms step_avg:154.05ms
step:330/3200 train_loss:3.8837 train_time:49296ms step_avg:154.05ms
step:331/3200 train_loss:3.8275 train_time:49448ms step_avg:154.04ms
step:332/3200 train_loss:4.0502 train_time:49601ms step_avg:154.04ms
step:333/3200 train_loss:3.9804 train_time:49756ms step_avg:154.04ms
step:334/3200 train_loss:3.9492 train_time:49908ms step_avg:154.04ms
step:335/3200 train_loss:3.9147 train_time:50061ms step_avg:154.04ms
step:336/3200 train_loss:4.0870 train_time:50217ms step_avg:154.04ms
step:337/3200 train_loss:4.0315 train_time:50369ms step_avg:154.03ms
step:338/3200 train_loss:4.4921 train_time:50521ms step_avg:154.03ms
step:339/3200 train_loss:4.0162 train_time:50673ms step_avg:154.02ms
step:340/3200 train_loss:3.9641 train_time:50826ms step_avg:154.02ms
step:341/3200 train_loss:4.0010 train_time:50979ms step_avg:154.02ms
step:342/3200 train_loss:3.9249 train_time:51132ms step_avg:154.01ms
step:343/3200 train_loss:3.8853 train_time:51285ms step_avg:154.01ms
step:344/3200 train_loss:3.9139 train_time:51438ms step_avg:154.01ms
step:345/3200 train_loss:4.0679 train_time:51589ms step_avg:154.00ms
step:346/3200 train_loss:3.9108 train_time:51743ms step_avg:154.00ms
step:347/3200 train_loss:3.8481 train_time:51897ms step_avg:154.00ms
step:348/3200 train_loss:3.8768 train_time:52049ms step_avg:153.99ms
step:349/3200 train_loss:3.9401 train_time:52201ms step_avg:153.98ms
step:350/3200 train_loss:3.9048 train_time:52353ms step_avg:153.98ms
step:351/3200 train_loss:3.6402 train_time:52506ms step_avg:153.98ms
step:352/3200 train_loss:3.9005 train_time:52659ms step_avg:153.97ms
step:353/3200 train_loss:4.2372 train_time:52813ms step_avg:153.97ms
step:354/3200 train_loss:3.7339 train_time:52966ms step_avg:153.97ms
step:355/3200 train_loss:3.9983 train_time:53118ms step_avg:153.97ms
step:356/3200 train_loss:3.8624 train_time:53270ms step_avg:153.96ms
step:357/3200 train_loss:3.9698 train_time:53423ms step_avg:153.96ms
step:358/3200 train_loss:3.8836 train_time:53578ms step_avg:153.96ms
step:359/3200 train_loss:3.9262 train_time:53731ms step_avg:153.96ms
step:360/3200 train_loss:3.9245 train_time:53882ms step_avg:153.95ms
step:361/3200 train_loss:3.5100 train_time:54036ms step_avg:153.95ms
step:362/3200 train_loss:4.0946 train_time:54189ms step_avg:153.95ms
step:363/3200 train_loss:3.9981 train_time:54341ms step_avg:153.94ms
step:364/3200 train_loss:3.9233 train_time:54496ms step_avg:153.94ms
step:365/3200 train_loss:3.8265 train_time:54649ms step_avg:153.94ms
step:366/3200 train_loss:3.9944 train_time:54802ms step_avg:153.94ms
step:367/3200 train_loss:3.9419 train_time:54955ms step_avg:153.94ms
step:368/3200 train_loss:3.9387 train_time:55108ms step_avg:153.93ms
step:369/3200 train_loss:3.9244 train_time:55260ms step_avg:153.93ms
step:370/3200 train_loss:3.8214 train_time:55414ms step_avg:153.93ms
step:371/3200 train_loss:3.9652 train_time:55566ms step_avg:153.92ms
step:372/3200 train_loss:3.8318 train_time:55719ms step_avg:153.92ms
step:373/3200 train_loss:3.7738 train_time:55872ms step_avg:153.92ms
step:374/3200 train_loss:3.9972 train_time:56024ms step_avg:153.91ms
step:375/3200 train_loss:3.9147 train_time:56179ms step_avg:153.91ms
step:375/3200 val_loss:3.9117 train_time:56226ms step_avg:154.04ms
step:376/3200 train_loss:3.8952 train_time:56338ms step_avg:153.93ms
step:377/3200 train_loss:3.9507 train_time:56493ms step_avg:153.93ms
step:378/3200 train_loss:3.8697 train_time:56793ms step_avg:154.33ms
step:379/3200 train_loss:3.9280 train_time:56954ms step_avg:154.35ms
step:380/3200 train_loss:3.9434 train_time:57270ms step_avg:154.78ms
step:381/3200 train_loss:4.0258 train_time:57422ms step_avg:154.77ms
step:382/3200 train_loss:3.9298 train_time:57572ms step_avg:154.76ms
step:383/3200 train_loss:3.8917 train_time:57723ms step_avg:154.75ms
step:384/3200 train_loss:3.8805 train_time:57873ms step_avg:154.74ms
step:385/3200 train_loss:3.9509 train_time:58025ms step_avg:154.73ms
step:386/3200 train_loss:3.8665 train_time:58179ms step_avg:154.73ms
step:387/3200 train_loss:3.9705 train_time:58335ms step_avg:154.74ms
step:388/3200 train_loss:4.1519 train_time:58488ms step_avg:154.73ms
step:389/3200 train_loss:3.8795 train_time:58642ms step_avg:154.73ms
step:390/3200 train_loss:3.8739 train_time:58794ms step_avg:154.72ms
step:391/3200 train_loss:3.9768 train_time:58945ms step_avg:154.71ms
step:392/3200 train_loss:3.8901 train_time:59097ms step_avg:154.70ms
step:393/3200 train_loss:3.9995 train_time:59251ms step_avg:154.70ms
step:394/3200 train_loss:3.8350 train_time:59404ms step_avg:154.70ms
step:395/3200 train_loss:3.9728 train_time:59558ms step_avg:154.70ms
step:396/3200 train_loss:3.7231 train_time:59710ms step_avg:154.69ms
step:397/3200 train_loss:3.9226 train_time:59862ms step_avg:154.68ms
step:398/3200 train_loss:3.9497 train_time:60015ms step_avg:154.68ms
step:399/3200 train_loss:3.9636 train_time:60167ms step_avg:154.67ms
step:400/3200 train_loss:3.8648 train_time:60323ms step_avg:154.67ms
step:401/3200 train_loss:3.9113 train_time:60475ms step_avg:154.67ms
step:402/3200 train_loss:3.9999 train_time:60629ms step_avg:154.67ms
step:403/3200 train_loss:3.9292 train_time:60783ms step_avg:154.67ms
step:404/3200 train_loss:4.0454 train_time:60934ms step_avg:154.66ms
step:405/3200 train_loss:3.7820 train_time:61088ms step_avg:154.65ms
step:406/3200 train_loss:3.8797 train_time:61243ms step_avg:154.65ms
step:407/3200 train_loss:4.1724 train_time:61396ms step_avg:154.65ms
step:408/3200 train_loss:3.8744 train_time:61548ms step_avg:154.64ms
step:409/3200 train_loss:3.9014 train_time:61703ms step_avg:154.64ms
step:410/3200 train_loss:3.9457 train_time:61856ms step_avg:154.64ms
step:411/3200 train_loss:3.8383 train_time:62009ms step_avg:154.64ms
step:412/3200 train_loss:3.8507 train_time:62162ms step_avg:154.63ms
step:413/3200 train_loss:4.2888 train_time:62316ms step_avg:154.63ms
step:414/3200 train_loss:3.7295 train_time:62468ms step_avg:154.62ms
step:415/3200 train_loss:4.0934 train_time:62622ms step_avg:154.62ms
step:416/3200 train_loss:3.8465 train_time:62774ms step_avg:154.62ms
step:417/3200 train_loss:3.8494 train_time:62926ms step_avg:154.61ms
step:418/3200 train_loss:4.0396 train_time:63080ms step_avg:154.61ms
step:419/3200 train_loss:3.7752 train_time:63233ms step_avg:154.60ms
step:420/3200 train_loss:3.9022 train_time:63387ms step_avg:154.60ms
step:421/3200 train_loss:3.8063 train_time:63540ms step_avg:154.60ms
step:422/3200 train_loss:3.7339 train_time:63691ms step_avg:154.59ms
step:423/3200 train_loss:3.8669 train_time:63844ms step_avg:154.59ms
step:424/3200 train_loss:3.9626 train_time:63997ms step_avg:154.58ms
step:425/3200 train_loss:3.7127 train_time:64149ms step_avg:154.58ms
step:426/3200 train_loss:3.8943 train_time:64303ms step_avg:154.57ms
step:427/3200 train_loss:3.7744 train_time:64455ms step_avg:154.57ms
step:428/3200 train_loss:3.9918 train_time:64608ms step_avg:154.56ms
step:429/3200 train_loss:3.9098 train_time:64763ms step_avg:154.57ms
step:430/3200 train_loss:3.8429 train_time:64917ms step_avg:154.56ms
step:431/3200 train_loss:3.8104 train_time:65067ms step_avg:154.55ms
step:432/3200 train_loss:3.7080 train_time:65221ms step_avg:154.55ms
step:433/3200 train_loss:3.8578 train_time:65374ms step_avg:154.55ms
step:434/3200 train_loss:3.9113 train_time:65526ms step_avg:154.54ms
step:435/3200 train_loss:3.8680 train_time:65680ms step_avg:154.54ms
step:436/3200 train_loss:3.9030 train_time:65831ms step_avg:154.53ms
step:437/3200 train_loss:3.9186 train_time:65985ms step_avg:154.53ms
step:438/3200 train_loss:3.7956 train_time:66138ms step_avg:154.53ms
step:439/3200 train_loss:3.8086 train_time:66291ms step_avg:154.52ms
step:440/3200 train_loss:3.7981 train_time:66444ms step_avg:154.52ms
step:441/3200 train_loss:3.9766 train_time:66597ms step_avg:154.52ms
step:442/3200 train_loss:3.8568 train_time:66748ms step_avg:154.51ms
step:443/3200 train_loss:3.8310 train_time:66903ms step_avg:154.51ms
step:444/3200 train_loss:3.7375 train_time:67055ms step_avg:154.50ms
step:445/3200 train_loss:4.0073 train_time:67206ms step_avg:154.50ms
step:446/3200 train_loss:3.9386 train_time:67361ms step_avg:154.50ms
step:447/3200 train_loss:3.9262 train_time:67515ms step_avg:154.50ms
step:448/3200 train_loss:3.8413 train_time:67666ms step_avg:154.49ms
step:449/3200 train_loss:3.9492 train_time:67821ms step_avg:154.49ms
step:450/3200 train_loss:3.7796 train_time:67974ms step_avg:154.49ms
step:451/3200 train_loss:3.8158 train_time:68127ms step_avg:154.48ms
step:452/3200 train_loss:3.6776 train_time:68279ms step_avg:154.48ms
step:453/3200 train_loss:3.8010 train_time:68432ms step_avg:154.47ms
step:454/3200 train_loss:3.7699 train_time:68585ms step_avg:154.47ms
step:455/3200 train_loss:3.7250 train_time:68738ms step_avg:154.47ms
step:456/3200 train_loss:3.9443 train_time:68890ms step_avg:154.46ms
step:457/3200 train_loss:3.8233 train_time:69044ms step_avg:154.46ms
step:458/3200 train_loss:3.8863 train_time:69197ms step_avg:154.46ms
step:459/3200 train_loss:3.9299 train_time:69349ms step_avg:154.45ms
step:460/3200 train_loss:3.7378 train_time:69503ms step_avg:154.45ms
step:461/3200 train_loss:3.8961 train_time:69657ms step_avg:154.45ms
step:462/3200 train_loss:3.7984 train_time:69809ms step_avg:154.45ms
step:463/3200 train_loss:3.8262 train_time:69963ms step_avg:154.44ms
step:464/3200 train_loss:3.8682 train_time:70117ms step_avg:154.44ms
step:465/3200 train_loss:3.8155 train_time:70269ms step_avg:154.44ms
step:466/3200 train_loss:3.8188 train_time:70423ms step_avg:154.44ms
step:467/3200 train_loss:3.9065 train_time:70575ms step_avg:154.43ms
step:468/3200 train_loss:3.9224 train_time:70728ms step_avg:154.43ms
step:469/3200 train_loss:3.8956 train_time:70883ms step_avg:154.43ms
step:470/3200 train_loss:3.7895 train_time:71036ms step_avg:154.43ms
step:471/3200 train_loss:3.8671 train_time:71188ms step_avg:154.42ms
step:472/3200 train_loss:3.9223 train_time:71342ms step_avg:154.42ms
step:473/3200 train_loss:3.8740 train_time:71494ms step_avg:154.42ms
step:474/3200 train_loss:3.8219 train_time:71647ms step_avg:154.41ms
step:475/3200 train_loss:3.6859 train_time:71802ms step_avg:154.41ms
step:476/3200 train_loss:4.1296 train_time:71953ms step_avg:154.41ms
step:477/3200 train_loss:3.8709 train_time:72106ms step_avg:154.40ms
step:478/3200 train_loss:3.6812 train_time:72261ms step_avg:154.40ms
step:479/3200 train_loss:3.9167 train_time:72414ms step_avg:154.40ms
step:480/3200 train_loss:3.8677 train_time:72566ms step_avg:154.40ms
step:481/3200 train_loss:4.0165 train_time:72722ms step_avg:154.40ms
step:482/3200 train_loss:3.8250 train_time:72873ms step_avg:154.39ms
step:483/3200 train_loss:3.6305 train_time:73026ms step_avg:154.39ms
step:484/3200 train_loss:3.9117 train_time:73178ms step_avg:154.38ms
step:485/3200 train_loss:3.7635 train_time:73330ms step_avg:154.38ms
step:486/3200 train_loss:3.7743 train_time:73483ms step_avg:154.38ms
step:487/3200 train_loss:3.6977 train_time:73636ms step_avg:154.37ms
step:488/3200 train_loss:3.7715 train_time:73788ms step_avg:154.37ms
step:489/3200 train_loss:3.9714 train_time:73943ms step_avg:154.37ms
step:490/3200 train_loss:3.8188 train_time:74096ms step_avg:154.37ms
step:491/3200 train_loss:3.7018 train_time:74248ms step_avg:154.36ms
step:492/3200 train_loss:3.7218 train_time:74402ms step_avg:154.36ms
step:493/3200 train_loss:3.8379 train_time:74556ms step_avg:154.36ms
step:494/3200 train_loss:3.6835 train_time:74708ms step_avg:154.36ms
step:495/3200 train_loss:3.8142 train_time:74863ms step_avg:154.36ms
step:496/3200 train_loss:3.7587 train_time:75016ms step_avg:154.35ms
step:497/3200 train_loss:3.6353 train_time:75168ms step_avg:154.35ms
step:498/3200 train_loss:3.8357 train_time:75322ms step_avg:154.35ms
step:499/3200 train_loss:3.9045 train_time:75475ms step_avg:154.35ms
step:500/3200 train_loss:3.9357 train_time:75627ms step_avg:154.34ms
step:500/3200 val_loss:3.8124 train_time:75675ms step_avg:154.44ms
step:501/3200 train_loss:3.8494 train_time:75786ms step_avg:154.35ms
step:502/3200 train_loss:3.9073 train_time:75939ms step_avg:154.35ms
step:503/3200 train_loss:3.8408 train_time:76091ms step_avg:154.34ms
step:504/3200 train_loss:3.8893 train_time:76240ms step_avg:154.33ms
step:505/3200 train_loss:3.8342 train_time:76391ms step_avg:154.32ms
step:506/3200 train_loss:3.9227 train_time:76540ms step_avg:154.32ms
step:507/3200 train_loss:3.7400 train_time:76698ms step_avg:154.32ms
step:508/3200 train_loss:3.8691 train_time:76856ms step_avg:154.33ms
step:509/3200 train_loss:3.9381 train_time:77010ms step_avg:154.33ms
step:510/3200 train_loss:3.8792 train_time:77162ms step_avg:154.32ms
step:511/3200 train_loss:3.6875 train_time:77314ms step_avg:154.32ms
step:512/3200 train_loss:3.8856 train_time:77466ms step_avg:154.31ms
step:513/3200 train_loss:3.8216 train_time:77618ms step_avg:154.31ms
step:514/3200 train_loss:3.7881 train_time:77773ms step_avg:154.31ms
step:515/3200 train_loss:3.8887 train_time:77929ms step_avg:154.32ms
step:516/3200 train_loss:3.8443 train_time:78082ms step_avg:154.31ms
step:517/3200 train_loss:4.1979 train_time:78233ms step_avg:154.31ms
step:518/3200 train_loss:3.7966 train_time:78385ms step_avg:154.30ms
step:519/3200 train_loss:3.8913 train_time:78536ms step_avg:154.29ms
step:520/3200 train_loss:3.7846 train_time:78690ms step_avg:154.29ms
step:521/3200 train_loss:3.8021 train_time:78844ms step_avg:154.29ms
step:522/3200 train_loss:3.7545 train_time:78996ms step_avg:154.29ms
step:523/3200 train_loss:3.7664 train_time:79150ms step_avg:154.29ms
step:524/3200 train_loss:4.4016 train_time:79303ms step_avg:154.29ms
step:525/3200 train_loss:3.8532 train_time:79454ms step_avg:154.28ms
step:526/3200 train_loss:3.7979 train_time:79609ms step_avg:154.28ms
step:527/3200 train_loss:3.8059 train_time:79761ms step_avg:154.28ms
step:528/3200 train_loss:3.7673 train_time:79915ms step_avg:154.28ms
step:529/3200 train_loss:3.7357 train_time:80069ms step_avg:154.28ms
step:530/3200 train_loss:3.9539 train_time:80221ms step_avg:154.27ms
step:531/3200 train_loss:3.7597 train_time:80374ms step_avg:154.27ms
step:532/3200 train_loss:4.0324 train_time:80528ms step_avg:154.27ms
step:533/3200 train_loss:3.8446 train_time:80681ms step_avg:154.26ms
step:534/3200 train_loss:3.7618 train_time:80833ms step_avg:154.26ms
step:535/3200 train_loss:3.7915 train_time:80986ms step_avg:154.26ms
step:536/3200 train_loss:3.7260 train_time:81138ms step_avg:154.25ms
step:537/3200 train_loss:3.8567 train_time:81291ms step_avg:154.25ms
step:538/3200 train_loss:3.8391 train_time:81444ms step_avg:154.25ms
step:539/3200 train_loss:3.7373 train_time:81596ms step_avg:154.25ms
step:540/3200 train_loss:4.2441 train_time:81750ms step_avg:154.25ms
step:541/3200 train_loss:3.7818 train_time:81903ms step_avg:154.24ms
step:542/3200 train_loss:3.8891 train_time:82055ms step_avg:154.24ms
step:543/3200 train_loss:3.7121 train_time:82210ms step_avg:154.24ms
step:544/3200 train_loss:3.6935 train_time:82362ms step_avg:154.24ms
step:545/3200 train_loss:3.7705 train_time:82514ms step_avg:154.23ms
step:546/3200 train_loss:3.7026 train_time:82669ms step_avg:154.23ms
step:547/3200 train_loss:3.7521 train_time:82821ms step_avg:154.23ms
step:548/3200 train_loss:3.7585 train_time:82973ms step_avg:154.22ms
step:549/3200 train_loss:3.7348 train_time:83127ms step_avg:154.23ms
step:550/3200 train_loss:3.8389 train_time:83279ms step_avg:154.22ms
step:551/3200 train_loss:3.7196 train_time:83431ms step_avg:154.22ms
step:552/3200 train_loss:3.7410 train_time:83584ms step_avg:154.21ms
step:553/3200 train_loss:4.0667 train_time:83736ms step_avg:154.21ms
step:554/3200 train_loss:3.8646 train_time:83889ms step_avg:154.21ms
step:555/3200 train_loss:3.8276 train_time:84042ms step_avg:154.21ms
step:556/3200 train_loss:3.7628 train_time:84195ms step_avg:154.20ms
step:557/3200 train_loss:3.7978 train_time:84350ms step_avg:154.20ms
step:558/3200 train_loss:3.4539 train_time:84503ms step_avg:154.20ms
step:559/3200 train_loss:3.7255 train_time:84655ms step_avg:154.20ms
step:560/3200 train_loss:3.7617 train_time:84810ms step_avg:154.20ms
step:561/3200 train_loss:3.8218 train_time:84962ms step_avg:154.20ms
step:562/3200 train_loss:3.7239 train_time:85115ms step_avg:154.19ms
step:563/3200 train_loss:3.6641 train_time:85269ms step_avg:154.19ms
step:564/3200 train_loss:3.8719 train_time:85421ms step_avg:154.19ms
step:565/3200 train_loss:3.6816 train_time:85574ms step_avg:154.19ms
step:566/3200 train_loss:3.7961 train_time:85729ms step_avg:154.19ms
step:567/3200 train_loss:3.7431 train_time:86032ms step_avg:154.46ms
step:568/3200 train_loss:3.7052 train_time:86195ms step_avg:154.47ms
step:569/3200 train_loss:3.7959 train_time:86346ms step_avg:154.46ms
step:570/3200 train_loss:3.7659 train_time:86675ms step_avg:154.78ms
step:571/3200 train_loss:3.7969 train_time:86825ms step_avg:154.77ms
step:572/3200 train_loss:3.8770 train_time:86976ms step_avg:154.76ms
step:573/3200 train_loss:3.8348 train_time:87128ms step_avg:154.76ms
step:574/3200 train_loss:3.8410 train_time:87279ms step_avg:154.75ms
step:575/3200 train_loss:3.8904 train_time:87431ms step_avg:154.74ms
step:576/3200 train_loss:3.8457 train_time:87586ms step_avg:154.75ms
step:577/3200 train_loss:3.8683 train_time:87741ms step_avg:154.75ms
step:578/3200 train_loss:3.7891 train_time:87894ms step_avg:154.74ms
step:579/3200 train_loss:3.7920 train_time:88048ms step_avg:154.74ms
step:580/3200 train_loss:3.7752 train_time:88200ms step_avg:154.74ms
step:581/3200 train_loss:3.7109 train_time:88351ms step_avg:154.73ms
step:582/3200 train_loss:3.7373 train_time:88503ms step_avg:154.73ms
step:583/3200 train_loss:3.9668 train_time:88658ms step_avg:154.73ms
step:584/3200 train_loss:3.7302 train_time:88813ms step_avg:154.73ms
step:585/3200 train_loss:3.7029 train_time:88966ms step_avg:154.72ms
step:586/3200 train_loss:3.8915 train_time:89118ms step_avg:154.72ms
step:587/3200 train_loss:3.6405 train_time:89271ms step_avg:154.72ms
step:588/3200 train_loss:3.7805 train_time:89423ms step_avg:154.71ms
step:589/3200 train_loss:3.7586 train_time:89576ms step_avg:154.71ms
step:590/3200 train_loss:4.1132 train_time:89731ms step_avg:154.71ms
step:591/3200 train_loss:3.8931 train_time:89883ms step_avg:154.70ms
step:592/3200 train_loss:3.6357 train_time:90036ms step_avg:154.70ms
step:593/3200 train_loss:3.6543 train_time:90190ms step_avg:154.70ms
step:594/3200 train_loss:3.6327 train_time:90342ms step_avg:154.70ms
step:595/3200 train_loss:3.6747 train_time:90495ms step_avg:154.69ms
step:596/3200 train_loss:4.0403 train_time:90649ms step_avg:154.69ms
step:597/3200 train_loss:3.7645 train_time:90803ms step_avg:154.69ms
step:598/3200 train_loss:3.6931 train_time:90955ms step_avg:154.68ms
step:599/3200 train_loss:3.7751 train_time:91110ms step_avg:154.69ms
step:600/3200 train_loss:3.5933 train_time:91262ms step_avg:154.68ms
step:601/3200 train_loss:3.7087 train_time:91415ms step_avg:154.68ms
step:602/3200 train_loss:3.7478 train_time:91569ms step_avg:154.68ms
step:603/3200 train_loss:3.7675 train_time:91721ms step_avg:154.67ms
step:604/3200 train_loss:3.8886 train_time:91874ms step_avg:154.67ms
step:605/3200 train_loss:3.7337 train_time:92029ms step_avg:154.67ms
step:606/3200 train_loss:3.7280 train_time:92182ms step_avg:154.67ms
step:607/3200 train_loss:3.6915 train_time:92335ms step_avg:154.66ms
step:608/3200 train_loss:3.9337 train_time:92489ms step_avg:154.66ms
step:609/3200 train_loss:3.7623 train_time:92641ms step_avg:154.66ms
step:610/3200 train_loss:3.7261 train_time:92793ms step_avg:154.65ms
step:611/3200 train_loss:3.8277 train_time:92946ms step_avg:154.65ms
step:612/3200 train_loss:3.7334 train_time:93098ms step_avg:154.65ms
step:613/3200 train_loss:3.7119 train_time:93251ms step_avg:154.64ms
step:614/3200 train_loss:3.8759 train_time:93404ms step_avg:154.64ms
step:615/3200 train_loss:3.8255 train_time:93556ms step_avg:154.64ms
step:616/3200 train_loss:3.8045 train_time:93710ms step_avg:154.64ms
step:617/3200 train_loss:3.7349 train_time:93863ms step_avg:154.63ms
step:618/3200 train_loss:3.6774 train_time:94015ms step_avg:154.63ms
step:619/3200 train_loss:3.7897 train_time:94169ms step_avg:154.63ms
step:620/3200 train_loss:3.6840 train_time:94322ms step_avg:154.63ms
step:621/3200 train_loss:3.6982 train_time:94473ms step_avg:154.62ms
step:622/3200 train_loss:4.0217 train_time:94627ms step_avg:154.62ms
step:623/3200 train_loss:3.7026 train_time:94779ms step_avg:154.61ms
step:624/3200 train_loss:3.7239 train_time:94932ms step_avg:154.61ms
step:625/3200 train_loss:3.8089 train_time:95085ms step_avg:154.61ms
step:625/3200 val_loss:3.7379 train_time:95131ms step_avg:154.68ms
step:626/3200 train_loss:3.8322 train_time:95241ms step_avg:154.61ms
step:627/3200 train_loss:3.8511 train_time:95395ms step_avg:154.61ms
step:628/3200 train_loss:3.8417 train_time:95546ms step_avg:154.61ms
step:629/3200 train_loss:3.8806 train_time:95697ms step_avg:154.60ms
step:630/3200 train_loss:3.7046 train_time:95850ms step_avg:154.60ms
step:631/3200 train_loss:3.8328 train_time:96002ms step_avg:154.59ms
step:632/3200 train_loss:3.8637 train_time:96159ms step_avg:154.60ms
step:633/3200 train_loss:3.7651 train_time:96316ms step_avg:154.60ms
step:634/3200 train_loss:3.7041 train_time:96470ms step_avg:154.60ms
step:635/3200 train_loss:3.8002 train_time:96622ms step_avg:154.60ms
step:636/3200 train_loss:4.0562 train_time:96774ms step_avg:154.59ms
step:637/3200 train_loss:3.6524 train_time:96925ms step_avg:154.59ms
step:638/3200 train_loss:3.4696 train_time:97078ms step_avg:154.58ms
step:639/3200 train_loss:3.6979 train_time:97234ms step_avg:154.58ms
step:640/3200 train_loss:3.7326 train_time:97388ms step_avg:154.58ms
step:641/3200 train_loss:3.6810 train_time:97540ms step_avg:154.58ms
step:642/3200 train_loss:3.6946 train_time:97693ms step_avg:154.58ms
step:643/3200 train_loss:3.7349 train_time:97844ms step_avg:154.57ms
step:644/3200 train_loss:3.7301 train_time:97997ms step_avg:154.57ms
step:645/3200 train_loss:3.6666 train_time:98151ms step_avg:154.57ms
step:646/3200 train_loss:3.8839 train_time:98305ms step_avg:154.57ms
step:647/3200 train_loss:3.7907 train_time:98460ms step_avg:154.57ms
step:648/3200 train_loss:3.7857 train_time:98613ms step_avg:154.57ms
step:649/3200 train_loss:3.8133 train_time:98766ms step_avg:154.56ms
step:650/3200 train_loss:3.8742 train_time:98918ms step_avg:154.56ms
step:651/3200 train_loss:3.7375 train_time:99071ms step_avg:154.56ms
step:652/3200 train_loss:3.8678 train_time:99223ms step_avg:154.55ms
step:653/3200 train_loss:3.6889 train_time:99376ms step_avg:154.55ms
step:654/3200 train_loss:3.7768 train_time:99531ms step_avg:154.55ms
step:655/3200 train_loss:3.5424 train_time:99683ms step_avg:154.55ms
step:656/3200 train_loss:3.6862 train_time:99835ms step_avg:154.54ms
step:657/3200 train_loss:3.6904 train_time:99990ms step_avg:154.54ms
step:658/3200 train_loss:3.6197 train_time:100141ms step_avg:154.54ms
step:659/3200 train_loss:3.7990 train_time:100294ms step_avg:154.54ms
step:660/3200 train_loss:3.7061 train_time:100447ms step_avg:154.53ms
step:661/3200 train_loss:3.7957 train_time:100599ms step_avg:154.53ms
step:662/3200 train_loss:3.8678 train_time:100753ms step_avg:154.53ms
step:663/3200 train_loss:3.7853 train_time:100906ms step_avg:154.53ms
step:664/3200 train_loss:3.6574 train_time:101058ms step_avg:154.52ms
step:665/3200 train_loss:3.7359 train_time:101212ms step_avg:154.52ms
step:666/3200 train_loss:3.6101 train_time:101365ms step_avg:154.52ms
step:667/3200 train_loss:3.8917 train_time:101517ms step_avg:154.52ms
step:668/3200 train_loss:3.7350 train_time:101671ms step_avg:154.52ms
step:669/3200 train_loss:3.7448 train_time:101824ms step_avg:154.51ms
step:670/3200 train_loss:3.5961 train_time:101977ms step_avg:154.51ms
step:671/3200 train_loss:3.7104 train_time:102131ms step_avg:154.51ms
step:672/3200 train_loss:3.6689 train_time:102284ms step_avg:154.51ms
step:673/3200 train_loss:3.6847 train_time:102436ms step_avg:154.50ms
step:674/3200 train_loss:3.9628 train_time:102591ms step_avg:154.50ms
step:675/3200 train_loss:3.7503 train_time:102745ms step_avg:154.50ms
step:676/3200 train_loss:3.8238 train_time:102896ms step_avg:154.50ms
step:677/3200 train_loss:3.6078 train_time:103051ms step_avg:154.50ms
step:678/3200 train_loss:3.7121 train_time:103203ms step_avg:154.50ms
step:679/3200 train_loss:3.6612 train_time:103355ms step_avg:154.49ms
step:680/3200 train_loss:3.8000 train_time:103509ms step_avg:154.49ms
step:681/3200 train_loss:3.6954 train_time:103661ms step_avg:154.49ms
step:682/3200 train_loss:3.7262 train_time:103814ms step_avg:154.49ms
step:683/3200 train_loss:3.8098 train_time:103967ms step_avg:154.48ms
step:684/3200 train_loss:3.8437 train_time:104118ms step_avg:154.48ms
step:685/3200 train_loss:3.7499 train_time:104273ms step_avg:154.48ms
step:686/3200 train_loss:3.8151 train_time:104425ms step_avg:154.48ms
step:687/3200 train_loss:3.7485 train_time:104579ms step_avg:154.47ms
step:688/3200 train_loss:3.7904 train_time:104732ms step_avg:154.47ms
step:689/3200 train_loss:3.4049 train_time:104886ms step_avg:154.47ms
step:690/3200 train_loss:3.5306 train_time:105038ms step_avg:154.47ms
step:691/3200 train_loss:3.6654 train_time:105192ms step_avg:154.47ms
step:692/3200 train_loss:3.5402 train_time:105344ms step_avg:154.46ms
step:693/3200 train_loss:3.7532 train_time:105497ms step_avg:154.46ms
step:694/3200 train_loss:3.7739 train_time:105652ms step_avg:154.46ms
step:695/3200 train_loss:3.6577 train_time:105804ms step_avg:154.46ms
step:696/3200 train_loss:3.6535 train_time:105956ms step_avg:154.46ms
step:697/3200 train_loss:3.9671 train_time:106111ms step_avg:154.46ms
step:698/3200 train_loss:3.7150 train_time:106264ms step_avg:154.45ms
step:699/3200 train_loss:3.7543 train_time:106415ms step_avg:154.45ms
step:700/3200 train_loss:3.9140 train_time:106570ms step_avg:154.45ms
step:701/3200 train_loss:3.6924 train_time:106721ms step_avg:154.44ms
step:702/3200 train_loss:3.6551 train_time:106874ms step_avg:154.44ms
step:703/3200 train_loss:3.6327 train_time:107027ms step_avg:154.44ms
step:704/3200 train_loss:3.5978 train_time:107180ms step_avg:154.44ms
step:705/3200 train_loss:3.6800 train_time:107333ms step_avg:154.44ms
step:706/3200 train_loss:3.6750 train_time:107487ms step_avg:154.43ms
step:707/3200 train_loss:3.6906 train_time:107640ms step_avg:154.43ms
step:708/3200 train_loss:3.7533 train_time:107793ms step_avg:154.43ms
step:709/3200 train_loss:3.7089 train_time:107945ms step_avg:154.43ms
step:710/3200 train_loss:3.6913 train_time:108098ms step_avg:154.43ms
step:711/3200 train_loss:3.6555 train_time:108251ms step_avg:154.42ms
step:712/3200 train_loss:3.7054 train_time:108403ms step_avg:154.42ms
step:713/3200 train_loss:3.7579 train_time:108556ms step_avg:154.42ms
step:714/3200 train_loss:3.7672 train_time:108710ms step_avg:154.42ms
step:715/3200 train_loss:3.6760 train_time:108864ms step_avg:154.42ms
step:716/3200 train_loss:3.6851 train_time:109016ms step_avg:154.41ms
step:717/3200 train_loss:3.7015 train_time:109171ms step_avg:154.41ms
step:718/3200 train_loss:3.8454 train_time:109323ms step_avg:154.41ms
step:719/3200 train_loss:3.7025 train_time:109475ms step_avg:154.41ms
step:720/3200 train_loss:3.7831 train_time:109629ms step_avg:154.41ms
step:721/3200 train_loss:3.9512 train_time:109781ms step_avg:154.40ms
step:722/3200 train_loss:3.5728 train_time:109934ms step_avg:154.40ms
step:723/3200 train_loss:3.8395 train_time:110089ms step_avg:154.40ms
step:724/3200 train_loss:3.8943 train_time:110241ms step_avg:154.40ms
step:725/3200 train_loss:3.6780 train_time:110394ms step_avg:154.40ms
step:726/3200 train_loss:3.7567 train_time:110546ms step_avg:154.39ms
step:727/3200 train_loss:3.6540 train_time:110699ms step_avg:154.39ms
step:728/3200 train_loss:3.6778 train_time:110853ms step_avg:154.39ms
step:729/3200 train_loss:3.8497 train_time:111006ms step_avg:154.39ms
step:730/3200 train_loss:3.7898 train_time:111159ms step_avg:154.39ms
step:731/3200 train_loss:3.7877 train_time:111314ms step_avg:154.39ms
step:732/3200 train_loss:3.6824 train_time:111465ms step_avg:154.38ms
step:733/3200 train_loss:3.7015 train_time:111617ms step_avg:154.38ms
step:734/3200 train_loss:3.9368 train_time:111772ms step_avg:154.38ms
step:735/3200 train_loss:3.6764 train_time:111925ms step_avg:154.38ms
step:736/3200 train_loss:3.7362 train_time:112078ms step_avg:154.38ms
step:737/3200 train_loss:3.8564 train_time:112232ms step_avg:154.38ms
step:738/3200 train_loss:3.7790 train_time:112386ms step_avg:154.38ms
step:739/3200 train_loss:3.7140 train_time:112537ms step_avg:154.37ms
step:740/3200 train_loss:3.6071 train_time:112692ms step_avg:154.37ms
step:741/3200 train_loss:4.2511 train_time:112844ms step_avg:154.37ms
step:742/3200 train_loss:3.6085 train_time:112996ms step_avg:154.37ms
step:743/3200 train_loss:3.6868 train_time:113150ms step_avg:154.37ms
step:744/3200 train_loss:3.6969 train_time:113303ms step_avg:154.36ms
step:745/3200 train_loss:3.7527 train_time:113455ms step_avg:154.36ms
step:746/3200 train_loss:3.7135 train_time:113609ms step_avg:154.36ms
step:747/3200 train_loss:3.7118 train_time:113761ms step_avg:154.36ms
step:748/3200 train_loss:3.7482 train_time:113914ms step_avg:154.35ms
step:749/3200 train_loss:3.6751 train_time:114067ms step_avg:154.35ms
step:750/3200 train_loss:3.6749 train_time:114221ms step_avg:154.35ms
step:750/3200 val_loss:3.6838 train_time:114267ms step_avg:154.41ms
step:751/3200 train_loss:3.7107 train_time:114380ms step_avg:154.36ms
step:752/3200 train_loss:3.6732 train_time:114533ms step_avg:154.36ms
step:753/3200 train_loss:3.7136 train_time:114684ms step_avg:154.35ms
step:754/3200 train_loss:3.7325 train_time:114836ms step_avg:154.35ms
step:755/3200 train_loss:3.6966 train_time:114987ms step_avg:154.35ms
step:756/3200 train_loss:3.7813 train_time:115294ms step_avg:154.55ms
step:757/3200 train_loss:3.5986 train_time:115457ms step_avg:154.56ms
step:758/3200 train_loss:3.8373 train_time:115606ms step_avg:154.55ms
step:759/3200 train_loss:3.7542 train_time:115758ms step_avg:154.55ms
step:760/3200 train_loss:3.6957 train_time:116079ms step_avg:154.77ms
step:761/3200 train_loss:3.8059 train_time:116231ms step_avg:154.77ms
step:762/3200 train_loss:3.5171 train_time:116383ms step_avg:154.76ms
step:763/3200 train_loss:3.6642 train_time:116534ms step_avg:154.76ms
step:764/3200 train_loss:3.7804 train_time:116685ms step_avg:154.75ms
step:765/3200 train_loss:3.4279 train_time:116837ms step_avg:154.75ms
step:766/3200 train_loss:3.8540 train_time:116991ms step_avg:154.75ms
step:767/3200 train_loss:3.6964 train_time:117147ms step_avg:154.75ms
step:768/3200 train_loss:3.6749 train_time:117301ms step_avg:154.75ms
step:769/3200 train_loss:3.6929 train_time:117454ms step_avg:154.75ms
step:770/3200 train_loss:3.7161 train_time:117604ms step_avg:154.74ms
step:771/3200 train_loss:3.7682 train_time:117756ms step_avg:154.74ms
step:772/3200 train_loss:3.9906 train_time:117907ms step_avg:154.73ms
step:773/3200 train_loss:3.5752 train_time:118063ms step_avg:154.74ms
step:774/3200 train_loss:3.7589 train_time:118218ms step_avg:154.74ms
step:775/3200 train_loss:3.7488 train_time:118371ms step_avg:154.73ms
step:776/3200 train_loss:3.7196 train_time:118523ms step_avg:154.73ms
step:777/3200 train_loss:3.5242 train_time:118675ms step_avg:154.73ms
step:778/3200 train_loss:3.5141 train_time:118826ms step_avg:154.72ms
step:779/3200 train_loss:3.5964 train_time:118980ms step_avg:154.72ms
step:780/3200 train_loss:3.6845 train_time:119134ms step_avg:154.72ms
step:781/3200 train_loss:3.7136 train_time:119287ms step_avg:154.72ms
step:782/3200 train_loss:3.7760 train_time:119440ms step_avg:154.72ms
step:783/3200 train_loss:3.6911 train_time:119593ms step_avg:154.71ms
step:784/3200 train_loss:3.6843 train_time:119745ms step_avg:154.71ms
step:785/3200 train_loss:3.6947 train_time:119899ms step_avg:154.71ms
step:786/3200 train_loss:3.6674 train_time:120052ms step_avg:154.71ms
step:787/3200 train_loss:3.5644 train_time:120204ms step_avg:154.70ms
step:788/3200 train_loss:3.8146 train_time:120359ms step_avg:154.70ms
step:789/3200 train_loss:3.6122 train_time:120511ms step_avg:154.70ms
step:790/3200 train_loss:3.6758 train_time:120665ms step_avg:154.70ms
step:791/3200 train_loss:3.7450 train_time:120818ms step_avg:154.70ms
step:792/3200 train_loss:3.8748 train_time:120972ms step_avg:154.70ms
step:793/3200 train_loss:3.8819 train_time:121123ms step_avg:154.69ms
step:794/3200 train_loss:3.5925 train_time:121278ms step_avg:154.69ms
step:795/3200 train_loss:3.7129 train_time:121428ms step_avg:154.69ms
step:796/3200 train_loss:3.7740 train_time:121581ms step_avg:154.68ms
step:797/3200 train_loss:3.8695 train_time:121734ms step_avg:154.68ms
step:798/3200 train_loss:3.6322 train_time:121886ms step_avg:154.68ms
step:799/3200 train_loss:3.7722 train_time:122040ms step_avg:154.68ms
step:800/3200 train_loss:3.6622 train_time:122191ms step_avg:154.67ms
step:801/3200 train_loss:3.6453 train_time:122345ms step_avg:154.67ms
step:802/3200 train_loss:3.7399 train_time:122499ms step_avg:154.67ms
step:803/3200 train_loss:3.6071 train_time:122653ms step_avg:154.67ms
step:804/3200 train_loss:3.6302 train_time:122806ms step_avg:154.67ms
step:805/3200 train_loss:3.7480 train_time:122961ms step_avg:154.67ms
step:806/3200 train_loss:3.6427 train_time:123112ms step_avg:154.66ms
step:807/3200 train_loss:3.6633 train_time:123265ms step_avg:154.66ms
step:808/3200 train_loss:3.7572 train_time:123419ms step_avg:154.66ms
step:809/3200 train_loss:3.6748 train_time:123572ms step_avg:154.66ms
step:810/3200 train_loss:3.5996 train_time:123724ms step_avg:154.65ms
step:811/3200 train_loss:3.6779 train_time:123878ms step_avg:154.65ms
step:812/3200 train_loss:3.7092 train_time:124031ms step_avg:154.65ms
step:813/3200 train_loss:3.7121 train_time:124183ms step_avg:154.65ms
step:814/3200 train_loss:3.7463 train_time:124336ms step_avg:154.65ms
step:815/3200 train_loss:3.6871 train_time:124489ms step_avg:154.65ms
step:816/3200 train_loss:3.6699 train_time:124643ms step_avg:154.64ms
step:817/3200 train_loss:3.7840 train_time:124798ms step_avg:154.64ms
step:818/3200 train_loss:3.8759 train_time:124951ms step_avg:154.64ms
step:819/3200 train_loss:3.6328 train_time:125104ms step_avg:154.64ms
step:820/3200 train_loss:3.8323 train_time:125258ms step_avg:154.64ms
step:821/3200 train_loss:3.6182 train_time:125410ms step_avg:154.64ms
step:822/3200 train_loss:3.6633 train_time:125563ms step_avg:154.63ms
step:823/3200 train_loss:3.7866 train_time:125718ms step_avg:154.63ms
step:824/3200 train_loss:3.6931 train_time:125871ms step_avg:154.63ms
step:825/3200 train_loss:3.6321 train_time:126023ms step_avg:154.63ms
step:826/3200 train_loss:3.7304 train_time:126176ms step_avg:154.63ms
step:827/3200 train_loss:3.6176 train_time:126328ms step_avg:154.62ms
step:828/3200 train_loss:3.8433 train_time:126482ms step_avg:154.62ms
step:829/3200 train_loss:3.7280 train_time:126636ms step_avg:154.62ms
step:830/3200 train_loss:3.7789 train_time:126788ms step_avg:154.62ms
step:831/3200 train_loss:3.6511 train_time:126941ms step_avg:154.62ms
step:832/3200 train_loss:3.7018 train_time:127093ms step_avg:154.61ms
step:833/3200 train_loss:3.6272 train_time:127245ms step_avg:154.61ms
step:834/3200 train_loss:3.7569 train_time:127399ms step_avg:154.61ms
step:835/3200 train_loss:3.5867 train_time:127553ms step_avg:154.61ms
step:836/3200 train_loss:3.5727 train_time:127705ms step_avg:154.61ms
step:837/3200 train_loss:3.8250 train_time:127859ms step_avg:154.61ms
step:838/3200 train_loss:3.5230 train_time:128012ms step_avg:154.60ms
step:839/3200 train_loss:3.7020 train_time:128164ms step_avg:154.60ms
step:840/3200 train_loss:3.5403 train_time:128319ms step_avg:154.60ms
step:841/3200 train_loss:3.5854 train_time:128473ms step_avg:154.60ms
step:842/3200 train_loss:3.6711 train_time:128623ms step_avg:154.60ms
step:843/3200 train_loss:3.6975 train_time:128779ms step_avg:154.60ms
step:844/3200 train_loss:3.6922 train_time:128931ms step_avg:154.59ms
step:845/3200 train_loss:3.5462 train_time:129083ms step_avg:154.59ms
step:846/3200 train_loss:3.7811 train_time:129237ms step_avg:154.59ms
step:847/3200 train_loss:3.6445 train_time:129389ms step_avg:154.59ms
step:848/3200 train_loss:3.6090 train_time:129544ms step_avg:154.59ms
step:849/3200 train_loss:3.7403 train_time:129697ms step_avg:154.59ms
step:850/3200 train_loss:3.6098 train_time:129850ms step_avg:154.58ms
step:851/3200 train_loss:3.5612 train_time:130003ms step_avg:154.58ms
step:852/3200 train_loss:3.8494 train_time:130156ms step_avg:154.58ms
step:853/3200 train_loss:3.5660 train_time:130307ms step_avg:154.57ms
step:854/3200 train_loss:3.6756 train_time:130461ms step_avg:154.58ms
step:855/3200 train_loss:3.7603 train_time:130616ms step_avg:154.58ms
step:856/3200 train_loss:3.6385 train_time:130768ms step_avg:154.57ms
step:857/3200 train_loss:3.6614 train_time:130921ms step_avg:154.57ms
step:858/3200 train_loss:3.7162 train_time:131073ms step_avg:154.57ms
step:859/3200 train_loss:3.5995 train_time:131225ms step_avg:154.56ms
step:860/3200 train_loss:3.6717 train_time:131380ms step_avg:154.56ms
step:861/3200 train_loss:3.7084 train_time:131532ms step_avg:154.56ms
step:862/3200 train_loss:3.7492 train_time:131685ms step_avg:154.56ms
step:863/3200 train_loss:3.7105 train_time:131839ms step_avg:154.56ms
step:864/3200 train_loss:3.6846 train_time:131990ms step_avg:154.56ms
step:865/3200 train_loss:3.5060 train_time:132143ms step_avg:154.55ms
step:866/3200 train_loss:3.7057 train_time:132300ms step_avg:154.56ms
step:867/3200 train_loss:3.9805 train_time:132453ms step_avg:154.55ms
step:868/3200 train_loss:3.5641 train_time:132605ms step_avg:154.55ms
step:869/3200 train_loss:3.7480 train_time:132758ms step_avg:154.55ms
step:870/3200 train_loss:3.7237 train_time:132910ms step_avg:154.55ms
step:871/3200 train_loss:3.5638 train_time:133063ms step_avg:154.54ms
step:872/3200 train_loss:3.5395 train_time:133219ms step_avg:154.55ms
step:873/3200 train_loss:3.7743 train_time:133373ms step_avg:154.55ms
step:874/3200 train_loss:3.5641 train_time:133524ms step_avg:154.54ms
step:875/3200 train_loss:3.3067 train_time:133679ms step_avg:154.54ms
step:875/3200 val_loss:3.6397 train_time:133725ms step_avg:154.60ms
step:876/3200 train_loss:3.7580 train_time:133836ms step_avg:154.54ms
step:877/3200 train_loss:3.5604 train_time:133989ms step_avg:154.54ms
step:878/3200 train_loss:3.7385 train_time:134140ms step_avg:154.54ms
step:879/3200 train_loss:3.5961 train_time:134291ms step_avg:154.53ms
step:880/3200 train_loss:3.7719 train_time:134442ms step_avg:154.53ms
step:881/3200 train_loss:3.4359 train_time:134593ms step_avg:154.53ms
step:882/3200 train_loss:3.6048 train_time:134749ms step_avg:154.53ms
step:883/3200 train_loss:3.8023 train_time:134907ms step_avg:154.53ms
step:884/3200 train_loss:3.9618 train_time:135062ms step_avg:154.53ms
step:885/3200 train_loss:3.6811 train_time:135213ms step_avg:154.53ms
step:886/3200 train_loss:3.5989 train_time:135364ms step_avg:154.52ms
step:887/3200 train_loss:3.6851 train_time:135515ms step_avg:154.52ms
step:888/3200 train_loss:4.1991 train_time:135667ms step_avg:154.52ms
step:889/3200 train_loss:3.9552 train_time:135823ms step_avg:154.52ms
step:890/3200 train_loss:3.6301 train_time:135976ms step_avg:154.52ms
step:891/3200 train_loss:3.6507 train_time:136128ms step_avg:154.52ms
step:892/3200 train_loss:3.4774 train_time:136282ms step_avg:154.52ms
step:893/3200 train_loss:3.8276 train_time:136435ms step_avg:154.51ms
step:894/3200 train_loss:3.5415 train_time:136587ms step_avg:154.51ms
step:895/3200 train_loss:3.7981 train_time:136741ms step_avg:154.51ms
step:896/3200 train_loss:3.8087 train_time:136895ms step_avg:154.51ms
step:897/3200 train_loss:3.6088 train_time:137049ms step_avg:154.51ms
step:898/3200 train_loss:3.6558 train_time:137203ms step_avg:154.51ms
step:899/3200 train_loss:3.7049 train_time:137355ms step_avg:154.50ms
step:900/3200 train_loss:3.5947 train_time:137506ms step_avg:154.50ms
step:901/3200 train_loss:3.5345 train_time:137661ms step_avg:154.50ms
step:902/3200 train_loss:3.7417 train_time:137813ms step_avg:154.50ms
step:903/3200 train_loss:3.7475 train_time:137966ms step_avg:154.50ms
step:904/3200 train_loss:3.6496 train_time:138120ms step_avg:154.50ms
step:905/3200 train_loss:3.6162 train_time:138272ms step_avg:154.49ms
step:906/3200 train_loss:3.6040 train_time:138426ms step_avg:154.49ms
step:907/3200 train_loss:3.8323 train_time:138580ms step_avg:154.49ms
step:908/3200 train_loss:3.6270 train_time:138734ms step_avg:154.49ms
step:909/3200 train_loss:3.6634 train_time:138886ms step_avg:154.49ms
step:910/3200 train_loss:3.5709 train_time:139040ms step_avg:154.49ms
step:911/3200 train_loss:3.6595 train_time:139192ms step_avg:154.49ms
step:912/3200 train_loss:3.7391 train_time:139345ms step_avg:154.48ms
step:913/3200 train_loss:3.7179 train_time:139497ms step_avg:154.48ms
step:914/3200 train_loss:3.5922 train_time:139650ms step_avg:154.48ms
step:915/3200 train_loss:3.8544 train_time:139804ms step_avg:154.48ms
step:916/3200 train_loss:3.6477 train_time:139956ms step_avg:154.48ms
step:917/3200 train_loss:3.7453 train_time:140108ms step_avg:154.47ms
step:918/3200 train_loss:3.7167 train_time:140263ms step_avg:154.47ms
step:919/3200 train_loss:4.9346 train_time:140415ms step_avg:154.47ms
step:920/3200 train_loss:3.6227 train_time:140567ms step_avg:154.47ms
step:921/3200 train_loss:3.6864 train_time:140721ms step_avg:154.47ms
step:922/3200 train_loss:3.6500 train_time:140874ms step_avg:154.47ms
step:923/3200 train_loss:3.6982 train_time:141026ms step_avg:154.46ms
step:924/3200 train_loss:3.7128 train_time:141181ms step_avg:154.46ms
step:925/3200 train_loss:3.7979 train_time:141333ms step_avg:154.46ms
step:926/3200 train_loss:3.7794 train_time:141487ms step_avg:154.46ms
step:927/3200 train_loss:3.6703 train_time:141642ms step_avg:154.46ms
step:928/3200 train_loss:3.6566 train_time:141794ms step_avg:154.46ms
step:929/3200 train_loss:3.8914 train_time:141947ms step_avg:154.46ms
step:930/3200 train_loss:3.7292 train_time:142101ms step_avg:154.46ms
step:931/3200 train_loss:3.5194 train_time:142254ms step_avg:154.46ms
step:932/3200 train_loss:3.6096 train_time:142406ms step_avg:154.45ms
step:933/3200 train_loss:3.7836 train_time:142561ms step_avg:154.45ms
step:934/3200 train_loss:3.5070 train_time:142714ms step_avg:154.45ms
step:935/3200 train_loss:3.6862 train_time:142867ms step_avg:154.45ms
step:936/3200 train_loss:3.5652 train_time:143021ms step_avg:154.45ms
step:937/3200 train_loss:3.6284 train_time:143173ms step_avg:154.45ms
step:938/3200 train_loss:3.7271 train_time:143326ms step_avg:154.45ms
step:939/3200 train_loss:3.6591 train_time:143480ms step_avg:154.45ms
step:940/3200 train_loss:3.8110 train_time:143633ms step_avg:154.44ms
step:941/3200 train_loss:3.5979 train_time:143785ms step_avg:154.44ms
step:942/3200 train_loss:3.6623 train_time:143940ms step_avg:154.44ms
step:943/3200 train_loss:3.4667 train_time:144092ms step_avg:154.44ms
step:944/3200 train_loss:3.8184 train_time:144245ms step_avg:154.44ms
step:945/3200 train_loss:3.5240 train_time:144544ms step_avg:154.59ms
step:946/3200 train_loss:3.5423 train_time:144706ms step_avg:154.60ms
step:947/3200 train_loss:5.1795 train_time:144858ms step_avg:154.60ms
step:948/3200 train_loss:3.7195 train_time:145009ms step_avg:154.59ms
step:949/3200 train_loss:3.6082 train_time:145161ms step_avg:154.59ms
step:950/3200 train_loss:3.5064 train_time:145473ms step_avg:154.76ms
step:951/3200 train_loss:3.5682 train_time:145624ms step_avg:154.75ms
step:952/3200 train_loss:3.5184 train_time:145775ms step_avg:154.75ms
step:953/3200 train_loss:3.5905 train_time:145926ms step_avg:154.75ms
step:954/3200 train_loss:3.6759 train_time:146077ms step_avg:154.74ms
step:955/3200 train_loss:3.5554 train_time:146228ms step_avg:154.74ms
step:956/3200 train_loss:3.5874 train_time:146384ms step_avg:154.74ms
step:957/3200 train_loss:3.5589 train_time:146540ms step_avg:154.74ms
step:958/3200 train_loss:3.6174 train_time:146692ms step_avg:154.74ms
step:959/3200 train_loss:3.6054 train_time:146844ms step_avg:154.74ms
step:960/3200 train_loss:3.6258 train_time:146996ms step_avg:154.73ms
step:961/3200 train_loss:3.5117 train_time:147147ms step_avg:154.73ms
step:962/3200 train_loss:3.7703 train_time:147301ms step_avg:154.73ms
step:963/3200 train_loss:3.7170 train_time:147455ms step_avg:154.73ms
step:964/3200 train_loss:3.5996 train_time:147608ms step_avg:154.73ms
step:965/3200 train_loss:3.5636 train_time:147763ms step_avg:154.73ms
step:966/3200 train_loss:3.5957 train_time:147916ms step_avg:154.72ms
step:967/3200 train_loss:3.8259 train_time:148068ms step_avg:154.72ms
step:968/3200 train_loss:3.6453 train_time:148221ms step_avg:154.72ms
step:969/3200 train_loss:3.6334 train_time:148373ms step_avg:154.72ms
step:970/3200 train_loss:3.6973 train_time:148527ms step_avg:154.72ms
step:971/3200 train_loss:3.5035 train_time:148682ms step_avg:154.72ms
step:972/3200 train_loss:3.6560 train_time:148834ms step_avg:154.71ms
step:973/3200 train_loss:3.6165 train_time:148986ms step_avg:154.71ms
step:974/3200 train_loss:3.6485 train_time:149139ms step_avg:154.71ms
step:975/3200 train_loss:3.7218 train_time:149291ms step_avg:154.71ms
step:976/3200 train_loss:3.5986 train_time:149444ms step_avg:154.70ms
step:977/3200 train_loss:3.7953 train_time:149597ms step_avg:154.70ms
step:978/3200 train_loss:3.6867 train_time:149750ms step_avg:154.70ms
step:979/3200 train_loss:3.5068 train_time:149905ms step_avg:154.70ms
step:980/3200 train_loss:3.8041 train_time:150059ms step_avg:154.70ms
step:981/3200 train_loss:3.5300 train_time:150210ms step_avg:154.70ms
step:982/3200 train_loss:3.6964 train_time:150363ms step_avg:154.69ms
step:983/3200 train_loss:3.6752 train_time:150515ms step_avg:154.69ms
step:984/3200 train_loss:3.6814 train_time:150668ms step_avg:154.69ms
step:985/3200 train_loss:3.6207 train_time:150823ms step_avg:154.69ms
step:986/3200 train_loss:3.7061 train_time:150976ms step_avg:154.69ms
step:987/3200 train_loss:3.5346 train_time:151128ms step_avg:154.69ms
step:988/3200 train_loss:3.6049 train_time:151282ms step_avg:154.69ms
step:989/3200 train_loss:3.6168 train_time:151434ms step_avg:154.68ms
step:990/3200 train_loss:3.5442 train_time:151586ms step_avg:154.68ms
step:991/3200 train_loss:3.7704 train_time:151740ms step_avg:154.68ms
step:992/3200 train_loss:3.5856 train_time:151894ms step_avg:154.68ms
step:993/3200 train_loss:3.5637 train_time:152045ms step_avg:154.67ms
step:994/3200 train_loss:3.6266 train_time:152199ms step_avg:154.67ms
step:995/3200 train_loss:3.7171 train_time:152352ms step_avg:154.67ms
step:996/3200 train_loss:3.6621 train_time:152504ms step_avg:154.67ms
step:997/3200 train_loss:3.5724 train_time:152658ms step_avg:154.67ms
step:998/3200 train_loss:3.9175 train_time:152809ms step_avg:154.67ms
step:999/3200 train_loss:3.5796 train_time:152963ms step_avg:154.66ms
step:1000/3200 train_loss:3.7081 train_time:153116ms step_avg:154.66ms
step:1000/3200 val_loss:3.5994 train_time:153163ms step_avg:154.71ms
step:1001/3200 train_loss:3.5684 train_time:153272ms step_avg:154.66ms
step:1002/3200 train_loss:3.6245 train_time:153427ms step_avg:154.66ms
step:1003/3200 train_loss:3.5033 train_time:153580ms step_avg:154.66ms
step:1004/3200 train_loss:3.6988 train_time:153731ms step_avg:154.66ms
step:1005/3200 train_loss:3.7421 train_time:153882ms step_avg:154.66ms
step:1006/3200 train_loss:3.5142 train_time:154035ms step_avg:154.65ms
step:1007/3200 train_loss:3.6035 train_time:154189ms step_avg:154.65ms
step:1008/3200 train_loss:3.5646 train_time:154345ms step_avg:154.65ms
step:1009/3200 train_loss:3.6918 train_time:154498ms step_avg:154.65ms
step:1010/3200 train_loss:3.7838 train_time:154650ms step_avg:154.65ms
step:1011/3200 train_loss:3.6872 train_time:154802ms step_avg:154.65ms
step:1012/3200 train_loss:3.6476 train_time:154954ms step_avg:154.64ms
step:1013/3200 train_loss:3.5124 train_time:155106ms step_avg:154.64ms
step:1014/3200 train_loss:3.6502 train_time:155262ms step_avg:154.64ms
step:1015/3200 train_loss:3.7585 train_time:155415ms step_avg:154.64ms
step:1016/3200 train_loss:3.4737 train_time:155568ms step_avg:154.64ms
step:1017/3200 train_loss:3.5642 train_time:155722ms step_avg:154.64ms
step:1018/3200 train_loss:3.5545 train_time:155873ms step_avg:154.64ms
step:1019/3200 train_loss:3.5134 train_time:156025ms step_avg:154.63ms
step:1020/3200 train_loss:3.6555 train_time:156179ms step_avg:154.63ms
step:1021/3200 train_loss:3.5563 train_time:156331ms step_avg:154.63ms
step:1022/3200 train_loss:3.4929 train_time:156485ms step_avg:154.63ms
step:1023/3200 train_loss:3.6049 train_time:156639ms step_avg:154.63ms
step:1024/3200 train_loss:3.6365 train_time:156791ms step_avg:154.63ms
step:1025/3200 train_loss:3.6128 train_time:156943ms step_avg:154.62ms
step:1026/3200 train_loss:3.6131 train_time:157095ms step_avg:154.62ms
step:1027/3200 train_loss:3.7776 train_time:157248ms step_avg:154.62ms
step:1028/3200 train_loss:3.4570 train_time:157402ms step_avg:154.62ms
step:1029/3200 train_loss:3.5276 train_time:157555ms step_avg:154.62ms
step:1030/3200 train_loss:3.4808 train_time:157708ms step_avg:154.62ms
step:1031/3200 train_loss:3.6530 train_time:157862ms step_avg:154.62ms
step:1032/3200 train_loss:3.6322 train_time:158015ms step_avg:154.61ms
step:1033/3200 train_loss:3.8118 train_time:158168ms step_avg:154.61ms
step:1034/3200 train_loss:3.6281 train_time:158322ms step_avg:154.61ms
step:1035/3200 train_loss:3.5465 train_time:158474ms step_avg:154.61ms
step:1036/3200 train_loss:3.5678 train_time:158627ms step_avg:154.61ms
step:1037/3200 train_loss:3.6254 train_time:158782ms step_avg:154.61ms
step:1038/3200 train_loss:3.9376 train_time:158934ms step_avg:154.61ms
step:1039/3200 train_loss:3.7519 train_time:159086ms step_avg:154.60ms
step:1040/3200 train_loss:3.6477 train_time:159241ms step_avg:154.60ms
step:1041/3200 train_loss:3.5436 train_time:159392ms step_avg:154.60ms
step:1042/3200 train_loss:3.6178 train_time:159543ms step_avg:154.60ms
step:1043/3200 train_loss:3.6507 train_time:159696ms step_avg:154.59ms
step:1044/3200 train_loss:3.5829 train_time:159849ms step_avg:154.59ms
step:1045/3200 train_loss:3.5889 train_time:160003ms step_avg:154.59ms
step:1046/3200 train_loss:3.6667 train_time:160155ms step_avg:154.59ms
step:1047/3200 train_loss:3.5701 train_time:160308ms step_avg:154.59ms
step:1048/3200 train_loss:3.7772 train_time:160463ms step_avg:154.59ms
step:1049/3200 train_loss:3.6300 train_time:160616ms step_avg:154.59ms
step:1050/3200 train_loss:3.5537 train_time:160770ms step_avg:154.59ms
step:1051/3200 train_loss:3.5218 train_time:160923ms step_avg:154.59ms
step:1052/3200 train_loss:3.6451 train_time:161076ms step_avg:154.58ms
step:1053/3200 train_loss:3.5192 train_time:161229ms step_avg:154.58ms
step:1054/3200 train_loss:3.8428 train_time:161383ms step_avg:154.58ms
step:1055/3200 train_loss:3.6746 train_time:161536ms step_avg:154.58ms
step:1056/3200 train_loss:3.5365 train_time:161687ms step_avg:154.58ms
step:1057/3200 train_loss:3.6439 train_time:161842ms step_avg:154.58ms
step:1058/3200 train_loss:3.7136 train_time:161994ms step_avg:154.57ms
step:1059/3200 train_loss:3.4373 train_time:162147ms step_avg:154.57ms
step:1060/3200 train_loss:3.5555 train_time:162301ms step_avg:154.57ms
step:1061/3200 train_loss:3.5897 train_time:162454ms step_avg:154.57ms
step:1062/3200 train_loss:3.5509 train_time:162606ms step_avg:154.57ms
step:1063/3200 train_loss:3.5260 train_time:162760ms step_avg:154.57ms
step:1064/3200 train_loss:3.6238 train_time:162913ms step_avg:154.57ms
step:1065/3200 train_loss:3.5243 train_time:163065ms step_avg:154.56ms
step:1066/3200 train_loss:3.5156 train_time:163221ms step_avg:154.57ms
step:1067/3200 train_loss:3.5401 train_time:163373ms step_avg:154.56ms
step:1068/3200 train_loss:3.4499 train_time:163526ms step_avg:154.56ms
step:1069/3200 train_loss:3.5635 train_time:163679ms step_avg:154.56ms
step:1070/3200 train_loss:3.4417 train_time:163832ms step_avg:154.56ms
step:1071/3200 train_loss:3.6972 train_time:163985ms step_avg:154.56ms
step:1072/3200 train_loss:3.6422 train_time:164139ms step_avg:154.56ms
step:1073/3200 train_loss:3.5920 train_time:164291ms step_avg:154.55ms
step:1074/3200 train_loss:3.6583 train_time:164444ms step_avg:154.55ms
step:1075/3200 train_loss:3.5979 train_time:164596ms step_avg:154.55ms
step:1076/3200 train_loss:3.5387 train_time:164748ms step_avg:154.55ms
step:1077/3200 train_loss:3.9373 train_time:164903ms step_avg:154.55ms
step:1078/3200 train_loss:3.5998 train_time:165055ms step_avg:154.55ms
step:1079/3200 train_loss:3.2922 train_time:165208ms step_avg:154.54ms
step:1080/3200 train_loss:3.6727 train_time:165362ms step_avg:154.54ms
step:1081/3200 train_loss:3.5868 train_time:165516ms step_avg:154.54ms
step:1082/3200 train_loss:3.6509 train_time:165669ms step_avg:154.54ms
step:1083/3200 train_loss:3.7475 train_time:165823ms step_avg:154.54ms
step:1084/3200 train_loss:3.6490 train_time:165976ms step_avg:154.54ms
step:1085/3200 train_loss:3.6187 train_time:166128ms step_avg:154.54ms
step:1086/3200 train_loss:3.5841 train_time:166283ms step_avg:154.54ms
step:1087/3200 train_loss:3.7740 train_time:166436ms step_avg:154.54ms
step:1088/3200 train_loss:3.6659 train_time:166588ms step_avg:154.53ms
step:1089/3200 train_loss:3.5027 train_time:166743ms step_avg:154.53ms
step:1090/3200 train_loss:3.5291 train_time:166896ms step_avg:154.53ms
step:1091/3200 train_loss:3.6357 train_time:167048ms step_avg:154.53ms
step:1092/3200 train_loss:3.4374 train_time:167202ms step_avg:154.53ms
step:1093/3200 train_loss:3.6376 train_time:167354ms step_avg:154.53ms
step:1094/3200 train_loss:3.7662 train_time:167508ms step_avg:154.53ms
step:1095/3200 train_loss:3.6032 train_time:167662ms step_avg:154.53ms
step:1096/3200 train_loss:3.5608 train_time:167815ms step_avg:154.53ms
step:1097/3200 train_loss:3.5802 train_time:167968ms step_avg:154.52ms
step:1098/3200 train_loss:3.6308 train_time:168121ms step_avg:154.52ms
step:1099/3200 train_loss:3.7063 train_time:168275ms step_avg:154.52ms
step:1100/3200 train_loss:3.6599 train_time:168428ms step_avg:154.52ms
step:1101/3200 train_loss:3.5913 train_time:168582ms step_avg:154.52ms
step:1102/3200 train_loss:3.4442 train_time:168735ms step_avg:154.52ms
step:1103/3200 train_loss:3.5144 train_time:168887ms step_avg:154.52ms
step:1104/3200 train_loss:3.5987 train_time:169042ms step_avg:154.52ms
step:1105/3200 train_loss:3.4745 train_time:169194ms step_avg:154.51ms
step:1106/3200 train_loss:4.2338 train_time:169347ms step_avg:154.51ms
step:1107/3200 train_loss:3.3787 train_time:169501ms step_avg:154.51ms
step:1108/3200 train_loss:3.7185 train_time:169654ms step_avg:154.51ms
step:1109/3200 train_loss:3.5041 train_time:169807ms step_avg:154.51ms
step:1110/3200 train_loss:3.6548 train_time:169961ms step_avg:154.51ms
step:1111/3200 train_loss:3.5802 train_time:170113ms step_avg:154.51ms
step:1112/3200 train_loss:3.6270 train_time:170266ms step_avg:154.51ms
step:1113/3200 train_loss:3.7164 train_time:170420ms step_avg:154.51ms
step:1114/3200 train_loss:3.5783 train_time:170573ms step_avg:154.50ms
step:1115/3200 train_loss:3.5175 train_time:170727ms step_avg:154.50ms
step:1116/3200 train_loss:3.4118 train_time:170881ms step_avg:154.50ms
step:1117/3200 train_loss:3.5938 train_time:171034ms step_avg:154.50ms
step:1118/3200 train_loss:3.7415 train_time:171186ms step_avg:154.50ms
step:1119/3200 train_loss:3.7749 train_time:171341ms step_avg:154.50ms
step:1120/3200 train_loss:3.6130 train_time:171493ms step_avg:154.50ms
step:1121/3200 train_loss:3.6433 train_time:171646ms step_avg:154.50ms
step:1122/3200 train_loss:3.5460 train_time:171801ms step_avg:154.50ms
step:1123/3200 train_loss:3.6041 train_time:171955ms step_avg:154.50ms
step:1124/3200 train_loss:3.7440 train_time:172108ms step_avg:154.50ms
step:1125/3200 train_loss:3.5115 train_time:172261ms step_avg:154.49ms
step:1125/3200 val_loss:3.5714 train_time:172308ms step_avg:154.54ms
step:1126/3200 train_loss:3.3996 train_time:172418ms step_avg:154.50ms
step:1127/3200 train_loss:3.6323 train_time:172571ms step_avg:154.50ms
step:1128/3200 train_loss:3.8522 train_time:172724ms step_avg:154.49ms
step:1129/3200 train_loss:3.3898 train_time:172875ms step_avg:154.49ms
step:1130/3200 train_loss:3.7080 train_time:173026ms step_avg:154.49ms
step:1131/3200 train_loss:3.5366 train_time:173177ms step_avg:154.48ms
step:1132/3200 train_loss:3.5730 train_time:173333ms step_avg:154.49ms
step:1133/3200 train_loss:3.5260 train_time:173488ms step_avg:154.49ms
step:1134/3200 train_loss:3.6825 train_time:173795ms step_avg:154.62ms
step:1135/3200 train_loss:3.6204 train_time:173956ms step_avg:154.63ms
step:1136/3200 train_loss:3.6674 train_time:174108ms step_avg:154.63ms
step:1137/3200 train_loss:3.7102 train_time:174258ms step_avg:154.62ms
step:1138/3200 train_loss:3.6157 train_time:174410ms step_avg:154.62ms
step:1139/3200 train_loss:3.5074 train_time:174560ms step_avg:154.61ms
step:1140/3200 train_loss:3.8229 train_time:174875ms step_avg:154.76ms
step:1141/3200 train_loss:3.6271 train_time:175027ms step_avg:154.75ms
step:1142/3200 train_loss:3.7321 train_time:175177ms step_avg:154.75ms
step:1143/3200 train_loss:3.6069 train_time:175329ms step_avg:154.75ms
step:1144/3200 train_loss:3.5209 train_time:175479ms step_avg:154.74ms
step:1145/3200 train_loss:3.6199 train_time:175629ms step_avg:154.74ms
step:1146/3200 train_loss:3.7474 train_time:175784ms step_avg:154.74ms
step:1147/3200 train_loss:3.7208 train_time:175942ms step_avg:154.74ms
step:1148/3200 train_loss:3.6461 train_time:176094ms step_avg:154.74ms
step:1149/3200 train_loss:3.6573 train_time:176246ms step_avg:154.74ms
step:1150/3200 train_loss:3.5130 train_time:176398ms step_avg:154.73ms
step:1151/3200 train_loss:3.5309 train_time:176549ms step_avg:154.73ms
step:1152/3200 train_loss:3.4971 train_time:176702ms step_avg:154.73ms
step:1153/3200 train_loss:3.6329 train_time:176855ms step_avg:154.73ms
step:1154/3200 train_loss:3.6091 train_time:177011ms step_avg:154.73ms
step:1155/3200 train_loss:3.6763 train_time:177166ms step_avg:154.73ms
step:1156/3200 train_loss:3.5218 train_time:177319ms step_avg:154.73ms
step:1157/3200 train_loss:3.6946 train_time:177470ms step_avg:154.73ms
step:1158/3200 train_loss:3.6504 train_time:177623ms step_avg:154.72ms
step:1159/3200 train_loss:3.4587 train_time:177776ms step_avg:154.72ms
step:1160/3200 train_loss:3.5025 train_time:177929ms step_avg:154.72ms
step:1161/3200 train_loss:3.4915 train_time:178082ms step_avg:154.72ms
step:1162/3200 train_loss:3.3015 train_time:178235ms step_avg:154.72ms
step:1163/3200 train_loss:3.5978 train_time:178388ms step_avg:154.72ms
step:1164/3200 train_loss:3.5705 train_time:178541ms step_avg:154.71ms
step:1165/3200 train_loss:3.4399 train_time:178693ms step_avg:154.71ms
step:1166/3200 train_loss:3.4305 train_time:178847ms step_avg:154.71ms
step:1167/3200 train_loss:3.5400 train_time:179000ms step_avg:154.71ms
step:1168/3200 train_loss:3.5547 train_time:179155ms step_avg:154.71ms
step:1169/3200 train_loss:3.8691 train_time:179307ms step_avg:154.71ms
step:1170/3200 train_loss:3.5502 train_time:179461ms step_avg:154.71ms
step:1171/3200 train_loss:3.5651 train_time:179614ms step_avg:154.71ms
step:1172/3200 train_loss:3.4825 train_time:179768ms step_avg:154.71ms
step:1173/3200 train_loss:3.5727 train_time:179922ms step_avg:154.70ms
step:1174/3200 train_loss:3.7044 train_time:180073ms step_avg:154.70ms
step:1175/3200 train_loss:3.5452 train_time:180228ms step_avg:154.70ms
step:1176/3200 train_loss:3.5652 train_time:180379ms step_avg:154.70ms
step:1177/3200 train_loss:3.6140 train_time:180532ms step_avg:154.70ms
step:1178/3200 train_loss:3.6024 train_time:180686ms step_avg:154.70ms
step:1179/3200 train_loss:3.6570 train_time:180838ms step_avg:154.69ms
step:1180/3200 train_loss:3.5654 train_time:180992ms step_avg:154.69ms
step:1181/3200 train_loss:3.5600 train_time:181146ms step_avg:154.69ms
step:1182/3200 train_loss:3.5122 train_time:181298ms step_avg:154.69ms
step:1183/3200 train_loss:3.5640 train_time:181451ms step_avg:154.69ms
step:1184/3200 train_loss:3.4947 train_time:181605ms step_avg:154.69ms
step:1185/3200 train_loss:3.6665 train_time:181758ms step_avg:154.69ms
step:1186/3200 train_loss:3.7231 train_time:181910ms step_avg:154.69ms
step:1187/3200 train_loss:3.5262 train_time:182065ms step_avg:154.69ms
step:1188/3200 train_loss:3.5863 train_time:182218ms step_avg:154.68ms
step:1189/3200 train_loss:3.5985 train_time:182371ms step_avg:154.68ms
step:1190/3200 train_loss:3.4439 train_time:182526ms step_avg:154.68ms
step:1191/3200 train_loss:3.6124 train_time:182678ms step_avg:154.68ms
step:1192/3200 train_loss:3.7701 train_time:182831ms step_avg:154.68ms
step:1193/3200 train_loss:3.5589 train_time:182984ms step_avg:154.68ms
step:1194/3200 train_loss:3.4478 train_time:183137ms step_avg:154.68ms
step:1195/3200 train_loss:3.7329 train_time:183291ms step_avg:154.68ms
step:1196/3200 train_loss:3.5424 train_time:183445ms step_avg:154.68ms
step:1197/3200 train_loss:3.5483 train_time:183598ms step_avg:154.67ms
step:1198/3200 train_loss:3.4540 train_time:183750ms step_avg:154.67ms
step:1199/3200 train_loss:3.4612 train_time:183904ms step_avg:154.67ms
step:1200/3200 train_loss:3.5107 train_time:184057ms step_avg:154.67ms
step:1201/3200 train_loss:3.6012 train_time:184210ms step_avg:154.67ms
step:1202/3200 train_loss:3.6725 train_time:184364ms step_avg:154.67ms
step:1203/3200 train_loss:3.7308 train_time:184516ms step_avg:154.67ms
step:1204/3200 train_loss:3.5816 train_time:184669ms step_avg:154.66ms
step:1205/3200 train_loss:3.5020 train_time:184822ms step_avg:154.66ms
step:1206/3200 train_loss:3.5963 train_time:184973ms step_avg:154.66ms
step:1207/3200 train_loss:3.6404 train_time:185128ms step_avg:154.66ms
step:1208/3200 train_loss:3.6901 train_time:185279ms step_avg:154.66ms
step:1209/3200 train_loss:3.5751 train_time:185433ms step_avg:154.66ms
step:1210/3200 train_loss:3.4313 train_time:185588ms step_avg:154.66ms
step:1211/3200 train_loss:3.4756 train_time:185740ms step_avg:154.65ms
step:1212/3200 train_loss:3.5713 train_time:185893ms step_avg:154.65ms
step:1213/3200 train_loss:3.5845 train_time:186047ms step_avg:154.65ms
step:1214/3200 train_loss:3.6196 train_time:186199ms step_avg:154.65ms
step:1215/3200 train_loss:3.4991 train_time:186352ms step_avg:154.65ms
step:1216/3200 train_loss:3.5653 train_time:186507ms step_avg:154.65ms
step:1217/3200 train_loss:3.5142 train_time:186660ms step_avg:154.65ms
step:1218/3200 train_loss:3.5031 train_time:186813ms step_avg:154.65ms
step:1219/3200 train_loss:3.6038 train_time:186967ms step_avg:154.65ms
step:1220/3200 train_loss:3.4485 train_time:187120ms step_avg:154.65ms
step:1221/3200 train_loss:3.6692 train_time:187272ms step_avg:154.64ms
step:1222/3200 train_loss:3.6887 train_time:187426ms step_avg:154.64ms
step:1223/3200 train_loss:3.6151 train_time:187577ms step_avg:154.64ms
step:1224/3200 train_loss:3.4666 train_time:187731ms step_avg:154.64ms
step:1225/3200 train_loss:3.4567 train_time:187885ms step_avg:154.64ms
step:1226/3200 train_loss:3.5425 train_time:188038ms step_avg:154.64ms
step:1227/3200 train_loss:3.5263 train_time:188190ms step_avg:154.63ms
step:1228/3200 train_loss:3.4664 train_time:188345ms step_avg:154.63ms
step:1229/3200 train_loss:3.6304 train_time:188498ms step_avg:154.63ms
step:1230/3200 train_loss:3.5539 train_time:188651ms step_avg:154.63ms
step:1231/3200 train_loss:3.6068 train_time:188805ms step_avg:154.63ms
step:1232/3200 train_loss:3.7651 train_time:188958ms step_avg:154.63ms
step:1233/3200 train_loss:3.6658 train_time:189111ms step_avg:154.63ms
step:1234/3200 train_loss:3.6089 train_time:189265ms step_avg:154.63ms
step:1235/3200 train_loss:3.7546 train_time:189418ms step_avg:154.63ms
step:1236/3200 train_loss:3.5198 train_time:189571ms step_avg:154.63ms
step:1237/3200 train_loss:3.4813 train_time:189727ms step_avg:154.63ms
step:1238/3200 train_loss:3.4367 train_time:189879ms step_avg:154.62ms
step:1239/3200 train_loss:3.5052 train_time:190031ms step_avg:154.62ms
step:1240/3200 train_loss:3.5170 train_time:190185ms step_avg:154.62ms
step:1241/3200 train_loss:3.5632 train_time:190337ms step_avg:154.62ms
step:1242/3200 train_loss:3.6109 train_time:190491ms step_avg:154.62ms
step:1243/3200 train_loss:3.4865 train_time:190644ms step_avg:154.62ms
step:1244/3200 train_loss:3.5772 train_time:190798ms step_avg:154.62ms
step:1245/3200 train_loss:3.6001 train_time:190951ms step_avg:154.62ms
step:1246/3200 train_loss:3.5988 train_time:191105ms step_avg:154.62ms
step:1247/3200 train_loss:3.4313 train_time:191258ms step_avg:154.61ms
step:1248/3200 train_loss:3.5615 train_time:191411ms step_avg:154.61ms
step:1249/3200 train_loss:3.6210 train_time:191563ms step_avg:154.61ms
step:1250/3200 train_loss:3.5931 train_time:191717ms step_avg:154.61ms
step:1250/3200 val_loss:3.5449 train_time:191764ms step_avg:154.65ms
step:1251/3200 train_loss:3.4855 train_time:191877ms step_avg:154.61ms
step:1252/3200 train_loss:3.6909 train_time:192030ms step_avg:154.61ms
step:1253/3200 train_loss:3.5639 train_time:192180ms step_avg:154.61ms
step:1254/3200 train_loss:3.4975 train_time:192331ms step_avg:154.61ms
step:1255/3200 train_loss:3.6251 train_time:192483ms step_avg:154.60ms
step:1256/3200 train_loss:3.6968 train_time:192634ms step_avg:154.60ms
step:1257/3200 train_loss:3.5014 train_time:192792ms step_avg:154.60ms
step:1258/3200 train_loss:3.5414 train_time:192946ms step_avg:154.60ms
step:1259/3200 train_loss:3.5635 train_time:193098ms step_avg:154.60ms
step:1260/3200 train_loss:3.5217 train_time:193250ms step_avg:154.60ms
step:1261/3200 train_loss:3.3851 train_time:193402ms step_avg:154.60ms
step:1262/3200 train_loss:3.4936 train_time:193553ms step_avg:154.59ms
step:1263/3200 train_loss:3.5555 train_time:193708ms step_avg:154.60ms
step:1264/3200 train_loss:3.4067 train_time:193861ms step_avg:154.59ms
step:1265/3200 train_loss:3.6203 train_time:194015ms step_avg:154.59ms
step:1266/3200 train_loss:3.6114 train_time:194169ms step_avg:154.59ms
step:1267/3200 train_loss:3.6178 train_time:194322ms step_avg:154.59ms
step:1268/3200 train_loss:3.5549 train_time:194473ms step_avg:154.59ms
step:1269/3200 train_loss:3.5891 train_time:194628ms step_avg:154.59ms
step:1270/3200 train_loss:3.4520 train_time:194780ms step_avg:154.59ms
step:1271/3200 train_loss:3.2990 train_time:194934ms step_avg:154.59ms
step:1272/3200 train_loss:3.5781 train_time:195089ms step_avg:154.59ms
step:1273/3200 train_loss:3.5359 train_time:195240ms step_avg:154.58ms
step:1274/3200 train_loss:3.5945 train_time:195393ms step_avg:154.58ms
step:1275/3200 train_loss:3.5418 train_time:195548ms step_avg:154.58ms
step:1276/3200 train_loss:3.6293 train_time:195701ms step_avg:154.58ms
step:1277/3200 train_loss:3.6500 train_time:195853ms step_avg:154.58ms
step:1278/3200 train_loss:3.6142 train_time:196008ms step_avg:154.58ms
step:1279/3200 train_loss:3.6079 train_time:196160ms step_avg:154.58ms
step:1280/3200 train_loss:3.4408 train_time:196313ms step_avg:154.58ms
step:1281/3200 train_loss:3.5572 train_time:196468ms step_avg:154.58ms
step:1282/3200 train_loss:3.6192 train_time:196619ms step_avg:154.57ms
step:1283/3200 train_loss:3.6548 train_time:196773ms step_avg:154.57ms
step:1284/3200 train_loss:3.5381 train_time:196927ms step_avg:154.57ms
step:1285/3200 train_loss:3.5632 train_time:197079ms step_avg:154.57ms
step:1286/3200 train_loss:3.5475 train_time:197233ms step_avg:154.57ms
step:1287/3200 train_loss:3.5272 train_time:197388ms step_avg:154.57ms
step:1288/3200 train_loss:3.6617 train_time:197541ms step_avg:154.57ms
step:1289/3200 train_loss:3.4963 train_time:197693ms step_avg:154.57ms
step:1290/3200 train_loss:3.5788 train_time:197848ms step_avg:154.57ms
step:1291/3200 train_loss:3.6534 train_time:198001ms step_avg:154.57ms
step:1292/3200 train_loss:3.5762 train_time:198153ms step_avg:154.57ms
step:1293/3200 train_loss:3.6730 train_time:198308ms step_avg:154.57ms
step:1294/3200 train_loss:3.6948 train_time:198459ms step_avg:154.56ms
step:1295/3200 train_loss:3.6613 train_time:198612ms step_avg:154.56ms
step:1296/3200 train_loss:3.4797 train_time:198766ms step_avg:154.56ms
step:1297/3200 train_loss:3.5483 train_time:198918ms step_avg:154.56ms
step:1298/3200 train_loss:3.4511 train_time:199072ms step_avg:154.56ms
step:1299/3200 train_loss:3.5167 train_time:199225ms step_avg:154.56ms
step:1300/3200 train_loss:3.5943 train_time:199376ms step_avg:154.56ms
step:1301/3200 train_loss:3.5944 train_time:199530ms step_avg:154.55ms
step:1302/3200 train_loss:3.5959 train_time:199684ms step_avg:154.55ms
step:1303/3200 train_loss:3.7577 train_time:199836ms step_avg:154.55ms
step:1304/3200 train_loss:3.5240 train_time:199989ms step_avg:154.55ms
step:1305/3200 train_loss:3.7246 train_time:200143ms step_avg:154.55ms
step:1306/3200 train_loss:3.4589 train_time:200295ms step_avg:154.55ms
step:1307/3200 train_loss:3.6491 train_time:200449ms step_avg:154.55ms
step:1308/3200 train_loss:3.6517 train_time:200602ms step_avg:154.55ms
step:1309/3200 train_loss:3.5131 train_time:200754ms step_avg:154.55ms
step:1310/3200 train_loss:3.4905 train_time:200909ms step_avg:154.55ms
step:1311/3200 train_loss:3.5151 train_time:201061ms step_avg:154.54ms
step:1312/3200 train_loss:3.4858 train_time:201214ms step_avg:154.54ms
step:1313/3200 train_loss:3.5963 train_time:201368ms step_avg:154.54ms
step:1314/3200 train_loss:3.5415 train_time:201520ms step_avg:154.54ms
step:1315/3200 train_loss:3.2609 train_time:201673ms step_avg:154.54ms
step:1316/3200 train_loss:3.4884 train_time:201826ms step_avg:154.54ms
step:1317/3200 train_loss:3.5699 train_time:201979ms step_avg:154.54ms
step:1318/3200 train_loss:3.6039 train_time:202133ms step_avg:154.54ms
step:1319/3200 train_loss:3.4804 train_time:202286ms step_avg:154.54ms
step:1320/3200 train_loss:3.6156 train_time:202438ms step_avg:154.53ms
step:1321/3200 train_loss:3.6692 train_time:202591ms step_avg:154.53ms
step:1322/3200 train_loss:3.5542 train_time:202745ms step_avg:154.53ms
step:1323/3200 train_loss:3.5024 train_time:203049ms step_avg:154.65ms
step:1324/3200 train_loss:3.5293 train_time:203211ms step_avg:154.65ms
step:1325/3200 train_loss:3.6287 train_time:203361ms step_avg:154.65ms
step:1326/3200 train_loss:3.6826 train_time:203514ms step_avg:154.65ms
step:1327/3200 train_loss:3.4421 train_time:203665ms step_avg:154.64ms
step:1328/3200 train_loss:3.3620 train_time:203816ms step_avg:154.64ms
step:1329/3200 train_loss:3.6738 train_time:203970ms step_avg:154.64ms
step:1330/3200 train_loss:3.5100 train_time:204288ms step_avg:154.76ms
step:1331/3200 train_loss:3.6435 train_time:204440ms step_avg:154.76ms
step:1332/3200 train_loss:3.5382 train_time:204591ms step_avg:154.76ms
step:1333/3200 train_loss:3.9508 train_time:204741ms step_avg:154.75ms
step:1334/3200 train_loss:3.6502 train_time:204892ms step_avg:154.75ms
step:1335/3200 train_loss:3.5612 train_time:205043ms step_avg:154.75ms
step:1336/3200 train_loss:3.5013 train_time:205198ms step_avg:154.75ms
step:1337/3200 train_loss:3.4989 train_time:205357ms step_avg:154.75ms
step:1338/3200 train_loss:3.7558 train_time:205511ms step_avg:154.75ms
step:1339/3200 train_loss:3.6933 train_time:205662ms step_avg:154.75ms
step:1340/3200 train_loss:3.5361 train_time:205814ms step_avg:154.75ms
step:1341/3200 train_loss:3.4933 train_time:205966ms step_avg:154.75ms
step:1342/3200 train_loss:3.7946 train_time:206117ms step_avg:154.74ms
step:1343/3200 train_loss:3.5657 train_time:206273ms step_avg:154.74ms
step:1344/3200 train_loss:3.5625 train_time:206430ms step_avg:154.75ms
step:1345/3200 train_loss:3.6217 train_time:206583ms step_avg:154.74ms
step:1346/3200 train_loss:3.5862 train_time:206734ms step_avg:154.74ms
step:1347/3200 train_loss:3.4887 train_time:206888ms step_avg:154.74ms
step:1348/3200 train_loss:3.4493 train_time:207040ms step_avg:154.74ms
step:1349/3200 train_loss:3.5420 train_time:207192ms step_avg:154.74ms
step:1350/3200 train_loss:3.4635 train_time:207348ms step_avg:154.74ms
step:1351/3200 train_loss:3.6005 train_time:207502ms step_avg:154.74ms
step:1352/3200 train_loss:3.4498 train_time:207654ms step_avg:154.73ms
step:1353/3200 train_loss:3.5139 train_time:207809ms step_avg:154.73ms
step:1354/3200 train_loss:3.6150 train_time:207960ms step_avg:154.73ms
step:1355/3200 train_loss:3.4557 train_time:208113ms step_avg:154.73ms
step:1356/3200 train_loss:3.3875 train_time:208266ms step_avg:154.73ms
step:1357/3200 train_loss:3.7219 train_time:208418ms step_avg:154.73ms
step:1358/3200 train_loss:3.6528 train_time:208572ms step_avg:154.73ms
step:1359/3200 train_loss:3.3759 train_time:208725ms step_avg:154.73ms
step:1360/3200 train_loss:3.6498 train_time:208876ms step_avg:154.72ms
step:1361/3200 train_loss:3.5469 train_time:209030ms step_avg:154.72ms
step:1362/3200 train_loss:3.3964 train_time:209182ms step_avg:154.72ms
step:1363/3200 train_loss:3.5823 train_time:209335ms step_avg:154.72ms
step:1364/3200 train_loss:3.4768 train_time:209489ms step_avg:154.72ms
step:1365/3200 train_loss:3.4945 train_time:209642ms step_avg:154.72ms
step:1366/3200 train_loss:3.5166 train_time:209796ms step_avg:154.72ms
step:1367/3200 train_loss:3.6187 train_time:209950ms step_avg:154.72ms
step:1368/3200 train_loss:3.6079 train_time:210103ms step_avg:154.71ms
step:1369/3200 train_loss:3.5599 train_time:210255ms step_avg:154.71ms
step:1370/3200 train_loss:3.4733 train_time:210409ms step_avg:154.71ms
step:1371/3200 train_loss:3.7924 train_time:210561ms step_avg:154.71ms
step:1372/3200 train_loss:3.5275 train_time:210713ms step_avg:154.71ms
step:1373/3200 train_loss:3.5692 train_time:210868ms step_avg:154.71ms
step:1374/3200 train_loss:3.5651 train_time:211020ms step_avg:154.71ms
step:1375/3200 train_loss:3.3634 train_time:211174ms step_avg:154.71ms
step:1375/3200 val_loss:3.5234 train_time:211222ms step_avg:154.74ms
step:1376/3200 train_loss:3.7650 train_time:211335ms step_avg:154.71ms
step:1377/3200 train_loss:3.5440 train_time:211488ms step_avg:154.71ms
step:1378/3200 train_loss:3.6839 train_time:211638ms step_avg:154.71ms
step:1379/3200 train_loss:3.7328 train_time:211790ms step_avg:154.70ms
step:1380/3200 train_loss:3.3756 train_time:211939ms step_avg:154.70ms
step:1381/3200 train_loss:3.5328 train_time:212092ms step_avg:154.70ms
step:1382/3200 train_loss:3.9862 train_time:212248ms step_avg:154.70ms
step:1383/3200 train_loss:3.4407 train_time:212402ms step_avg:154.70ms
step:1384/3200 train_loss:3.5982 train_time:212556ms step_avg:154.70ms
step:1385/3200 train_loss:3.6763 train_time:212707ms step_avg:154.70ms
step:1386/3200 train_loss:3.5896 train_time:212859ms step_avg:154.69ms
step:1387/3200 train_loss:3.5793 train_time:213012ms step_avg:154.69ms
step:1388/3200 train_loss:3.4064 train_time:213164ms step_avg:154.69ms
step:1389/3200 train_loss:3.5500 train_time:213319ms step_avg:154.69ms
step:1390/3200 train_loss:3.5224 train_time:213474ms step_avg:154.69ms
step:1391/3200 train_loss:3.7836 train_time:213626ms step_avg:154.69ms
step:1392/3200 train_loss:3.4998 train_time:213779ms step_avg:154.69ms
step:1393/3200 train_loss:3.4905 train_time:213933ms step_avg:154.69ms
step:1394/3200 train_loss:3.4533 train_time:214085ms step_avg:154.69ms
step:1395/3200 train_loss:3.7329 train_time:214237ms step_avg:154.68ms
step:1396/3200 train_loss:3.6227 train_time:214392ms step_avg:154.68ms
step:1397/3200 train_loss:3.6338 train_time:214546ms step_avg:154.68ms
step:1398/3200 train_loss:3.5059 train_time:214699ms step_avg:154.68ms
step:1399/3200 train_loss:3.4784 train_time:214854ms step_avg:154.68ms
step:1400/3200 train_loss:3.5383 train_time:215006ms step_avg:154.68ms
step:1401/3200 train_loss:3.5223 train_time:215158ms step_avg:154.68ms
step:1402/3200 train_loss:3.5430 train_time:215313ms step_avg:154.68ms
step:1403/3200 train_loss:3.5087 train_time:215467ms step_avg:154.68ms
step:1404/3200 train_loss:3.7328 train_time:215619ms step_avg:154.68ms
step:1405/3200 train_loss:3.4803 train_time:215774ms step_avg:154.68ms
step:1406/3200 train_loss:3.5261 train_time:215927ms step_avg:154.68ms
step:1407/3200 train_loss:3.5209 train_time:216079ms step_avg:154.67ms
step:1408/3200 train_loss:3.3937 train_time:216233ms step_avg:154.67ms
step:1409/3200 train_loss:3.5083 train_time:216386ms step_avg:154.67ms
step:1410/3200 train_loss:3.4926 train_time:216538ms step_avg:154.67ms
step:1411/3200 train_loss:3.4925 train_time:216693ms step_avg:154.67ms
step:1412/3200 train_loss:3.5777 train_time:216844ms step_avg:154.67ms
step:1413/3200 train_loss:3.5210 train_time:216997ms step_avg:154.67ms
step:1414/3200 train_loss:3.5608 train_time:217152ms step_avg:154.67ms
step:1415/3200 train_loss:3.5521 train_time:217304ms step_avg:154.66ms
step:1416/3200 train_loss:3.6328 train_time:217457ms step_avg:154.66ms
step:1417/3200 train_loss:3.4329 train_time:217611ms step_avg:154.66ms
step:1418/3200 train_loss:3.4969 train_time:217764ms step_avg:154.66ms
step:1419/3200 train_loss:3.5880 train_time:217916ms step_avg:154.66ms
step:1420/3200 train_loss:3.6139 train_time:218072ms step_avg:154.66ms
step:1421/3200 train_loss:3.5914 train_time:218225ms step_avg:154.66ms
step:1422/3200 train_loss:3.5872 train_time:218378ms step_avg:154.66ms
step:1423/3200 train_loss:3.5622 train_time:218533ms step_avg:154.66ms
step:1424/3200 train_loss:3.5442 train_time:218686ms step_avg:154.66ms
step:1425/3200 train_loss:3.5470 train_time:218838ms step_avg:154.66ms
step:1426/3200 train_loss:3.4283 train_time:218992ms step_avg:154.66ms
step:1427/3200 train_loss:3.5356 train_time:219145ms step_avg:154.65ms
step:1428/3200 train_loss:3.4824 train_time:219298ms step_avg:154.65ms
step:1429/3200 train_loss:3.5917 train_time:219452ms step_avg:154.65ms
step:1430/3200 train_loss:3.5479 train_time:219605ms step_avg:154.65ms
step:1431/3200 train_loss:3.4853 train_time:219758ms step_avg:154.65ms
step:1432/3200 train_loss:3.5293 train_time:219911ms step_avg:154.65ms
step:1433/3200 train_loss:3.5672 train_time:220063ms step_avg:154.65ms
step:1434/3200 train_loss:3.4080 train_time:220218ms step_avg:154.65ms
step:1435/3200 train_loss:3.5403 train_time:220373ms step_avg:154.65ms
step:1436/3200 train_loss:3.3617 train_time:220525ms step_avg:154.65ms
step:1437/3200 train_loss:3.4306 train_time:220677ms step_avg:154.64ms
step:1438/3200 train_loss:3.6190 train_time:220831ms step_avg:154.64ms
step:1439/3200 train_loss:3.5839 train_time:220983ms step_avg:154.64ms
step:1440/3200 train_loss:3.5307 train_time:221136ms step_avg:154.64ms
step:1441/3200 train_loss:3.3859 train_time:221292ms step_avg:154.64ms
step:1442/3200 train_loss:3.5539 train_time:221445ms step_avg:154.64ms
step:1443/3200 train_loss:3.6164 train_time:221598ms step_avg:154.64ms
step:1444/3200 train_loss:3.7001 train_time:221752ms step_avg:154.64ms
step:1445/3200 train_loss:3.6508 train_time:221904ms step_avg:154.64ms
step:1446/3200 train_loss:3.5499 train_time:222056ms step_avg:154.64ms
step:1447/3200 train_loss:3.4168 train_time:222209ms step_avg:154.63ms
step:1448/3200 train_loss:3.4913 train_time:222362ms step_avg:154.63ms
step:1449/3200 train_loss:3.5113 train_time:222516ms step_avg:154.63ms
step:1450/3200 train_loss:3.6238 train_time:222670ms step_avg:154.63ms
step:1451/3200 train_loss:3.6071 train_time:222823ms step_avg:154.63ms
step:1452/3200 train_loss:3.4288 train_time:222974ms step_avg:154.63ms
step:1453/3200 train_loss:3.5489 train_time:223127ms step_avg:154.63ms
step:1454/3200 train_loss:3.4600 train_time:223280ms step_avg:154.63ms
step:1455/3200 train_loss:3.4952 train_time:223434ms step_avg:154.63ms
step:1456/3200 train_loss:3.5445 train_time:223589ms step_avg:154.63ms
step:1457/3200 train_loss:3.4739 train_time:223740ms step_avg:154.62ms
step:1458/3200 train_loss:3.3758 train_time:223894ms step_avg:154.62ms
step:1459/3200 train_loss:3.6145 train_time:224046ms step_avg:154.62ms
step:1460/3200 train_loss:3.4856 train_time:224199ms step_avg:154.62ms
step:1461/3200 train_loss:3.5403 train_time:224353ms step_avg:154.62ms
step:1462/3200 train_loss:3.6563 train_time:224506ms step_avg:154.62ms
step:1463/3200 train_loss:3.4730 train_time:224660ms step_avg:154.62ms
step:1464/3200 train_loss:3.6769 train_time:224814ms step_avg:154.62ms
step:1465/3200 train_loss:3.5611 train_time:224965ms step_avg:154.62ms
step:1466/3200 train_loss:3.5666 train_time:225118ms step_avg:154.61ms
step:1467/3200 train_loss:3.4924 train_time:225273ms step_avg:154.61ms
step:1468/3200 train_loss:3.6496 train_time:225426ms step_avg:154.61ms
step:1469/3200 train_loss:3.5085 train_time:225578ms step_avg:154.61ms
step:1470/3200 train_loss:3.4836 train_time:225733ms step_avg:154.61ms
step:1471/3200 train_loss:3.5342 train_time:225885ms step_avg:154.61ms
step:1472/3200 train_loss:3.4552 train_time:226037ms step_avg:154.61ms
step:1473/3200 train_loss:3.5387 train_time:226192ms step_avg:154.61ms
step:1474/3200 train_loss:3.6427 train_time:226345ms step_avg:154.61ms
step:1475/3200 train_loss:3.5148 train_time:226498ms step_avg:154.61ms
step:1476/3200 train_loss:3.3544 train_time:226650ms step_avg:154.60ms
step:1477/3200 train_loss:3.4723 train_time:226805ms step_avg:154.60ms
step:1478/3200 train_loss:3.4492 train_time:226957ms step_avg:154.60ms
step:1479/3200 train_loss:3.5288 train_time:227112ms step_avg:154.60ms
step:1480/3200 train_loss:3.6091 train_time:227264ms step_avg:154.60ms
step:1481/3200 train_loss:3.4797 train_time:227417ms step_avg:154.60ms
step:1482/3200 train_loss:3.6631 train_time:227571ms step_avg:154.60ms
step:1483/3200 train_loss:3.5822 train_time:227722ms step_avg:154.60ms
step:1484/3200 train_loss:3.4850 train_time:227875ms step_avg:154.60ms
step:1485/3200 train_loss:3.4789 train_time:228027ms step_avg:154.59ms
step:1486/3200 train_loss:3.4771 train_time:228180ms step_avg:154.59ms
step:1487/3200 train_loss:3.4489 train_time:228335ms step_avg:154.59ms
step:1488/3200 train_loss:3.5402 train_time:228489ms step_avg:154.59ms
step:1489/3200 train_loss:3.4479 train_time:228641ms step_avg:154.59ms
step:1490/3200 train_loss:3.5313 train_time:228795ms step_avg:154.59ms
step:1491/3200 train_loss:3.4745 train_time:228947ms step_avg:154.59ms
step:1492/3200 train_loss:3.3918 train_time:229099ms step_avg:154.59ms
step:1493/3200 train_loss:3.4717 train_time:229254ms step_avg:154.59ms
step:1494/3200 train_loss:3.6465 train_time:229408ms step_avg:154.59ms
step:1495/3200 train_loss:3.4969 train_time:229561ms step_avg:154.59ms
step:1496/3200 train_loss:3.2588 train_time:229715ms step_avg:154.59ms
step:1497/3200 train_loss:3.5610 train_time:229869ms step_avg:154.59ms
step:1498/3200 train_loss:3.5216 train_time:230019ms step_avg:154.58ms
step:1499/3200 train_loss:3.5743 train_time:230173ms step_avg:154.58ms
step:1500/3200 train_loss:3.5200 train_time:230326ms step_avg:154.58ms
step:1500/3200 val_loss:3.5061 train_time:230373ms step_avg:154.61ms
step:1501/3200 train_loss:3.5115 train_time:230483ms step_avg:154.58ms
step:1502/3200 train_loss:3.2977 train_time:230638ms step_avg:154.58ms
step:1503/3200 train_loss:3.5730 train_time:230791ms step_avg:154.58ms
step:1504/3200 train_loss:3.4505 train_time:230942ms step_avg:154.58ms
step:1505/3200 train_loss:3.4616 train_time:231093ms step_avg:154.58ms
step:1506/3200 train_loss:3.4191 train_time:231245ms step_avg:154.58ms
step:1507/3200 train_loss:3.5041 train_time:231399ms step_avg:154.58ms
step:1508/3200 train_loss:3.4186 train_time:231555ms step_avg:154.58ms
step:1509/3200 train_loss:3.7328 train_time:231710ms step_avg:154.58ms
step:1510/3200 train_loss:3.4779 train_time:231862ms step_avg:154.57ms
step:1511/3200 train_loss:3.4822 train_time:232014ms step_avg:154.57ms
step:1512/3200 train_loss:3.6093 train_time:232317ms step_avg:154.67ms
step:1513/3200 train_loss:3.6350 train_time:232477ms step_avg:154.68ms
step:1514/3200 train_loss:3.4909 train_time:232628ms step_avg:154.67ms
step:1515/3200 train_loss:3.3245 train_time:232779ms step_avg:154.67ms
step:1516/3200 train_loss:3.4550 train_time:232931ms step_avg:154.67ms
step:1517/3200 train_loss:3.4607 train_time:233081ms step_avg:154.67ms
step:1518/3200 train_loss:3.5337 train_time:233235ms step_avg:154.67ms
step:1519/3200 train_loss:3.4258 train_time:233391ms step_avg:154.67ms
step:1520/3200 train_loss:3.7139 train_time:233702ms step_avg:154.77ms
step:1521/3200 train_loss:3.3785 train_time:233851ms step_avg:154.77ms
step:1522/3200 train_loss:3.4362 train_time:234002ms step_avg:154.76ms
step:1523/3200 train_loss:3.5838 train_time:234152ms step_avg:154.76ms
step:1524/3200 train_loss:3.4468 train_time:234302ms step_avg:154.76ms
step:1525/3200 train_loss:3.5412 train_time:234452ms step_avg:154.75ms
step:1526/3200 train_loss:3.5360 train_time:234607ms step_avg:154.75ms
step:1527/3200 train_loss:3.4965 train_time:234765ms step_avg:154.76ms
step:1528/3200 train_loss:3.4991 train_time:234918ms step_avg:154.75ms
step:1529/3200 train_loss:3.6475 train_time:235072ms step_avg:154.75ms
step:1530/3200 train_loss:3.6189 train_time:235223ms step_avg:154.75ms
step:1531/3200 train_loss:3.4501 train_time:235374ms step_avg:154.75ms
step:1532/3200 train_loss:3.4054 train_time:235525ms step_avg:154.75ms
step:1533/3200 train_loss:3.5561 train_time:235681ms step_avg:154.75ms
step:1534/3200 train_loss:3.5133 train_time:235838ms step_avg:154.75ms
step:1535/3200 train_loss:3.5004 train_time:235992ms step_avg:154.75ms
step:1536/3200 train_loss:3.5043 train_time:236145ms step_avg:154.75ms
step:1537/3200 train_loss:3.4369 train_time:236295ms step_avg:154.74ms
step:1538/3200 train_loss:3.4934 train_time:236449ms step_avg:154.74ms
step:1539/3200 train_loss:3.6655 train_time:236601ms step_avg:154.74ms
step:1540/3200 train_loss:3.6002 train_time:236756ms step_avg:154.74ms
step:1541/3200 train_loss:3.5128 train_time:236911ms step_avg:154.74ms
step:1542/3200 train_loss:3.4628 train_time:237064ms step_avg:154.74ms
step:1543/3200 train_loss:3.4642 train_time:237216ms step_avg:154.74ms
step:1544/3200 train_loss:3.4211 train_time:237370ms step_avg:154.74ms
step:1545/3200 train_loss:3.5145 train_time:237522ms step_avg:154.74ms
step:1546/3200 train_loss:3.4795 train_time:237675ms step_avg:154.74ms
step:1547/3200 train_loss:3.4677 train_time:237829ms step_avg:154.74ms
step:1548/3200 train_loss:3.4231 train_time:237981ms step_avg:154.73ms
step:1549/3200 train_loss:3.4612 train_time:238135ms step_avg:154.73ms
step:1550/3200 train_loss:3.5749 train_time:238287ms step_avg:154.73ms
step:1551/3200 train_loss:3.4970 train_time:238439ms step_avg:154.73ms
step:1552/3200 train_loss:3.4391 train_time:238593ms step_avg:154.73ms
step:1553/3200 train_loss:3.4342 train_time:238746ms step_avg:154.73ms
step:1554/3200 train_loss:3.4231 train_time:238900ms step_avg:154.73ms
step:1555/3200 train_loss:3.5523 train_time:239053ms step_avg:154.73ms
step:1556/3200 train_loss:3.5583 train_time:239205ms step_avg:154.73ms
step:1557/3200 train_loss:3.4898 train_time:239357ms step_avg:154.72ms
step:1558/3200 train_loss:3.5404 train_time:239512ms step_avg:154.72ms
step:1559/3200 train_loss:3.4674 train_time:239665ms step_avg:154.72ms
step:1560/3200 train_loss:3.3759 train_time:239818ms step_avg:154.72ms
step:1561/3200 train_loss:3.6307 train_time:239972ms step_avg:154.72ms
step:1562/3200 train_loss:3.4452 train_time:240125ms step_avg:154.72ms
step:1563/3200 train_loss:3.4266 train_time:240277ms step_avg:154.72ms
step:1564/3200 train_loss:3.5501 train_time:240431ms step_avg:154.72ms
step:1565/3200 train_loss:3.3752 train_time:240584ms step_avg:154.72ms
step:1566/3200 train_loss:3.4286 train_time:240737ms step_avg:154.72ms
step:1567/3200 train_loss:3.5832 train_time:240892ms step_avg:154.72ms
step:1568/3200 train_loss:3.4584 train_time:241045ms step_avg:154.71ms
step:1569/3200 train_loss:3.4486 train_time:241197ms step_avg:154.71ms
step:1570/3200 train_loss:3.5418 train_time:241352ms step_avg:154.71ms
step:1571/3200 train_loss:3.5494 train_time:241504ms step_avg:154.71ms
step:1572/3200 train_loss:3.3782 train_time:241658ms step_avg:154.71ms
step:1573/3200 train_loss:3.4164 train_time:241812ms step_avg:154.71ms
step:1574/3200 train_loss:3.5333 train_time:241964ms step_avg:154.71ms
step:1575/3200 train_loss:3.3989 train_time:242117ms step_avg:154.71ms
step:1576/3200 train_loss:3.5436 train_time:242273ms step_avg:154.71ms
step:1577/3200 train_loss:3.4476 train_time:242423ms step_avg:154.71ms
step:1578/3200 train_loss:3.5009 train_time:242577ms step_avg:154.70ms
step:1579/3200 train_loss:3.4786 train_time:242731ms step_avg:154.70ms
step:1580/3200 train_loss:3.4461 train_time:242883ms step_avg:154.70ms
step:1581/3200 train_loss:3.4195 train_time:243037ms step_avg:154.70ms
step:1582/3200 train_loss:3.6602 train_time:243192ms step_avg:154.70ms
step:1583/3200 train_loss:3.4329 train_time:243344ms step_avg:154.70ms
step:1584/3200 train_loss:3.5938 train_time:243496ms step_avg:154.70ms
step:1585/3200 train_loss:3.4184 train_time:243651ms step_avg:154.70ms
step:1586/3200 train_loss:3.5797 train_time:243802ms step_avg:154.70ms
step:1587/3200 train_loss:3.3680 train_time:243956ms step_avg:154.70ms
step:1588/3200 train_loss:3.5618 train_time:244110ms step_avg:154.70ms
step:1589/3200 train_loss:3.4724 train_time:244263ms step_avg:154.69ms
step:1590/3200 train_loss:3.6265 train_time:244415ms step_avg:154.69ms
step:1591/3200 train_loss:3.4394 train_time:244569ms step_avg:154.69ms
step:1592/3200 train_loss:3.4640 train_time:244720ms step_avg:154.69ms
step:1593/3200 train_loss:3.5341 train_time:244874ms step_avg:154.69ms
step:1594/3200 train_loss:3.4978 train_time:245025ms step_avg:154.69ms
step:1595/3200 train_loss:3.4775 train_time:245179ms step_avg:154.69ms
step:1596/3200 train_loss:3.6222 train_time:245333ms step_avg:154.69ms
step:1597/3200 train_loss:3.3450 train_time:245484ms step_avg:154.68ms
step:1598/3200 train_loss:3.5129 train_time:245637ms step_avg:154.68ms
step:1599/3200 train_loss:3.5561 train_time:245792ms step_avg:154.68ms
step:1600/3200 train_loss:3.6040 train_time:245944ms step_avg:154.68ms
step:1601/3200 train_loss:3.4571 train_time:246096ms step_avg:154.68ms
step:1602/3200 train_loss:3.7486 train_time:246252ms step_avg:154.68ms
step:1603/3200 train_loss:3.6294 train_time:246403ms step_avg:154.68ms
step:1604/3200 train_loss:3.4143 train_time:246556ms step_avg:154.68ms
step:1605/3200 train_loss:3.4514 train_time:246711ms step_avg:154.68ms
step:1606/3200 train_loss:3.3381 train_time:246864ms step_avg:154.68ms
step:1607/3200 train_loss:3.6656 train_time:247016ms step_avg:154.68ms
step:1608/3200 train_loss:3.4642 train_time:247171ms step_avg:154.68ms
step:1609/3200 train_loss:3.4823 train_time:247323ms step_avg:154.67ms
step:1610/3200 train_loss:3.4343 train_time:247476ms step_avg:154.67ms
step:1611/3200 train_loss:4.0432 train_time:247629ms step_avg:154.67ms
step:1612/3200 train_loss:3.6716 train_time:247781ms step_avg:154.67ms
step:1613/3200 train_loss:3.5805 train_time:247935ms step_avg:154.67ms
step:1614/3200 train_loss:3.4510 train_time:248088ms step_avg:154.67ms
step:1615/3200 train_loss:3.4902 train_time:248239ms step_avg:154.67ms
step:1616/3200 train_loss:3.4864 train_time:248393ms step_avg:154.67ms
step:1617/3200 train_loss:3.4514 train_time:248547ms step_avg:154.66ms
step:1618/3200 train_loss:3.5263 train_time:248699ms step_avg:154.66ms
step:1619/3200 train_loss:3.4774 train_time:248852ms step_avg:154.66ms
step:1620/3200 train_loss:3.3734 train_time:249004ms step_avg:154.66ms
step:1621/3200 train_loss:3.6382 train_time:249157ms step_avg:154.66ms
step:1622/3200 train_loss:3.5514 train_time:249313ms step_avg:154.66ms
step:1623/3200 train_loss:3.3394 train_time:249466ms step_avg:154.66ms
step:1624/3200 train_loss:3.4587 train_time:249619ms step_avg:154.66ms
step:1625/3200 train_loss:3.4085 train_time:249773ms step_avg:154.66ms
step:1625/3200 val_loss:3.4877 train_time:249818ms step_avg:154.69ms
step:1626/3200 train_loss:3.4927 train_time:249928ms step_avg:154.66ms
step:1627/3200 train_loss:3.4541 train_time:250082ms step_avg:154.66ms
step:1628/3200 train_loss:3.4178 train_time:250234ms step_avg:154.66ms
step:1629/3200 train_loss:3.5312 train_time:250384ms step_avg:154.65ms
step:1630/3200 train_loss:3.4281 train_time:250536ms step_avg:154.65ms
step:1631/3200 train_loss:3.4836 train_time:250688ms step_avg:154.65ms
step:1632/3200 train_loss:3.3683 train_time:250846ms step_avg:154.65ms
step:1633/3200 train_loss:3.3344 train_time:251003ms step_avg:154.65ms
step:1634/3200 train_loss:3.4911 train_time:251157ms step_avg:154.65ms
step:1635/3200 train_loss:3.4823 train_time:251310ms step_avg:154.65ms
step:1636/3200 train_loss:3.4217 train_time:251461ms step_avg:154.65ms
step:1637/3200 train_loss:3.5077 train_time:251613ms step_avg:154.65ms
step:1638/3200 train_loss:3.5547 train_time:251767ms step_avg:154.65ms
step:1639/3200 train_loss:3.5925 train_time:251923ms step_avg:154.65ms
step:1640/3200 train_loss:3.7558 train_time:252078ms step_avg:154.65ms
step:1641/3200 train_loss:3.5642 train_time:252230ms step_avg:154.65ms
step:1642/3200 train_loss:3.4916 train_time:252383ms step_avg:154.65ms
step:1643/3200 train_loss:3.5729 train_time:252536ms step_avg:154.65ms
step:1644/3200 train_loss:3.4682 train_time:252688ms step_avg:154.64ms
step:1645/3200 train_loss:3.4897 train_time:252842ms step_avg:154.64ms
step:1646/3200 train_loss:3.4856 train_time:252998ms step_avg:154.64ms
step:1647/3200 train_loss:3.2613 train_time:253151ms step_avg:154.64ms
step:1648/3200 train_loss:3.5227 train_time:253303ms step_avg:154.64ms
step:1649/3200 train_loss:3.3964 train_time:253457ms step_avg:154.64ms
step:1650/3200 train_loss:3.4702 train_time:253609ms step_avg:154.64ms
step:1651/3200 train_loss:3.4420 train_time:253762ms step_avg:154.64ms
step:1652/3200 train_loss:3.5150 train_time:253917ms step_avg:154.64ms
step:1653/3200 train_loss:3.4414 train_time:254070ms step_avg:154.64ms
step:1654/3200 train_loss:3.5655 train_time:254222ms step_avg:154.64ms
step:1655/3200 train_loss:3.5567 train_time:254377ms step_avg:154.64ms
step:1656/3200 train_loss:3.3758 train_time:254530ms step_avg:154.64ms
step:1657/3200 train_loss:3.5436 train_time:254682ms step_avg:154.63ms
step:1658/3200 train_loss:3.4289 train_time:254836ms step_avg:154.63ms
step:1659/3200 train_loss:3.4101 train_time:254990ms step_avg:154.63ms
step:1660/3200 train_loss:3.4958 train_time:255143ms step_avg:154.63ms
step:1661/3200 train_loss:3.5227 train_time:255297ms step_avg:154.63ms
step:1662/3200 train_loss:3.4325 train_time:255450ms step_avg:154.63ms
step:1663/3200 train_loss:3.5280 train_time:255603ms step_avg:154.63ms
step:1664/3200 train_loss:3.5349 train_time:255758ms step_avg:154.63ms
step:1665/3200 train_loss:3.5660 train_time:255910ms step_avg:154.63ms
step:1666/3200 train_loss:3.5376 train_time:256063ms step_avg:154.63ms
step:1667/3200 train_loss:3.6861 train_time:256217ms step_avg:154.63ms
step:1668/3200 train_loss:3.3830 train_time:256370ms step_avg:154.63ms
step:1669/3200 train_loss:3.4750 train_time:256525ms step_avg:154.63ms
step:1670/3200 train_loss:3.3881 train_time:256678ms step_avg:154.63ms
step:1671/3200 train_loss:3.4040 train_time:256831ms step_avg:154.62ms
step:1672/3200 train_loss:3.5546 train_time:256983ms step_avg:154.62ms
step:1673/3200 train_loss:3.7403 train_time:257138ms step_avg:154.62ms
step:1674/3200 train_loss:3.4524 train_time:257290ms step_avg:154.62ms
step:1675/3200 train_loss:3.4395 train_time:257442ms step_avg:154.62ms
step:1676/3200 train_loss:3.3306 train_time:257597ms step_avg:154.62ms
step:1677/3200 train_loss:3.5366 train_time:257749ms step_avg:154.62ms
step:1678/3200 train_loss:3.4498 train_time:257901ms step_avg:154.62ms
step:1679/3200 train_loss:3.4770 train_time:258056ms step_avg:154.62ms
step:1680/3200 train_loss:3.4688 train_time:258208ms step_avg:154.62ms
step:1681/3200 train_loss:3.2944 train_time:258362ms step_avg:154.62ms
step:1682/3200 train_loss:3.4666 train_time:258517ms step_avg:154.62ms
step:1683/3200 train_loss:3.4797 train_time:258670ms step_avg:154.61ms
step:1684/3200 train_loss:3.5210 train_time:258822ms step_avg:154.61ms
step:1685/3200 train_loss:3.5240 train_time:258976ms step_avg:154.61ms
step:1686/3200 train_loss:3.4331 train_time:259129ms step_avg:154.61ms
step:1687/3200 train_loss:3.5411 train_time:259282ms step_avg:154.61ms
step:1688/3200 train_loss:3.4219 train_time:259437ms step_avg:154.61ms
step:1689/3200 train_loss:3.4968 train_time:259590ms step_avg:154.61ms
step:1690/3200 train_loss:3.4177 train_time:259743ms step_avg:154.61ms
step:1691/3200 train_loss:3.3169 train_time:259897ms step_avg:154.61ms
step:1692/3200 train_loss:3.4711 train_time:260049ms step_avg:154.61ms
step:1693/3200 train_loss:3.4671 train_time:260202ms step_avg:154.61ms
step:1694/3200 train_loss:3.3857 train_time:260357ms step_avg:154.61ms
step:1695/3200 train_loss:3.8231 train_time:260509ms step_avg:154.61ms
step:1696/3200 train_loss:3.5419 train_time:260662ms step_avg:154.60ms
step:1697/3200 train_loss:3.5243 train_time:260817ms step_avg:154.60ms
step:1698/3200 train_loss:3.4294 train_time:260970ms step_avg:154.60ms
step:1699/3200 train_loss:3.3362 train_time:261124ms step_avg:154.60ms
step:1700/3200 train_loss:3.4272 train_time:261278ms step_avg:154.60ms
step:1701/3200 train_loss:3.4257 train_time:261574ms step_avg:154.69ms
step:1702/3200 train_loss:3.5024 train_time:261734ms step_avg:154.69ms
step:1703/3200 train_loss:3.4194 train_time:261885ms step_avg:154.69ms
step:1704/3200 train_loss:3.6278 train_time:262036ms step_avg:154.68ms
step:1705/3200 train_loss:3.3848 train_time:262186ms step_avg:154.68ms
step:1706/3200 train_loss:3.6135 train_time:262337ms step_avg:154.68ms
step:1707/3200 train_loss:3.4584 train_time:262490ms step_avg:154.68ms
step:1708/3200 train_loss:3.2492 train_time:262648ms step_avg:154.68ms
step:1709/3200 train_loss:3.5756 train_time:262801ms step_avg:154.68ms
step:1710/3200 train_loss:3.4819 train_time:263119ms step_avg:154.78ms
step:1711/3200 train_loss:3.4673 train_time:263268ms step_avg:154.77ms
step:1712/3200 train_loss:3.4669 train_time:263419ms step_avg:154.77ms
step:1713/3200 train_loss:3.5018 train_time:263570ms step_avg:154.77ms
step:1714/3200 train_loss:3.5246 train_time:263722ms step_avg:154.77ms
step:1715/3200 train_loss:3.4523 train_time:263874ms step_avg:154.76ms
step:1716/3200 train_loss:3.4641 train_time:264029ms step_avg:154.76ms
step:1717/3200 train_loss:3.2890 train_time:264185ms step_avg:154.77ms
step:1718/3200 train_loss:3.4274 train_time:264338ms step_avg:154.76ms
step:1719/3200 train_loss:3.4483 train_time:264491ms step_avg:154.76ms
step:1720/3200 train_loss:3.3969 train_time:264643ms step_avg:154.76ms
step:1721/3200 train_loss:3.5588 train_time:264795ms step_avg:154.76ms
step:1722/3200 train_loss:3.3596 train_time:264947ms step_avg:154.76ms
step:1723/3200 train_loss:3.5068 train_time:265104ms step_avg:154.76ms
step:1724/3200 train_loss:3.5909 train_time:265258ms step_avg:154.76ms
step:1725/3200 train_loss:3.4379 train_time:265411ms step_avg:154.76ms
step:1726/3200 train_loss:3.6576 train_time:265564ms step_avg:154.76ms
step:1727/3200 train_loss:3.4533 train_time:265717ms step_avg:154.76ms
step:1728/3200 train_loss:3.5163 train_time:265868ms step_avg:154.75ms
step:1729/3200 train_loss:3.4816 train_time:266021ms step_avg:154.75ms
step:1730/3200 train_loss:3.4913 train_time:266177ms step_avg:154.75ms
step:1731/3200 train_loss:3.8557 train_time:266331ms step_avg:154.75ms
step:1732/3200 train_loss:3.4793 train_time:266485ms step_avg:154.75ms
step:1733/3200 train_loss:3.6035 train_time:266637ms step_avg:154.75ms
step:1734/3200 train_loss:3.3886 train_time:266789ms step_avg:154.75ms
step:1735/3200 train_loss:3.4273 train_time:266942ms step_avg:154.75ms
step:1736/3200 train_loss:3.4486 train_time:267097ms step_avg:154.75ms
step:1737/3200 train_loss:3.4291 train_time:267249ms step_avg:154.75ms
step:1738/3200 train_loss:3.5708 train_time:267402ms step_avg:154.75ms
step:1739/3200 train_loss:3.4316 train_time:267557ms step_avg:154.75ms
step:1740/3200 train_loss:3.4951 train_time:267709ms step_avg:154.74ms
step:1741/3200 train_loss:3.5478 train_time:267861ms step_avg:154.74ms
step:1742/3200 train_loss:3.3532 train_time:268015ms step_avg:154.74ms
step:1743/3200 train_loss:3.2505 train_time:268168ms step_avg:154.74ms
step:1744/3200 train_loss:3.1731 train_time:268322ms step_avg:154.74ms
step:1745/3200 train_loss:3.4737 train_time:268477ms step_avg:154.74ms
step:1746/3200 train_loss:3.4845 train_time:268629ms step_avg:154.74ms
step:1747/3200 train_loss:3.4573 train_time:268782ms step_avg:154.74ms
step:1748/3200 train_loss:3.4685 train_time:268936ms step_avg:154.74ms
step:1749/3200 train_loss:3.7055 train_time:269089ms step_avg:154.74ms
step:1750/3200 train_loss:3.4152 train_time:269242ms step_avg:154.74ms
step:1750/3200 val_loss:3.4675 train_time:269290ms step_avg:154.76ms
step:1751/3200 train_loss:3.4855 train_time:269402ms step_avg:154.74ms
step:1752/3200 train_loss:3.4759 train_time:269554ms step_avg:154.74ms
step:1753/3200 train_loss:3.1142 train_time:269705ms step_avg:154.74ms
step:1754/3200 train_loss:3.2274 train_time:269858ms step_avg:154.74ms
step:1755/3200 train_loss:3.3186 train_time:270009ms step_avg:154.73ms
step:1756/3200 train_loss:3.2790 train_time:270160ms step_avg:154.73ms
step:1757/3200 train_loss:3.4428 train_time:270313ms step_avg:154.73ms
step:1758/3200 train_loss:3.3198 train_time:270468ms step_avg:154.73ms
step:1759/3200 train_loss:3.3163 train_time:270622ms step_avg:154.73ms
step:1760/3200 train_loss:4.3795 train_time:270776ms step_avg:154.73ms
step:1761/3200 train_loss:3.4540 train_time:270928ms step_avg:154.73ms
step:1762/3200 train_loss:3.4873 train_time:271081ms step_avg:154.73ms
step:1763/3200 train_loss:3.4833 train_time:271233ms step_avg:154.73ms
step:1764/3200 train_loss:3.5011 train_time:271386ms step_avg:154.72ms
step:1765/3200 train_loss:3.4205 train_time:271542ms step_avg:154.72ms
step:1766/3200 train_loss:3.4577 train_time:271694ms step_avg:154.72ms
step:1767/3200 train_loss:3.4747 train_time:271847ms step_avg:154.72ms
step:1768/3200 train_loss:3.7180 train_time:272000ms step_avg:154.72ms
step:1769/3200 train_loss:3.4515 train_time:272153ms step_avg:154.72ms
step:1770/3200 train_loss:3.5157 train_time:272306ms step_avg:154.72ms
step:1771/3200 train_loss:3.7597 train_time:272461ms step_avg:154.72ms
step:1772/3200 train_loss:3.4514 train_time:272614ms step_avg:154.72ms
step:1773/3200 train_loss:3.3583 train_time:272767ms step_avg:154.72ms
step:1774/3200 train_loss:3.6071 train_time:272920ms step_avg:154.72ms
step:1775/3200 train_loss:3.3687 train_time:273071ms step_avg:154.71ms
step:1776/3200 train_loss:3.5197 train_time:273224ms step_avg:154.71ms
step:1777/3200 train_loss:3.5642 train_time:273379ms step_avg:154.71ms
step:1778/3200 train_loss:3.6538 train_time:273531ms step_avg:154.71ms
step:1779/3200 train_loss:3.4600 train_time:273684ms step_avg:154.71ms
step:1780/3200 train_loss:3.7548 train_time:273839ms step_avg:154.71ms
step:1781/3200 train_loss:3.5306 train_time:273991ms step_avg:154.71ms
step:1782/3200 train_loss:3.5480 train_time:274143ms step_avg:154.71ms
step:1783/3200 train_loss:3.3319 train_time:274296ms step_avg:154.71ms
step:1784/3200 train_loss:3.4193 train_time:274448ms step_avg:154.71ms
step:1785/3200 train_loss:3.5610 train_time:274603ms step_avg:154.71ms
step:1786/3200 train_loss:3.4553 train_time:274756ms step_avg:154.70ms
step:1787/3200 train_loss:3.6159 train_time:274908ms step_avg:154.70ms
step:1788/3200 train_loss:3.4210 train_time:275061ms step_avg:154.70ms
step:1789/3200 train_loss:3.4112 train_time:275214ms step_avg:154.70ms
step:1790/3200 train_loss:3.5492 train_time:275366ms step_avg:154.70ms
step:1791/3200 train_loss:3.4597 train_time:275521ms step_avg:154.70ms
step:1792/3200 train_loss:3.4014 train_time:275673ms step_avg:154.70ms
step:1793/3200 train_loss:3.5332 train_time:275827ms step_avg:154.70ms
step:1794/3200 train_loss:3.4128 train_time:275981ms step_avg:154.70ms
step:1795/3200 train_loss:3.3951 train_time:276133ms step_avg:154.70ms
step:1796/3200 train_loss:3.4593 train_time:276285ms step_avg:154.69ms
step:1797/3200 train_loss:3.4191 train_time:276440ms step_avg:154.70ms
step:1798/3200 train_loss:3.5563 train_time:276592ms step_avg:154.69ms
step:1799/3200 train_loss:3.4464 train_time:276745ms step_avg:154.69ms
step:1800/3200 train_loss:3.5217 train_time:276900ms step_avg:154.69ms
step:1801/3200 train_loss:3.4447 train_time:277052ms step_avg:154.69ms
step:1802/3200 train_loss:3.4879 train_time:277205ms step_avg:154.69ms
step:1803/3200 train_loss:3.3945 train_time:277360ms step_avg:154.69ms
step:1804/3200 train_loss:3.3262 train_time:277512ms step_avg:154.69ms
step:1805/3200 train_loss:3.5761 train_time:277664ms step_avg:154.69ms
step:1806/3200 train_loss:3.4975 train_time:277820ms step_avg:154.69ms
step:1807/3200 train_loss:3.5165 train_time:277972ms step_avg:154.69ms
step:1808/3200 train_loss:3.6173 train_time:278124ms step_avg:154.69ms
step:1809/3200 train_loss:3.4155 train_time:278279ms step_avg:154.69ms
step:1810/3200 train_loss:3.5120 train_time:278432ms step_avg:154.68ms
step:1811/3200 train_loss:3.6508 train_time:278585ms step_avg:154.68ms
step:1812/3200 train_loss:3.5069 train_time:278740ms step_avg:154.68ms
step:1813/3200 train_loss:3.5460 train_time:278892ms step_avg:154.68ms
step:1814/3200 train_loss:3.5685 train_time:279044ms step_avg:154.68ms
step:1815/3200 train_loss:3.5136 train_time:279199ms step_avg:154.68ms
step:1816/3200 train_loss:3.5457 train_time:279350ms step_avg:154.68ms
step:1817/3200 train_loss:3.5036 train_time:279504ms step_avg:154.68ms
step:1818/3200 train_loss:3.5549 train_time:279659ms step_avg:154.68ms
step:1819/3200 train_loss:3.4797 train_time:279812ms step_avg:154.68ms
step:1820/3200 train_loss:3.4753 train_time:279964ms step_avg:154.68ms
step:1821/3200 train_loss:3.4306 train_time:280119ms step_avg:154.68ms
step:1822/3200 train_loss:3.3978 train_time:280271ms step_avg:154.67ms
step:1823/3200 train_loss:3.3307 train_time:280425ms step_avg:154.67ms
step:1824/3200 train_loss:3.4867 train_time:280580ms step_avg:154.67ms
step:1825/3200 train_loss:3.6042 train_time:280734ms step_avg:154.67ms
step:1826/3200 train_loss:3.5585 train_time:280885ms step_avg:154.67ms
step:1827/3200 train_loss:3.5413 train_time:281039ms step_avg:154.67ms
step:1828/3200 train_loss:3.4099 train_time:281190ms step_avg:154.67ms
step:1829/3200 train_loss:3.4261 train_time:281343ms step_avg:154.67ms
step:1830/3200 train_loss:3.5763 train_time:281496ms step_avg:154.67ms
step:1831/3200 train_loss:3.3475 train_time:281649ms step_avg:154.67ms
step:1832/3200 train_loss:3.4919 train_time:281803ms step_avg:154.67ms
step:1833/3200 train_loss:3.3740 train_time:281957ms step_avg:154.67ms
step:1834/3200 train_loss:3.6941 train_time:282109ms step_avg:154.66ms
step:1835/3200 train_loss:3.5333 train_time:282262ms step_avg:154.66ms
step:1836/3200 train_loss:3.5103 train_time:282416ms step_avg:154.66ms
step:1837/3200 train_loss:3.6347 train_time:282569ms step_avg:154.66ms
step:1838/3200 train_loss:3.4951 train_time:282722ms step_avg:154.66ms
step:1839/3200 train_loss:3.3814 train_time:282874ms step_avg:154.66ms
step:1840/3200 train_loss:3.4897 train_time:283028ms step_avg:154.66ms
step:1841/3200 train_loss:3.3795 train_time:283181ms step_avg:154.66ms
step:1842/3200 train_loss:3.4897 train_time:283333ms step_avg:154.66ms
step:1843/3200 train_loss:3.5477 train_time:283485ms step_avg:154.66ms
step:1844/3200 train_loss:3.2947 train_time:283640ms step_avg:154.66ms
step:1845/3200 train_loss:3.4225 train_time:283792ms step_avg:154.66ms
step:1846/3200 train_loss:3.4816 train_time:283945ms step_avg:154.65ms
step:1847/3200 train_loss:3.4189 train_time:284100ms step_avg:154.65ms
step:1848/3200 train_loss:3.3199 train_time:284253ms step_avg:154.65ms
step:1849/3200 train_loss:3.5883 train_time:284406ms step_avg:154.65ms
step:1850/3200 train_loss:3.3532 train_time:284560ms step_avg:154.65ms
step:1851/3200 train_loss:3.4373 train_time:284713ms step_avg:154.65ms
step:1852/3200 train_loss:3.3946 train_time:284868ms step_avg:154.65ms
step:1853/3200 train_loss:3.5894 train_time:285020ms step_avg:154.65ms
step:1854/3200 train_loss:3.5726 train_time:285173ms step_avg:154.65ms
step:1855/3200 train_loss:3.4470 train_time:285327ms step_avg:154.65ms
step:1856/3200 train_loss:3.4022 train_time:285480ms step_avg:154.65ms
step:1857/3200 train_loss:3.4277 train_time:285634ms step_avg:154.65ms
step:1858/3200 train_loss:3.6680 train_time:285786ms step_avg:154.65ms
step:1859/3200 train_loss:3.5148 train_time:285940ms step_avg:154.65ms
step:1860/3200 train_loss:3.4578 train_time:286092ms step_avg:154.64ms
step:1861/3200 train_loss:3.4988 train_time:286246ms step_avg:154.64ms
step:1862/3200 train_loss:3.3836 train_time:286401ms step_avg:154.64ms
step:1863/3200 train_loss:3.3858 train_time:286555ms step_avg:154.64ms
step:1864/3200 train_loss:3.4592 train_time:286708ms step_avg:154.64ms
step:1865/3200 train_loss:3.4949 train_time:286861ms step_avg:154.64ms
step:1866/3200 train_loss:3.2595 train_time:287015ms step_avg:154.64ms
step:1867/3200 train_loss:3.3901 train_time:287166ms step_avg:154.64ms
step:1868/3200 train_loss:3.3476 train_time:287320ms step_avg:154.64ms
step:1869/3200 train_loss:3.3497 train_time:287474ms step_avg:154.64ms
step:1870/3200 train_loss:3.5061 train_time:287627ms step_avg:154.64ms
step:1871/3200 train_loss:3.4894 train_time:287781ms step_avg:154.64ms
step:1872/3200 train_loss:3.4327 train_time:287935ms step_avg:154.64ms
step:1873/3200 train_loss:3.4460 train_time:288086ms step_avg:154.64ms
step:1874/3200 train_loss:3.3812 train_time:288240ms step_avg:154.64ms
step:1875/3200 train_loss:3.4772 train_time:288392ms step_avg:154.63ms
step:1875/3200 val_loss:3.4542 train_time:288439ms step_avg:154.66ms
step:1876/3200 train_loss:3.4774 train_time:288549ms step_avg:154.63ms
step:1877/3200 train_loss:3.4039 train_time:288703ms step_avg:154.63ms
step:1878/3200 train_loss:3.4517 train_time:288855ms step_avg:154.63ms
step:1879/3200 train_loss:3.5596 train_time:289007ms step_avg:154.63ms
step:1880/3200 train_loss:3.4378 train_time:289160ms step_avg:154.63ms
step:1881/3200 train_loss:3.4905 train_time:289311ms step_avg:154.63ms
step:1882/3200 train_loss:3.4142 train_time:289465ms step_avg:154.63ms
step:1883/3200 train_loss:3.4806 train_time:289623ms step_avg:154.63ms
step:1884/3200 train_loss:3.4765 train_time:289777ms step_avg:154.63ms
step:1885/3200 train_loss:3.2334 train_time:289929ms step_avg:154.63ms
step:1886/3200 train_loss:3.6279 train_time:290082ms step_avg:154.63ms
step:1887/3200 train_loss:3.3633 train_time:290233ms step_avg:154.63ms
step:1888/3200 train_loss:3.3800 train_time:290386ms step_avg:154.63ms
step:1889/3200 train_loss:3.4533 train_time:290543ms step_avg:154.63ms
step:1890/3200 train_loss:3.4953 train_time:290841ms step_avg:154.70ms
step:1891/3200 train_loss:3.3153 train_time:291003ms step_avg:154.71ms
step:1892/3200 train_loss:3.5932 train_time:291154ms step_avg:154.70ms
step:1893/3200 train_loss:3.3499 train_time:291305ms step_avg:154.70ms
step:1894/3200 train_loss:3.4832 train_time:291457ms step_avg:154.70ms
step:1895/3200 train_loss:3.5184 train_time:291607ms step_avg:154.70ms
step:1896/3200 train_loss:3.3243 train_time:291762ms step_avg:154.70ms
step:1897/3200 train_loss:3.4900 train_time:291920ms step_avg:154.70ms
step:1898/3200 train_loss:3.4478 train_time:292073ms step_avg:154.70ms
step:1899/3200 train_loss:3.5219 train_time:292225ms step_avg:154.70ms
step:1900/3200 train_loss:3.3071 train_time:292546ms step_avg:154.79ms
step:1901/3200 train_loss:3.5412 train_time:292697ms step_avg:154.78ms
step:1902/3200 train_loss:3.4316 train_time:292845ms step_avg:154.78ms
step:1903/3200 train_loss:3.5920 train_time:292998ms step_avg:154.78ms
step:1904/3200 train_loss:3.3879 train_time:293148ms step_avg:154.78ms
step:1905/3200 train_loss:3.6723 train_time:293299ms step_avg:154.78ms
step:1906/3200 train_loss:3.4093 train_time:293455ms step_avg:154.78ms
step:1907/3200 train_loss:3.4001 train_time:293612ms step_avg:154.78ms
step:1908/3200 train_loss:3.4792 train_time:293765ms step_avg:154.78ms
step:1909/3200 train_loss:3.3556 train_time:293919ms step_avg:154.78ms
step:1910/3200 train_loss:3.4273 train_time:294070ms step_avg:154.77ms
step:1911/3200 train_loss:3.5157 train_time:294221ms step_avg:154.77ms
step:1912/3200 train_loss:3.4460 train_time:294372ms step_avg:154.77ms
step:1913/3200 train_loss:3.3254 train_time:294527ms step_avg:154.77ms
step:1914/3200 train_loss:3.1948 train_time:294682ms step_avg:154.77ms
step:1915/3200 train_loss:3.3879 train_time:294835ms step_avg:154.77ms
step:1916/3200 train_loss:3.6097 train_time:294987ms step_avg:154.77ms
step:1917/3200 train_loss:3.6093 train_time:295141ms step_avg:154.77ms
step:1918/3200 train_loss:3.5648 train_time:295294ms step_avg:154.77ms
step:1919/3200 train_loss:3.3848 train_time:295447ms step_avg:154.77ms
step:1920/3200 train_loss:3.6376 train_time:295601ms step_avg:154.76ms
step:1921/3200 train_loss:3.4542 train_time:295755ms step_avg:154.76ms
step:1922/3200 train_loss:3.3897 train_time:295908ms step_avg:154.76ms
step:1923/3200 train_loss:3.5654 train_time:296061ms step_avg:154.76ms
step:1924/3200 train_loss:3.5261 train_time:296214ms step_avg:154.76ms
step:1925/3200 train_loss:3.3705 train_time:296365ms step_avg:154.76ms
step:1926/3200 train_loss:3.3999 train_time:296520ms step_avg:154.76ms
step:1927/3200 train_loss:3.3135 train_time:296672ms step_avg:154.76ms
step:1928/3200 train_loss:3.4231 train_time:296826ms step_avg:154.76ms
step:1929/3200 train_loss:3.2781 train_time:296980ms step_avg:154.76ms
step:1930/3200 train_loss:3.3954 train_time:297132ms step_avg:154.76ms
step:1931/3200 train_loss:3.5337 train_time:297285ms step_avg:154.76ms
step:1932/3200 train_loss:3.3950 train_time:297439ms step_avg:154.75ms
step:1933/3200 train_loss:3.5411 train_time:297591ms step_avg:154.75ms
step:1934/3200 train_loss:3.4060 train_time:297745ms step_avg:154.75ms
step:1935/3200 train_loss:3.4542 train_time:297900ms step_avg:154.75ms
step:1936/3200 train_loss:3.4910 train_time:298053ms step_avg:154.75ms
step:1937/3200 train_loss:3.4511 train_time:298205ms step_avg:154.75ms
step:1938/3200 train_loss:3.4763 train_time:298359ms step_avg:154.75ms
step:1939/3200 train_loss:3.4025 train_time:298512ms step_avg:154.75ms
step:1940/3200 train_loss:3.4970 train_time:298663ms step_avg:154.75ms
step:1941/3200 train_loss:3.5284 train_time:298818ms step_avg:154.75ms
step:1942/3200 train_loss:3.3692 train_time:298971ms step_avg:154.75ms
step:1943/3200 train_loss:3.4036 train_time:299125ms step_avg:154.75ms
step:1944/3200 train_loss:3.4676 train_time:299279ms step_avg:154.75ms
step:1945/3200 train_loss:3.3199 train_time:299431ms step_avg:154.74ms
step:1946/3200 train_loss:3.5876 train_time:299584ms step_avg:154.74ms
step:1947/3200 train_loss:3.4644 train_time:299738ms step_avg:154.74ms
step:1948/3200 train_loss:3.4337 train_time:299891ms step_avg:154.74ms
step:1949/3200 train_loss:3.4312 train_time:300045ms step_avg:154.74ms
step:1950/3200 train_loss:3.3186 train_time:300199ms step_avg:154.74ms
step:1951/3200 train_loss:3.4388 train_time:300352ms step_avg:154.74ms
step:1952/3200 train_loss:3.2905 train_time:300504ms step_avg:154.74ms
step:1953/3200 train_loss:3.4939 train_time:300655ms step_avg:154.74ms
step:1954/3200 train_loss:3.4934 train_time:300807ms step_avg:154.74ms
step:1955/3200 train_loss:3.4444 train_time:300961ms step_avg:154.74ms
step:1956/3200 train_loss:3.3342 train_time:301114ms step_avg:154.73ms
step:1957/3200 train_loss:3.4277 train_time:301266ms step_avg:154.73ms
step:1958/3200 train_loss:3.6070 train_time:301421ms step_avg:154.73ms
step:1959/3200 train_loss:3.5275 train_time:301573ms step_avg:154.73ms
step:1960/3200 train_loss:3.5430 train_time:301726ms step_avg:154.73ms
step:1961/3200 train_loss:3.3498 train_time:301880ms step_avg:154.73ms
step:1962/3200 train_loss:3.4726 train_time:302032ms step_avg:154.73ms
step:1963/3200 train_loss:3.5177 train_time:302185ms step_avg:154.73ms
step:1964/3200 train_loss:3.4593 train_time:302340ms step_avg:154.73ms
step:1965/3200 train_loss:3.3708 train_time:302492ms step_avg:154.73ms
step:1966/3200 train_loss:3.7797 train_time:302645ms step_avg:154.73ms
step:1967/3200 train_loss:3.3819 train_time:302800ms step_avg:154.73ms
step:1968/3200 train_loss:3.4273 train_time:302952ms step_avg:154.72ms
step:1969/3200 train_loss:3.4824 train_time:303104ms step_avg:154.72ms
step:1970/3200 train_loss:3.4362 train_time:303258ms step_avg:154.72ms
step:1971/3200 train_loss:3.3268 train_time:303410ms step_avg:154.72ms
step:1972/3200 train_loss:3.3017 train_time:303563ms step_avg:154.72ms
step:1973/3200 train_loss:3.4267 train_time:303715ms step_avg:154.72ms
step:1974/3200 train_loss:3.3967 train_time:303868ms step_avg:154.72ms
step:1975/3200 train_loss:3.3760 train_time:304022ms step_avg:154.72ms
step:1976/3200 train_loss:3.5307 train_time:304174ms step_avg:154.72ms
step:1977/3200 train_loss:3.4039 train_time:304327ms step_avg:154.72ms
step:1978/3200 train_loss:3.7635 train_time:304482ms step_avg:154.72ms
step:1979/3200 train_loss:3.4453 train_time:304634ms step_avg:154.71ms
step:1980/3200 train_loss:3.4486 train_time:304787ms step_avg:154.71ms
step:1981/3200 train_loss:3.4603 train_time:304941ms step_avg:154.71ms
step:1982/3200 train_loss:3.4811 train_time:305094ms step_avg:154.71ms
step:1983/3200 train_loss:3.4057 train_time:305247ms step_avg:154.71ms
step:1984/3200 train_loss:3.3700 train_time:305401ms step_avg:154.71ms
step:1985/3200 train_loss:3.4339 train_time:305554ms step_avg:154.71ms
step:1986/3200 train_loss:3.4911 train_time:305706ms step_avg:154.71ms
step:1987/3200 train_loss:3.4641 train_time:305861ms step_avg:154.71ms
step:1988/3200 train_loss:3.4380 train_time:306014ms step_avg:154.71ms
step:1989/3200 train_loss:3.5197 train_time:306166ms step_avg:154.71ms
step:1990/3200 train_loss:3.5567 train_time:306320ms step_avg:154.71ms
step:1991/3200 train_loss:3.3382 train_time:306473ms step_avg:154.71ms
step:1992/3200 train_loss:3.3280 train_time:306625ms step_avg:154.71ms
step:1993/3200 train_loss:3.5074 train_time:306780ms step_avg:154.70ms
step:1994/3200 train_loss:3.3323 train_time:306932ms step_avg:154.70ms
step:1995/3200 train_loss:3.4142 train_time:307085ms step_avg:154.70ms
step:1996/3200 train_loss:3.4957 train_time:307239ms step_avg:154.70ms
step:1997/3200 train_loss:3.3622 train_time:307392ms step_avg:154.70ms
step:1998/3200 train_loss:3.4654 train_time:307545ms step_avg:154.70ms
step:1999/3200 train_loss:3.4593 train_time:307700ms step_avg:154.70ms
step:2000/3200 train_loss:3.3851 train_time:307853ms step_avg:154.70ms
step:2000/3200 val_loss:3.4407 train_time:307899ms step_avg:154.72ms
step:2001/3200 train_loss:3.5300 train_time:308009ms step_avg:154.70ms
step:2002/3200 train_loss:3.4718 train_time:308163ms step_avg:154.70ms
step:2003/3200 train_loss:3.5663 train_time:308314ms step_avg:154.70ms
step:2004/3200 train_loss:3.4817 train_time:308465ms step_avg:154.70ms
step:2005/3200 train_loss:3.4934 train_time:308616ms step_avg:154.69ms
step:2006/3200 train_loss:3.3794 train_time:308768ms step_avg:154.69ms
step:2007/3200 train_loss:3.4046 train_time:308926ms step_avg:154.69ms
step:2008/3200 train_loss:3.4543 train_time:309081ms step_avg:154.70ms
step:2009/3200 train_loss:3.4909 train_time:309235ms step_avg:154.69ms
step:2010/3200 train_loss:3.3944 train_time:309388ms step_avg:154.69ms
step:2011/3200 train_loss:3.4763 train_time:309541ms step_avg:154.69ms
step:2012/3200 train_loss:3.4560 train_time:309693ms step_avg:154.69ms
step:2013/3200 train_loss:3.4556 train_time:309845ms step_avg:154.69ms
step:2014/3200 train_loss:3.3668 train_time:310000ms step_avg:154.69ms
step:2015/3200 train_loss:3.4153 train_time:310153ms step_avg:154.69ms
step:2016/3200 train_loss:3.4296 train_time:310308ms step_avg:154.69ms
step:2017/3200 train_loss:3.5598 train_time:310462ms step_avg:154.69ms
step:2018/3200 train_loss:3.4196 train_time:310613ms step_avg:154.69ms
step:2019/3200 train_loss:3.5562 train_time:310766ms step_avg:154.69ms
step:2020/3200 train_loss:3.5765 train_time:310919ms step_avg:154.69ms
step:2021/3200 train_loss:3.2787 train_time:311072ms step_avg:154.69ms
step:2022/3200 train_loss:3.5124 train_time:311226ms step_avg:154.68ms
step:2023/3200 train_loss:3.4438 train_time:311381ms step_avg:154.68ms
step:2024/3200 train_loss:3.5395 train_time:311533ms step_avg:154.68ms
step:2025/3200 train_loss:3.5816 train_time:311686ms step_avg:154.68ms
step:2026/3200 train_loss:3.3669 train_time:311840ms step_avg:154.68ms
step:2027/3200 train_loss:3.3971 train_time:311993ms step_avg:154.68ms
step:2028/3200 train_loss:3.3129 train_time:312146ms step_avg:154.68ms
step:2029/3200 train_loss:3.4153 train_time:312302ms step_avg:154.68ms
step:2030/3200 train_loss:3.3392 train_time:312453ms step_avg:154.68ms
step:2031/3200 train_loss:3.4348 train_time:312606ms step_avg:154.68ms
step:2032/3200 train_loss:3.4290 train_time:312760ms step_avg:154.68ms
step:2033/3200 train_loss:3.4411 train_time:312913ms step_avg:154.68ms
step:2034/3200 train_loss:3.3318 train_time:313067ms step_avg:154.68ms
step:2035/3200 train_loss:3.5039 train_time:313222ms step_avg:154.68ms
step:2036/3200 train_loss:3.5052 train_time:313374ms step_avg:154.68ms
step:2037/3200 train_loss:3.4874 train_time:313526ms step_avg:154.67ms
step:2038/3200 train_loss:3.3594 train_time:313680ms step_avg:154.67ms
step:2039/3200 train_loss:3.6173 train_time:313831ms step_avg:154.67ms
step:2040/3200 train_loss:3.4549 train_time:313984ms step_avg:154.67ms
step:2041/3200 train_loss:3.4710 train_time:314139ms step_avg:154.67ms
step:2042/3200 train_loss:3.4254 train_time:314291ms step_avg:154.67ms
step:2043/3200 train_loss:3.3126 train_time:314444ms step_avg:154.67ms
step:2044/3200 train_loss:3.4431 train_time:314597ms step_avg:154.67ms
step:2045/3200 train_loss:3.4333 train_time:314748ms step_avg:154.67ms
step:2046/3200 train_loss:3.2994 train_time:314903ms step_avg:154.67ms
step:2047/3200 train_loss:3.3801 train_time:315055ms step_avg:154.67ms
step:2048/3200 train_loss:3.4643 train_time:315209ms step_avg:154.67ms
step:2049/3200 train_loss:3.4128 train_time:315364ms step_avg:154.67ms
step:2050/3200 train_loss:3.4637 train_time:315518ms step_avg:154.67ms
step:2051/3200 train_loss:3.6015 train_time:315670ms step_avg:154.66ms
step:2052/3200 train_loss:3.4641 train_time:315824ms step_avg:154.66ms
step:2053/3200 train_loss:3.4206 train_time:315976ms step_avg:154.66ms
step:2054/3200 train_loss:3.3953 train_time:316128ms step_avg:154.66ms
step:2055/3200 train_loss:3.2665 train_time:316283ms step_avg:154.66ms
step:2056/3200 train_loss:3.3782 train_time:316437ms step_avg:154.66ms
step:2057/3200 train_loss:3.5505 train_time:316589ms step_avg:154.66ms
step:2058/3200 train_loss:3.5755 train_time:316743ms step_avg:154.66ms
step:2059/3200 train_loss:3.4394 train_time:316896ms step_avg:154.66ms
step:2060/3200 train_loss:3.4792 train_time:317048ms step_avg:154.66ms
step:2061/3200 train_loss:3.4655 train_time:317203ms step_avg:154.66ms
step:2062/3200 train_loss:3.4140 train_time:317354ms step_avg:154.66ms
step:2063/3200 train_loss:3.3336 train_time:317507ms step_avg:154.66ms
step:2064/3200 train_loss:3.6367 train_time:317662ms step_avg:154.66ms
step:2065/3200 train_loss:3.4944 train_time:317815ms step_avg:154.65ms
step:2066/3200 train_loss:3.4505 train_time:317968ms step_avg:154.65ms
step:2067/3200 train_loss:3.4877 train_time:318122ms step_avg:154.65ms
step:2068/3200 train_loss:3.3961 train_time:318273ms step_avg:154.65ms
step:2069/3200 train_loss:3.4426 train_time:318426ms step_avg:154.65ms
step:2070/3200 train_loss:3.5799 train_time:318580ms step_avg:154.65ms
step:2071/3200 train_loss:3.5866 train_time:318734ms step_avg:154.65ms
step:2072/3200 train_loss:3.4347 train_time:318887ms step_avg:154.65ms
step:2073/3200 train_loss:3.4674 train_time:319042ms step_avg:154.65ms
step:2074/3200 train_loss:3.3541 train_time:319195ms step_avg:154.65ms
step:2075/3200 train_loss:3.8907 train_time:319346ms step_avg:154.65ms
step:2076/3200 train_loss:3.3129 train_time:319500ms step_avg:154.65ms
step:2077/3200 train_loss:3.4834 train_time:319652ms step_avg:154.65ms
step:2078/3200 train_loss:3.3675 train_time:319807ms step_avg:154.65ms
step:2079/3200 train_loss:3.3495 train_time:320122ms step_avg:154.72ms
step:2080/3200 train_loss:3.4348 train_time:320273ms step_avg:154.72ms
step:2081/3200 train_loss:3.6899 train_time:320425ms step_avg:154.72ms
step:2082/3200 train_loss:3.3183 train_time:320576ms step_avg:154.72ms
step:2083/3200 train_loss:3.6597 train_time:320727ms step_avg:154.72ms
step:2084/3200 train_loss:3.3626 train_time:320879ms step_avg:154.71ms
step:2085/3200 train_loss:3.3474 train_time:321030ms step_avg:154.71ms
step:2086/3200 train_loss:3.5924 train_time:321188ms step_avg:154.72ms
step:2087/3200 train_loss:3.5116 train_time:321343ms step_avg:154.71ms
step:2088/3200 train_loss:3.5009 train_time:321494ms step_avg:154.71ms
step:2089/3200 train_loss:3.5634 train_time:321646ms step_avg:154.71ms
step:2090/3200 train_loss:3.4889 train_time:321965ms step_avg:154.79ms
step:2091/3200 train_loss:3.4758 train_time:322114ms step_avg:154.79ms
step:2092/3200 train_loss:3.4312 train_time:322266ms step_avg:154.79ms
step:2093/3200 train_loss:3.4941 train_time:322417ms step_avg:154.78ms
step:2094/3200 train_loss:3.4114 train_time:322568ms step_avg:154.78ms
step:2095/3200 train_loss:3.1941 train_time:322719ms step_avg:154.78ms
step:2096/3200 train_loss:3.4191 train_time:322874ms step_avg:154.78ms
step:2097/3200 train_loss:3.5902 train_time:323030ms step_avg:154.78ms
step:2098/3200 train_loss:3.4142 train_time:323183ms step_avg:154.78ms
step:2099/3200 train_loss:3.3069 train_time:323335ms step_avg:154.78ms
step:2100/3200 train_loss:3.4146 train_time:323486ms step_avg:154.78ms
step:2101/3200 train_loss:3.3691 train_time:323639ms step_avg:154.78ms
step:2102/3200 train_loss:3.5041 train_time:323792ms step_avg:154.78ms
step:2103/3200 train_loss:3.3493 train_time:323948ms step_avg:154.78ms
step:2104/3200 train_loss:3.3127 train_time:324103ms step_avg:154.78ms
step:2105/3200 train_loss:3.5670 train_time:324255ms step_avg:154.78ms
step:2106/3200 train_loss:3.2999 train_time:324408ms step_avg:154.77ms
step:2107/3200 train_loss:3.7033 train_time:324560ms step_avg:154.77ms
step:2108/3200 train_loss:3.5337 train_time:324711ms step_avg:154.77ms
step:2109/3200 train_loss:3.4421 train_time:324866ms step_avg:154.77ms
step:2110/3200 train_loss:3.4625 train_time:325023ms step_avg:154.77ms
step:2111/3200 train_loss:3.2824 train_time:325176ms step_avg:154.77ms
step:2112/3200 train_loss:3.7508 train_time:325329ms step_avg:154.77ms
step:2113/3200 train_loss:3.4511 train_time:325481ms step_avg:154.77ms
step:2114/3200 train_loss:3.3822 train_time:325633ms step_avg:154.77ms
step:2115/3200 train_loss:3.4980 train_time:325786ms step_avg:154.77ms
step:2116/3200 train_loss:3.4550 train_time:325941ms step_avg:154.77ms
step:2117/3200 train_loss:3.4447 train_time:326094ms step_avg:154.77ms
step:2118/3200 train_loss:3.5044 train_time:326248ms step_avg:154.77ms
step:2119/3200 train_loss:3.3498 train_time:326402ms step_avg:154.77ms
step:2120/3200 train_loss:3.4219 train_time:326555ms step_avg:154.77ms
step:2121/3200 train_loss:3.1206 train_time:326707ms step_avg:154.76ms
step:2122/3200 train_loss:3.3167 train_time:326861ms step_avg:154.76ms
step:2123/3200 train_loss:3.4868 train_time:327013ms step_avg:154.76ms
step:2124/3200 train_loss:3.3966 train_time:327167ms step_avg:154.76ms
step:2125/3200 train_loss:3.5594 train_time:327322ms step_avg:154.76ms
step:2125/3200 val_loss:3.4291 train_time:327368ms step_avg:154.78ms
step:2126/3200 train_loss:3.4195 train_time:327480ms step_avg:154.76ms
step:2127/3200 train_loss:3.5303 train_time:327633ms step_avg:154.76ms
step:2128/3200 train_loss:3.5060 train_time:327788ms step_avg:154.76ms
step:2129/3200 train_loss:3.3998 train_time:327938ms step_avg:154.76ms
step:2130/3200 train_loss:3.3604 train_time:328089ms step_avg:154.76ms
step:2131/3200 train_loss:3.3891 train_time:328240ms step_avg:154.76ms
step:2132/3200 train_loss:3.5402 train_time:328396ms step_avg:154.76ms
step:2133/3200 train_loss:3.4128 train_time:328553ms step_avg:154.76ms
step:2134/3200 train_loss:3.3208 train_time:328708ms step_avg:154.76ms
step:2135/3200 train_loss:3.3827 train_time:328861ms step_avg:154.76ms
step:2136/3200 train_loss:3.5116 train_time:329012ms step_avg:154.76ms
step:2137/3200 train_loss:3.5282 train_time:329165ms step_avg:154.76ms
step:2138/3200 train_loss:3.4670 train_time:329316ms step_avg:154.75ms
step:2139/3200 train_loss:3.4625 train_time:329471ms step_avg:154.75ms
step:2140/3200 train_loss:3.4433 train_time:329626ms step_avg:154.75ms
step:2141/3200 train_loss:3.5280 train_time:329778ms step_avg:154.75ms
step:2142/3200 train_loss:3.8241 train_time:329931ms step_avg:154.75ms
step:2143/3200 train_loss:3.3562 train_time:330085ms step_avg:154.75ms
step:2144/3200 train_loss:3.3858 train_time:330236ms step_avg:154.75ms
step:2145/3200 train_loss:3.4324 train_time:330390ms step_avg:154.75ms
step:2146/3200 train_loss:3.5643 train_time:330543ms step_avg:154.75ms
step:2147/3200 train_loss:3.4853 train_time:330697ms step_avg:154.75ms
step:2148/3200 train_loss:3.8976 train_time:330851ms step_avg:154.75ms
step:2149/3200 train_loss:3.4199 train_time:331004ms step_avg:154.75ms
step:2150/3200 train_loss:3.3825 train_time:331157ms step_avg:154.75ms
step:2151/3200 train_loss:3.4574 train_time:331310ms step_avg:154.75ms
step:2152/3200 train_loss:3.4797 train_time:331462ms step_avg:154.74ms
step:2153/3200 train_loss:3.4353 train_time:331615ms step_avg:154.74ms
step:2154/3200 train_loss:3.3768 train_time:331769ms step_avg:154.74ms
step:2155/3200 train_loss:3.5854 train_time:331922ms step_avg:154.74ms
step:2156/3200 train_loss:3.2057 train_time:332076ms step_avg:154.74ms
step:2157/3200 train_loss:3.3658 train_time:332229ms step_avg:154.74ms
step:2158/3200 train_loss:3.5019 train_time:332382ms step_avg:154.74ms
step:2159/3200 train_loss:3.4446 train_time:332535ms step_avg:154.74ms
step:2160/3200 train_loss:3.5999 train_time:332689ms step_avg:154.74ms
step:2161/3200 train_loss:3.5082 train_time:332841ms step_avg:154.74ms
step:2162/3200 train_loss:3.4353 train_time:332995ms step_avg:154.74ms
step:2163/3200 train_loss:3.4119 train_time:333149ms step_avg:154.74ms
step:2164/3200 train_loss:3.4028 train_time:333302ms step_avg:154.74ms
step:2165/3200 train_loss:3.4892 train_time:333455ms step_avg:154.74ms
step:2166/3200 train_loss:3.5079 train_time:333609ms step_avg:154.74ms
step:2167/3200 train_loss:3.4384 train_time:333762ms step_avg:154.73ms
step:2168/3200 train_loss:3.3375 train_time:333916ms step_avg:154.73ms
step:2169/3200 train_loss:3.4246 train_time:334069ms step_avg:154.73ms
step:2170/3200 train_loss:3.4548 train_time:334222ms step_avg:154.73ms
step:2171/3200 train_loss:3.5886 train_time:334375ms step_avg:154.73ms
step:2172/3200 train_loss:3.3811 train_time:334529ms step_avg:154.73ms
step:2173/3200 train_loss:3.3678 train_time:334681ms step_avg:154.73ms
step:2174/3200 train_loss:3.3883 train_time:334834ms step_avg:154.73ms
step:2175/3200 train_loss:3.4308 train_time:334988ms step_avg:154.73ms
step:2176/3200 train_loss:3.3926 train_time:335141ms step_avg:154.73ms
step:2177/3200 train_loss:3.3666 train_time:335294ms step_avg:154.73ms
step:2178/3200 train_loss:3.5872 train_time:335448ms step_avg:154.73ms
step:2179/3200 train_loss:3.4100 train_time:335601ms step_avg:154.73ms
step:2180/3200 train_loss:3.4239 train_time:335753ms step_avg:154.73ms
step:2181/3200 train_loss:3.4718 train_time:335908ms step_avg:154.72ms
step:2182/3200 train_loss:3.4593 train_time:336060ms step_avg:154.72ms
step:2183/3200 train_loss:3.4152 train_time:336213ms step_avg:154.72ms
step:2184/3200 train_loss:3.3237 train_time:336368ms step_avg:154.72ms
step:2185/3200 train_loss:3.4990 train_time:336521ms step_avg:154.72ms
step:2186/3200 train_loss:3.6554 train_time:336674ms step_avg:154.72ms
step:2187/3200 train_loss:3.3040 train_time:336829ms step_avg:154.72ms
step:2188/3200 train_loss:3.3489 train_time:336981ms step_avg:154.72ms
step:2189/3200 train_loss:3.1898 train_time:337134ms step_avg:154.72ms
step:2190/3200 train_loss:3.3490 train_time:337289ms step_avg:154.72ms
step:2191/3200 train_loss:3.5041 train_time:337442ms step_avg:154.72ms
step:2192/3200 train_loss:3.4253 train_time:337594ms step_avg:154.72ms
step:2193/3200 train_loss:3.6605 train_time:337748ms step_avg:154.72ms
step:2194/3200 train_loss:3.4284 train_time:337902ms step_avg:154.72ms
step:2195/3200 train_loss:3.4882 train_time:338054ms step_avg:154.72ms
step:2196/3200 train_loss:3.4323 train_time:338208ms step_avg:154.72ms
step:2197/3200 train_loss:3.3572 train_time:338361ms step_avg:154.71ms
step:2198/3200 train_loss:3.4357 train_time:338514ms step_avg:154.71ms
step:2199/3200 train_loss:3.3779 train_time:338667ms step_avg:154.71ms
step:2200/3200 train_loss:3.3798 train_time:338821ms step_avg:154.71ms
step:2201/3200 train_loss:3.4288 train_time:338974ms step_avg:154.71ms
step:2202/3200 train_loss:3.4151 train_time:339128ms step_avg:154.71ms
step:2203/3200 train_loss:3.4000 train_time:339280ms step_avg:154.71ms
step:2204/3200 train_loss:3.8995 train_time:339433ms step_avg:154.71ms
step:2205/3200 train_loss:3.3122 train_time:339588ms step_avg:154.71ms
step:2206/3200 train_loss:3.4333 train_time:339740ms step_avg:154.71ms
step:2207/3200 train_loss:3.4493 train_time:339893ms step_avg:154.71ms
step:2208/3200 train_loss:3.4591 train_time:340047ms step_avg:154.71ms
step:2209/3200 train_loss:3.3659 train_time:340199ms step_avg:154.71ms
step:2210/3200 train_loss:3.4354 train_time:340353ms step_avg:154.71ms
step:2211/3200 train_loss:3.4453 train_time:340508ms step_avg:154.71ms
step:2212/3200 train_loss:3.4443 train_time:340661ms step_avg:154.71ms
step:2213/3200 train_loss:3.4676 train_time:340814ms step_avg:154.70ms
step:2214/3200 train_loss:3.3262 train_time:340968ms step_avg:154.70ms
step:2215/3200 train_loss:3.3926 train_time:341122ms step_avg:154.70ms
step:2216/3200 train_loss:3.5272 train_time:341274ms step_avg:154.70ms
step:2217/3200 train_loss:3.4760 train_time:341428ms step_avg:154.70ms
step:2218/3200 train_loss:3.4431 train_time:341582ms step_avg:154.70ms
step:2219/3200 train_loss:3.4471 train_time:341734ms step_avg:154.70ms
step:2220/3200 train_loss:3.3600 train_time:341889ms step_avg:154.70ms
step:2221/3200 train_loss:3.6136 train_time:342041ms step_avg:154.70ms
step:2222/3200 train_loss:3.5070 train_time:342195ms step_avg:154.70ms
step:2223/3200 train_loss:3.5258 train_time:342348ms step_avg:154.70ms
step:2224/3200 train_loss:3.4058 train_time:342501ms step_avg:154.70ms
step:2225/3200 train_loss:3.5371 train_time:342654ms step_avg:154.70ms
step:2226/3200 train_loss:3.2861 train_time:342809ms step_avg:154.70ms
step:2227/3200 train_loss:3.5575 train_time:342962ms step_avg:154.70ms
step:2228/3200 train_loss:3.4887 train_time:343114ms step_avg:154.70ms
step:2229/3200 train_loss:3.2946 train_time:343268ms step_avg:154.69ms
step:2230/3200 train_loss:3.6442 train_time:343421ms step_avg:154.69ms
step:2231/3200 train_loss:3.3377 train_time:343574ms step_avg:154.69ms
step:2232/3200 train_loss:3.7996 train_time:343729ms step_avg:154.69ms
step:2233/3200 train_loss:3.4868 train_time:343882ms step_avg:154.69ms
step:2234/3200 train_loss:3.4381 train_time:344034ms step_avg:154.69ms
step:2235/3200 train_loss:3.4576 train_time:344188ms step_avg:154.69ms
step:2236/3200 train_loss:3.2441 train_time:344340ms step_avg:154.69ms
step:2237/3200 train_loss:3.2509 train_time:344493ms step_avg:154.69ms
step:2238/3200 train_loss:3.4744 train_time:344648ms step_avg:154.69ms
step:2239/3200 train_loss:3.5730 train_time:344800ms step_avg:154.69ms
step:2240/3200 train_loss:3.2865 train_time:344953ms step_avg:154.69ms
step:2241/3200 train_loss:3.3548 train_time:345107ms step_avg:154.69ms
step:2242/3200 train_loss:3.5446 train_time:345260ms step_avg:154.69ms
step:2243/3200 train_loss:3.5019 train_time:345413ms step_avg:154.69ms
step:2244/3200 train_loss:3.3657 train_time:345567ms step_avg:154.69ms
step:2245/3200 train_loss:3.4370 train_time:345719ms step_avg:154.68ms
step:2246/3200 train_loss:3.4567 train_time:345871ms step_avg:154.68ms
step:2247/3200 train_loss:3.2876 train_time:346027ms step_avg:154.68ms
step:2248/3200 train_loss:3.3090 train_time:346179ms step_avg:154.68ms
step:2249/3200 train_loss:3.5719 train_time:346332ms step_avg:154.68ms
step:2250/3200 train_loss:3.2863 train_time:346488ms step_avg:154.68ms
step:2250/3200 val_loss:3.4186 train_time:346533ms step_avg:154.70ms
step:2251/3200 train_loss:3.2988 train_time:346646ms step_avg:154.68ms
step:2252/3200 train_loss:3.3686 train_time:346797ms step_avg:154.68ms
step:2253/3200 train_loss:3.3451 train_time:346949ms step_avg:154.68ms
step:2254/3200 train_loss:3.3987 train_time:347100ms step_avg:154.68ms
step:2255/3200 train_loss:3.4494 train_time:347252ms step_avg:154.68ms
step:2256/3200 train_loss:3.3211 train_time:347403ms step_avg:154.68ms
step:2257/3200 train_loss:3.6106 train_time:347561ms step_avg:154.68ms
step:2258/3200 train_loss:3.4841 train_time:347717ms step_avg:154.68ms
step:2259/3200 train_loss:3.8026 train_time:347872ms step_avg:154.68ms
step:2260/3200 train_loss:3.4844 train_time:348023ms step_avg:154.68ms
step:2261/3200 train_loss:3.5353 train_time:348175ms step_avg:154.68ms
step:2262/3200 train_loss:3.4496 train_time:348326ms step_avg:154.67ms
step:2263/3200 train_loss:3.4512 train_time:348479ms step_avg:154.67ms
step:2264/3200 train_loss:3.2092 train_time:348635ms step_avg:154.67ms
step:2265/3200 train_loss:3.3359 train_time:348791ms step_avg:154.67ms
step:2266/3200 train_loss:3.5531 train_time:348944ms step_avg:154.67ms
step:2267/3200 train_loss:3.2862 train_time:349096ms step_avg:154.67ms
step:2268/3200 train_loss:3.3571 train_time:349400ms step_avg:154.74ms
step:2269/3200 train_loss:3.3351 train_time:349561ms step_avg:154.74ms
step:2270/3200 train_loss:3.2945 train_time:349713ms step_avg:154.74ms
step:2271/3200 train_loss:3.6958 train_time:349863ms step_avg:154.74ms
step:2272/3200 train_loss:3.3520 train_time:350014ms step_avg:154.74ms
step:2273/3200 train_loss:3.3603 train_time:350165ms step_avg:154.73ms
step:2274/3200 train_loss:3.4386 train_time:350318ms step_avg:154.73ms
step:2275/3200 train_loss:3.3912 train_time:350478ms step_avg:154.74ms
step:2276/3200 train_loss:3.4027 train_time:350633ms step_avg:154.74ms
step:2277/3200 train_loss:3.2884 train_time:350785ms step_avg:154.74ms
step:2278/3200 train_loss:3.3906 train_time:350937ms step_avg:154.73ms
step:2279/3200 train_loss:3.5214 train_time:351091ms step_avg:154.73ms
step:2280/3200 train_loss:3.3212 train_time:351404ms step_avg:154.80ms
step:2281/3200 train_loss:3.3805 train_time:351557ms step_avg:154.80ms
step:2282/3200 train_loss:3.3926 train_time:351708ms step_avg:154.80ms
step:2283/3200 train_loss:3.5409 train_time:351859ms step_avg:154.80ms
step:2284/3200 train_loss:3.4099 train_time:352011ms step_avg:154.80ms
step:2285/3200 train_loss:3.4357 train_time:352162ms step_avg:154.80ms
step:2286/3200 train_loss:3.4292 train_time:352317ms step_avg:154.80ms
step:2287/3200 train_loss:3.4293 train_time:352479ms step_avg:154.80ms
step:2288/3200 train_loss:3.3860 train_time:352632ms step_avg:154.80ms
step:2289/3200 train_loss:3.5117 train_time:352783ms step_avg:154.80ms
step:2290/3200 train_loss:3.4823 train_time:352934ms step_avg:154.80ms
step:2291/3200 train_loss:3.3710 train_time:353085ms step_avg:154.79ms
step:2292/3200 train_loss:3.7057 train_time:353238ms step_avg:154.79ms
step:2293/3200 train_loss:3.3727 train_time:353395ms step_avg:154.79ms
step:2294/3200 train_loss:3.3141 train_time:353548ms step_avg:154.79ms
step:2295/3200 train_loss:3.5017 train_time:353701ms step_avg:154.79ms
step:2296/3200 train_loss:3.4463 train_time:353854ms step_avg:154.79ms
step:2297/3200 train_loss:3.4388 train_time:354005ms step_avg:154.79ms
step:2298/3200 train_loss:3.8095 train_time:354158ms step_avg:154.79ms
step:2299/3200 train_loss:3.3201 train_time:354313ms step_avg:154.79ms
step:2300/3200 train_loss:3.3199 train_time:354467ms step_avg:154.79ms
step:2301/3200 train_loss:3.6542 train_time:354619ms step_avg:154.79ms
step:2302/3200 train_loss:3.3811 train_time:354773ms step_avg:154.79ms
step:2303/3200 train_loss:3.3970 train_time:354925ms step_avg:154.79ms
step:2304/3200 train_loss:3.3912 train_time:355078ms step_avg:154.79ms
step:2305/3200 train_loss:3.3226 train_time:355232ms step_avg:154.79ms
step:2306/3200 train_loss:3.4746 train_time:355385ms step_avg:154.78ms
step:2307/3200 train_loss:3.3466 train_time:355539ms step_avg:154.78ms
step:2308/3200 train_loss:3.3619 train_time:355694ms step_avg:154.78ms
step:2309/3200 train_loss:3.4836 train_time:355846ms step_avg:154.78ms
step:2310/3200 train_loss:3.4556 train_time:355998ms step_avg:154.78ms
step:2311/3200 train_loss:3.3239 train_time:356150ms step_avg:154.78ms
step:2312/3200 train_loss:3.4339 train_time:356302ms step_avg:154.78ms
step:2313/3200 train_loss:3.5630 train_time:356456ms step_avg:154.78ms
step:2314/3200 train_loss:3.3706 train_time:356611ms step_avg:154.78ms
step:2315/3200 train_loss:3.3031 train_time:356764ms step_avg:154.78ms
step:2316/3200 train_loss:3.3938 train_time:356916ms step_avg:154.78ms
step:2317/3200 train_loss:3.2784 train_time:357069ms step_avg:154.78ms
step:2318/3200 train_loss:3.3786 train_time:357221ms step_avg:154.78ms
step:2319/3200 train_loss:3.4028 train_time:357376ms step_avg:154.78ms
step:2320/3200 train_loss:3.2542 train_time:357532ms step_avg:154.78ms
step:2321/3200 train_loss:3.3906 train_time:357684ms step_avg:154.77ms
step:2322/3200 train_loss:3.4349 train_time:357838ms step_avg:154.77ms
step:2323/3200 train_loss:3.3509 train_time:357991ms step_avg:154.77ms
step:2324/3200 train_loss:3.4030 train_time:358144ms step_avg:154.77ms
step:2325/3200 train_loss:3.3184 train_time:358297ms step_avg:154.77ms
step:2326/3200 train_loss:3.4598 train_time:358451ms step_avg:154.77ms
step:2327/3200 train_loss:3.4627 train_time:358604ms step_avg:154.77ms
step:2328/3200 train_loss:3.2394 train_time:358757ms step_avg:154.77ms
step:2329/3200 train_loss:3.3510 train_time:358912ms step_avg:154.77ms
step:2330/3200 train_loss:3.3748 train_time:359064ms step_avg:154.77ms
step:2331/3200 train_loss:3.3536 train_time:359216ms step_avg:154.77ms
step:2332/3200 train_loss:3.5338 train_time:359371ms step_avg:154.77ms
step:2333/3200 train_loss:3.4103 train_time:359522ms step_avg:154.77ms
step:2334/3200 train_loss:3.3919 train_time:359676ms step_avg:154.77ms
step:2335/3200 train_loss:3.4712 train_time:359830ms step_avg:154.77ms
step:2336/3200 train_loss:3.3071 train_time:359982ms step_avg:154.76ms
step:2337/3200 train_loss:3.4649 train_time:360136ms step_avg:154.76ms
step:2338/3200 train_loss:3.4217 train_time:360290ms step_avg:154.76ms
step:2339/3200 train_loss:3.3675 train_time:360443ms step_avg:154.76ms
step:2340/3200 train_loss:3.4456 train_time:360596ms step_avg:154.76ms
step:2341/3200 train_loss:3.5011 train_time:360749ms step_avg:154.76ms
step:2342/3200 train_loss:3.3606 train_time:360902ms step_avg:154.76ms
step:2343/3200 train_loss:3.3771 train_time:361055ms step_avg:154.76ms
step:2344/3200 train_loss:3.4378 train_time:361209ms step_avg:154.76ms
step:2345/3200 train_loss:3.3842 train_time:361362ms step_avg:154.76ms
step:2346/3200 train_loss:3.5019 train_time:361515ms step_avg:154.76ms
step:2347/3200 train_loss:3.4055 train_time:361669ms step_avg:154.76ms
step:2348/3200 train_loss:3.5168 train_time:361820ms step_avg:154.76ms
step:2349/3200 train_loss:3.4750 train_time:361974ms step_avg:154.76ms
step:2350/3200 train_loss:3.5115 train_time:362127ms step_avg:154.75ms
step:2351/3200 train_loss:3.2115 train_time:362279ms step_avg:154.75ms
step:2352/3200 train_loss:3.3309 train_time:362432ms step_avg:154.75ms
step:2353/3200 train_loss:3.3296 train_time:362586ms step_avg:154.75ms
step:2354/3200 train_loss:3.5440 train_time:362739ms step_avg:154.75ms
step:2355/3200 train_loss:3.3345 train_time:362893ms step_avg:154.75ms
step:2356/3200 train_loss:3.3322 train_time:363046ms step_avg:154.75ms
step:2357/3200 train_loss:3.4849 train_time:363198ms step_avg:154.75ms
step:2358/3200 train_loss:3.3367 train_time:363353ms step_avg:154.75ms
step:2359/3200 train_loss:3.4363 train_time:363506ms step_avg:154.75ms
step:2360/3200 train_loss:3.3378 train_time:363659ms step_avg:154.75ms
step:2361/3200 train_loss:3.3551 train_time:363813ms step_avg:154.75ms
step:2362/3200 train_loss:3.3770 train_time:363966ms step_avg:154.75ms
step:2363/3200 train_loss:3.4406 train_time:364118ms step_avg:154.75ms
step:2364/3200 train_loss:3.3943 train_time:364272ms step_avg:154.75ms
step:2365/3200 train_loss:3.8323 train_time:364425ms step_avg:154.75ms
step:2366/3200 train_loss:3.4561 train_time:364578ms step_avg:154.74ms
step:2367/3200 train_loss:3.6021 train_time:364732ms step_avg:154.74ms
step:2368/3200 train_loss:3.4161 train_time:364886ms step_avg:154.74ms
step:2369/3200 train_loss:3.4250 train_time:365038ms step_avg:154.74ms
step:2370/3200 train_loss:3.4586 train_time:365193ms step_avg:154.74ms
step:2371/3200 train_loss:3.3367 train_time:365345ms step_avg:154.74ms
step:2372/3200 train_loss:3.5713 train_time:365498ms step_avg:154.74ms
step:2373/3200 train_loss:3.4157 train_time:365652ms step_avg:154.74ms
step:2374/3200 train_loss:3.9770 train_time:365806ms step_avg:154.74ms
step:2375/3200 train_loss:3.4003 train_time:365958ms step_avg:154.74ms
step:2375/3200 val_loss:3.4025 train_time:366006ms step_avg:154.76ms
step:2376/3200 train_loss:3.2998 train_time:366118ms step_avg:154.74ms
step:2377/3200 train_loss:3.4575 train_time:366271ms step_avg:154.74ms
step:2378/3200 train_loss:3.4385 train_time:366423ms step_avg:154.74ms
step:2379/3200 train_loss:3.4504 train_time:366575ms step_avg:154.74ms
step:2380/3200 train_loss:3.4251 train_time:366726ms step_avg:154.74ms
step:2381/3200 train_loss:3.3309 train_time:366877ms step_avg:154.74ms
step:2382/3200 train_loss:3.4306 train_time:367032ms step_avg:154.74ms
step:2383/3200 train_loss:3.4461 train_time:367188ms step_avg:154.74ms
step:2384/3200 train_loss:3.3873 train_time:367343ms step_avg:154.74ms
step:2385/3200 train_loss:3.3220 train_time:367496ms step_avg:154.74ms
step:2386/3200 train_loss:3.4372 train_time:367649ms step_avg:154.73ms
step:2387/3200 train_loss:3.3859 train_time:367800ms step_avg:154.73ms
step:2388/3200 train_loss:3.3922 train_time:367954ms step_avg:154.73ms
step:2389/3200 train_loss:3.4237 train_time:368107ms step_avg:154.73ms
step:2390/3200 train_loss:3.4054 train_time:368261ms step_avg:154.73ms
step:2391/3200 train_loss:3.4056 train_time:368416ms step_avg:154.73ms
step:2392/3200 train_loss:3.2868 train_time:368568ms step_avg:154.73ms
step:2393/3200 train_loss:3.5107 train_time:368720ms step_avg:154.73ms
step:2394/3200 train_loss:3.3396 train_time:368873ms step_avg:154.73ms
step:2395/3200 train_loss:3.4450 train_time:369026ms step_avg:154.73ms
step:2396/3200 train_loss:3.5587 train_time:369179ms step_avg:154.73ms
step:2397/3200 train_loss:3.5565 train_time:369335ms step_avg:154.73ms
step:2398/3200 train_loss:3.5284 train_time:369488ms step_avg:154.73ms
step:2399/3200 train_loss:3.4916 train_time:369641ms step_avg:154.73ms
step:2400/3200 train_loss:3.3587 train_time:369795ms step_avg:154.73ms
step:2401/3200 train_loss:3.3623 train_time:369948ms step_avg:154.73ms
step:2402/3200 train_loss:3.4705 train_time:370100ms step_avg:154.72ms
step:2403/3200 train_loss:3.3001 train_time:370255ms step_avg:154.72ms
step:2404/3200 train_loss:3.4352 train_time:370409ms step_avg:154.72ms
step:2405/3200 train_loss:3.6474 train_time:370562ms step_avg:154.72ms
step:2406/3200 train_loss:3.3749 train_time:370715ms step_avg:154.72ms
step:2407/3200 train_loss:3.5219 train_time:370866ms step_avg:154.72ms
step:2408/3200 train_loss:3.3844 train_time:371021ms step_avg:154.72ms
step:2409/3200 train_loss:3.3137 train_time:371174ms step_avg:154.72ms
step:2410/3200 train_loss:3.4572 train_time:371328ms step_avg:154.72ms
step:2411/3200 train_loss:3.2331 train_time:371480ms step_avg:154.72ms
step:2412/3200 train_loss:3.6706 train_time:371635ms step_avg:154.72ms
step:2413/3200 train_loss:3.3623 train_time:371786ms step_avg:154.72ms
step:2414/3200 train_loss:3.4445 train_time:371939ms step_avg:154.72ms
step:2415/3200 train_loss:3.3585 train_time:372094ms step_avg:154.72ms
step:2416/3200 train_loss:3.4335 train_time:372246ms step_avg:154.72ms
step:2417/3200 train_loss:3.2409 train_time:372398ms step_avg:154.71ms
step:2418/3200 train_loss:3.1754 train_time:372555ms step_avg:154.72ms
step:2419/3200 train_loss:3.4738 train_time:372706ms step_avg:154.71ms
step:2420/3200 train_loss:3.3534 train_time:372859ms step_avg:154.71ms
step:2421/3200 train_loss:3.3779 train_time:373012ms step_avg:154.71ms
step:2422/3200 train_loss:3.4830 train_time:373164ms step_avg:154.71ms
step:2423/3200 train_loss:3.5272 train_time:373318ms step_avg:154.71ms
step:2424/3200 train_loss:3.3488 train_time:373473ms step_avg:154.71ms
step:2425/3200 train_loss:3.4446 train_time:373626ms step_avg:154.71ms
step:2426/3200 train_loss:3.4350 train_time:373778ms step_avg:154.71ms
step:2427/3200 train_loss:3.3631 train_time:373932ms step_avg:154.71ms
step:2428/3200 train_loss:3.3100 train_time:374085ms step_avg:154.71ms
step:2429/3200 train_loss:3.4475 train_time:374238ms step_avg:154.71ms
step:2430/3200 train_loss:3.3355 train_time:374393ms step_avg:154.71ms
step:2431/3200 train_loss:3.3937 train_time:374548ms step_avg:154.71ms
step:2432/3200 train_loss:3.4533 train_time:374699ms step_avg:154.71ms
step:2433/3200 train_loss:3.4208 train_time:374854ms step_avg:154.71ms
step:2434/3200 train_loss:3.2877 train_time:375005ms step_avg:154.71ms
step:2435/3200 train_loss:3.2524 train_time:375158ms step_avg:154.70ms
step:2436/3200 train_loss:3.4169 train_time:375311ms step_avg:154.70ms
step:2437/3200 train_loss:3.2797 train_time:375465ms step_avg:154.70ms
step:2438/3200 train_loss:3.3503 train_time:375619ms step_avg:154.70ms
step:2439/3200 train_loss:3.4501 train_time:375773ms step_avg:154.70ms
step:2440/3200 train_loss:3.3622 train_time:375927ms step_avg:154.70ms
step:2441/3200 train_loss:3.4468 train_time:376080ms step_avg:154.70ms
step:2442/3200 train_loss:3.3382 train_time:376234ms step_avg:154.70ms
step:2443/3200 train_loss:3.3880 train_time:376385ms step_avg:154.70ms
step:2444/3200 train_loss:3.2760 train_time:376540ms step_avg:154.70ms
step:2445/3200 train_loss:3.2875 train_time:376695ms step_avg:154.70ms
step:2446/3200 train_loss:3.4557 train_time:376847ms step_avg:154.70ms
step:2447/3200 train_loss:3.3220 train_time:377000ms step_avg:154.70ms
step:2448/3200 train_loss:3.3895 train_time:377155ms step_avg:154.70ms
step:2449/3200 train_loss:3.5612 train_time:377307ms step_avg:154.70ms
step:2450/3200 train_loss:3.3804 train_time:377460ms step_avg:154.70ms
step:2451/3200 train_loss:3.4503 train_time:377615ms step_avg:154.70ms
step:2452/3200 train_loss:3.3568 train_time:377767ms step_avg:154.70ms
step:2453/3200 train_loss:3.4613 train_time:377920ms step_avg:154.70ms
step:2454/3200 train_loss:3.3509 train_time:378075ms step_avg:154.70ms
step:2455/3200 train_loss:3.4757 train_time:378228ms step_avg:154.69ms
step:2456/3200 train_loss:3.4148 train_time:378381ms step_avg:154.69ms
step:2457/3200 train_loss:3.3342 train_time:378688ms step_avg:154.76ms
step:2458/3200 train_loss:3.2504 train_time:378850ms step_avg:154.76ms
step:2459/3200 train_loss:3.3934 train_time:379001ms step_avg:154.76ms
step:2460/3200 train_loss:3.9871 train_time:379153ms step_avg:154.76ms
step:2461/3200 train_loss:3.4408 train_time:379304ms step_avg:154.75ms
step:2462/3200 train_loss:3.2661 train_time:379455ms step_avg:154.75ms
step:2463/3200 train_loss:3.4630 train_time:379609ms step_avg:154.75ms
step:2464/3200 train_loss:3.3730 train_time:379765ms step_avg:154.75ms
step:2465/3200 train_loss:3.5758 train_time:379920ms step_avg:154.75ms
step:2466/3200 train_loss:3.7385 train_time:380073ms step_avg:154.75ms
step:2467/3200 train_loss:3.4924 train_time:380224ms step_avg:154.75ms
step:2468/3200 train_loss:3.3678 train_time:380377ms step_avg:154.75ms
step:2469/3200 train_loss:3.4868 train_time:380529ms step_avg:154.75ms
step:2470/3200 train_loss:3.4977 train_time:380846ms step_avg:154.82ms
step:2471/3200 train_loss:3.2974 train_time:380996ms step_avg:154.81ms
step:2472/3200 train_loss:3.3859 train_time:381145ms step_avg:154.81ms
step:2473/3200 train_loss:3.3836 train_time:381296ms step_avg:154.81ms
step:2474/3200 train_loss:3.5313 train_time:381448ms step_avg:154.81ms
step:2475/3200 train_loss:3.6623 train_time:381598ms step_avg:154.81ms
step:2476/3200 train_loss:3.2452 train_time:381757ms step_avg:154.81ms
step:2477/3200 train_loss:3.4590 train_time:381915ms step_avg:154.81ms
step:2478/3200 train_loss:3.4250 train_time:382067ms step_avg:154.81ms
step:2479/3200 train_loss:3.2561 train_time:382220ms step_avg:154.81ms
step:2480/3200 train_loss:3.2543 train_time:382371ms step_avg:154.81ms
step:2481/3200 train_loss:3.3994 train_time:382523ms step_avg:154.81ms
step:2482/3200 train_loss:3.4123 train_time:382676ms step_avg:154.80ms
step:2483/3200 train_loss:3.4262 train_time:382831ms step_avg:154.80ms
step:2484/3200 train_loss:3.3875 train_time:382984ms step_avg:154.80ms
step:2485/3200 train_loss:3.3937 train_time:383137ms step_avg:154.80ms
step:2486/3200 train_loss:3.2788 train_time:383289ms step_avg:154.80ms
step:2487/3200 train_loss:3.4787 train_time:383441ms step_avg:154.80ms
step:2488/3200 train_loss:3.4325 train_time:383595ms step_avg:154.80ms
step:2489/3200 train_loss:3.3339 train_time:383748ms step_avg:154.80ms
step:2490/3200 train_loss:3.4553 train_time:383902ms step_avg:154.80ms
step:2491/3200 train_loss:3.4930 train_time:384057ms step_avg:154.80ms
step:2492/3200 train_loss:3.5784 train_time:384210ms step_avg:154.80ms
step:2493/3200 train_loss:3.4275 train_time:384362ms step_avg:154.80ms
step:2494/3200 train_loss:3.3509 train_time:384515ms step_avg:154.80ms
step:2495/3200 train_loss:3.4739 train_time:384668ms step_avg:154.80ms
step:2496/3200 train_loss:3.4219 train_time:384820ms step_avg:154.79ms
step:2497/3200 train_loss:3.3326 train_time:384975ms step_avg:154.80ms
step:2498/3200 train_loss:3.4306 train_time:385127ms step_avg:154.79ms
step:2499/3200 train_loss:3.4865 train_time:385280ms step_avg:154.79ms
step:2500/3200 train_loss:3.5088 train_time:385434ms step_avg:154.79ms
step:2500/3200 val_loss:3.3795 train_time:385480ms step_avg:154.81ms
step:2501/3200 train_loss:3.4505 train_time:385590ms step_avg:154.79ms
step:2502/3200 train_loss:3.4089 train_time:385745ms step_avg:154.79ms
step:2503/3200 train_loss:3.4226 train_time:385897ms step_avg:154.79ms
step:2504/3200 train_loss:3.2837 train_time:386048ms step_avg:154.79ms
step:2505/3200 train_loss:3.4832 train_time:386199ms step_avg:154.79ms
step:2506/3200 train_loss:3.4290 train_time:386349ms step_avg:154.79ms
step:2507/3200 train_loss:3.3801 train_time:386505ms step_avg:154.79ms
step:2508/3200 train_loss:3.3830 train_time:386663ms step_avg:154.79ms
step:2509/3200 train_loss:3.3432 train_time:386817ms step_avg:154.79ms
step:2510/3200 train_loss:3.5188 train_time:386968ms step_avg:154.79ms
step:2511/3200 train_loss:3.3419 train_time:387121ms step_avg:154.79ms
step:2512/3200 train_loss:3.3292 train_time:387275ms step_avg:154.79ms
step:2513/3200 train_loss:3.4171 train_time:387428ms step_avg:154.79ms
step:2514/3200 train_loss:3.4369 train_time:387583ms step_avg:154.79ms
step:2515/3200 train_loss:3.3401 train_time:387739ms step_avg:154.79ms
step:2516/3200 train_loss:3.4248 train_time:387890ms step_avg:154.78ms
step:2517/3200 train_loss:3.4146 train_time:388043ms step_avg:154.78ms
step:2518/3200 train_loss:3.3020 train_time:388196ms step_avg:154.78ms
step:2519/3200 train_loss:3.3236 train_time:388348ms step_avg:154.78ms
step:2520/3200 train_loss:3.4446 train_time:388502ms step_avg:154.78ms
step:2521/3200 train_loss:3.4382 train_time:388655ms step_avg:154.78ms
step:2522/3200 train_loss:3.3279 train_time:388810ms step_avg:154.78ms
step:2523/3200 train_loss:3.2985 train_time:388963ms step_avg:154.78ms
step:2524/3200 train_loss:3.4014 train_time:389117ms step_avg:154.78ms
step:2525/3200 train_loss:3.2452 train_time:389268ms step_avg:154.78ms
step:2526/3200 train_loss:3.4664 train_time:389422ms step_avg:154.78ms
step:2527/3200 train_loss:3.3673 train_time:389577ms step_avg:154.78ms
step:2528/3200 train_loss:3.3777 train_time:389729ms step_avg:154.78ms
step:2529/3200 train_loss:3.3656 train_time:389883ms step_avg:154.78ms
step:2530/3200 train_loss:3.3771 train_time:390037ms step_avg:154.78ms
step:2531/3200 train_loss:3.4191 train_time:390188ms step_avg:154.78ms
step:2532/3200 train_loss:3.2438 train_time:390340ms step_avg:154.77ms
step:2533/3200 train_loss:3.4045 train_time:390495ms step_avg:154.77ms
step:2534/3200 train_loss:3.2943 train_time:390648ms step_avg:154.77ms
step:2535/3200 train_loss:3.3307 train_time:390802ms step_avg:154.77ms
step:2536/3200 train_loss:3.3931 train_time:390956ms step_avg:154.77ms
step:2537/3200 train_loss:3.3988 train_time:391107ms step_avg:154.77ms
step:2538/3200 train_loss:3.2262 train_time:391260ms step_avg:154.77ms
step:2539/3200 train_loss:3.5342 train_time:391415ms step_avg:154.77ms
step:2540/3200 train_loss:3.2292 train_time:391568ms step_avg:154.77ms
step:2541/3200 train_loss:3.4005 train_time:391722ms step_avg:154.77ms
step:2542/3200 train_loss:3.1786 train_time:391877ms step_avg:154.77ms
step:2543/3200 train_loss:3.6102 train_time:392029ms step_avg:154.77ms
step:2544/3200 train_loss:3.3754 train_time:392181ms step_avg:154.77ms
step:2545/3200 train_loss:3.5355 train_time:392335ms step_avg:154.77ms
step:2546/3200 train_loss:3.3654 train_time:392487ms step_avg:154.77ms
step:2547/3200 train_loss:3.3415 train_time:392642ms step_avg:154.77ms
step:2548/3200 train_loss:3.3469 train_time:392796ms step_avg:154.77ms
step:2549/3200 train_loss:3.5106 train_time:392949ms step_avg:154.77ms
step:2550/3200 train_loss:3.3671 train_time:393104ms step_avg:154.77ms
step:2551/3200 train_loss:3.3705 train_time:393258ms step_avg:154.77ms
step:2552/3200 train_loss:3.3996 train_time:393411ms step_avg:154.76ms
step:2553/3200 train_loss:3.4172 train_time:393563ms step_avg:154.76ms
step:2554/3200 train_loss:3.3265 train_time:393718ms step_avg:154.76ms
step:2555/3200 train_loss:3.4307 train_time:393871ms step_avg:154.76ms
step:2556/3200 train_loss:3.4870 train_time:394024ms step_avg:154.76ms
step:2557/3200 train_loss:3.4748 train_time:394178ms step_avg:154.76ms
step:2558/3200 train_loss:3.3203 train_time:394330ms step_avg:154.76ms
step:2559/3200 train_loss:3.3207 train_time:394483ms step_avg:154.76ms
step:2560/3200 train_loss:3.3275 train_time:394638ms step_avg:154.76ms
step:2561/3200 train_loss:3.4529 train_time:394790ms step_avg:154.76ms
step:2562/3200 train_loss:3.4868 train_time:394943ms step_avg:154.76ms
step:2563/3200 train_loss:3.3616 train_time:395097ms step_avg:154.76ms
step:2564/3200 train_loss:3.3968 train_time:395250ms step_avg:154.76ms
step:2565/3200 train_loss:3.3142 train_time:395404ms step_avg:154.76ms
step:2566/3200 train_loss:3.3284 train_time:395558ms step_avg:154.76ms
step:2567/3200 train_loss:3.3249 train_time:395710ms step_avg:154.76ms
step:2568/3200 train_loss:3.3738 train_time:395862ms step_avg:154.75ms
step:2569/3200 train_loss:3.5149 train_time:396016ms step_avg:154.75ms
step:2570/3200 train_loss:3.4173 train_time:396168ms step_avg:154.75ms
step:2571/3200 train_loss:3.4969 train_time:396323ms step_avg:154.75ms
step:2572/3200 train_loss:3.2599 train_time:396477ms step_avg:154.75ms
step:2573/3200 train_loss:3.3607 train_time:396629ms step_avg:154.75ms
step:2574/3200 train_loss:3.0132 train_time:396784ms step_avg:154.75ms
step:2575/3200 train_loss:3.2647 train_time:396938ms step_avg:154.75ms
step:2576/3200 train_loss:3.2089 train_time:397091ms step_avg:154.75ms
step:2577/3200 train_loss:3.3256 train_time:397245ms step_avg:154.75ms
step:2578/3200 train_loss:3.3708 train_time:397398ms step_avg:154.75ms
step:2579/3200 train_loss:3.2835 train_time:397551ms step_avg:154.75ms
step:2580/3200 train_loss:3.3423 train_time:397704ms step_avg:154.75ms
step:2581/3200 train_loss:3.2845 train_time:397858ms step_avg:154.75ms
step:2582/3200 train_loss:3.3936 train_time:398010ms step_avg:154.75ms
step:2583/3200 train_loss:3.2753 train_time:398163ms step_avg:154.75ms
step:2584/3200 train_loss:3.4591 train_time:398318ms step_avg:154.75ms
step:2585/3200 train_loss:3.3721 train_time:398471ms step_avg:154.75ms
step:2586/3200 train_loss:3.3868 train_time:398623ms step_avg:154.74ms
step:2587/3200 train_loss:3.5059 train_time:398777ms step_avg:154.74ms
step:2588/3200 train_loss:3.3980 train_time:398930ms step_avg:154.74ms
step:2589/3200 train_loss:3.2605 train_time:399082ms step_avg:154.74ms
step:2590/3200 train_loss:3.4216 train_time:399237ms step_avg:154.74ms
step:2591/3200 train_loss:3.3311 train_time:399390ms step_avg:154.74ms
step:2592/3200 train_loss:3.5462 train_time:399542ms step_avg:154.74ms
step:2593/3200 train_loss:3.4040 train_time:399696ms step_avg:154.74ms
step:2594/3200 train_loss:3.2262 train_time:399848ms step_avg:154.74ms
step:2595/3200 train_loss:3.2983 train_time:400001ms step_avg:154.74ms
step:2596/3200 train_loss:3.7264 train_time:400155ms step_avg:154.74ms
step:2597/3200 train_loss:3.3929 train_time:400307ms step_avg:154.74ms
step:2598/3200 train_loss:3.3851 train_time:400461ms step_avg:154.74ms
step:2599/3200 train_loss:3.2284 train_time:400616ms step_avg:154.74ms
step:2600/3200 train_loss:3.4749 train_time:400768ms step_avg:154.74ms
step:2601/3200 train_loss:3.6402 train_time:400921ms step_avg:154.74ms
step:2602/3200 train_loss:3.2249 train_time:401076ms step_avg:154.74ms
step:2603/3200 train_loss:3.3629 train_time:401229ms step_avg:154.74ms
step:2604/3200 train_loss:3.2098 train_time:401382ms step_avg:154.73ms
step:2605/3200 train_loss:3.4948 train_time:401537ms step_avg:154.74ms
step:2606/3200 train_loss:3.3654 train_time:401689ms step_avg:154.73ms
step:2607/3200 train_loss:3.2546 train_time:401842ms step_avg:154.73ms
step:2608/3200 train_loss:3.2177 train_time:401995ms step_avg:154.73ms
step:2609/3200 train_loss:3.3333 train_time:402147ms step_avg:154.73ms
step:2610/3200 train_loss:3.5120 train_time:402300ms step_avg:154.73ms
step:2611/3200 train_loss:3.3767 train_time:402454ms step_avg:154.73ms
step:2612/3200 train_loss:3.2274 train_time:402606ms step_avg:154.73ms
step:2613/3200 train_loss:3.3021 train_time:402760ms step_avg:154.73ms
step:2614/3200 train_loss:3.4209 train_time:402913ms step_avg:154.73ms
step:2615/3200 train_loss:3.3514 train_time:403065ms step_avg:154.73ms
step:2616/3200 train_loss:3.3499 train_time:403219ms step_avg:154.73ms
step:2617/3200 train_loss:3.3926 train_time:403373ms step_avg:154.73ms
step:2618/3200 train_loss:3.4203 train_time:403525ms step_avg:154.73ms
step:2619/3200 train_loss:3.2726 train_time:403679ms step_avg:154.73ms
step:2620/3200 train_loss:3.4436 train_time:403833ms step_avg:154.73ms
step:2621/3200 train_loss:3.4075 train_time:403985ms step_avg:154.72ms
step:2622/3200 train_loss:3.5372 train_time:404139ms step_avg:154.72ms
step:2623/3200 train_loss:3.4551 train_time:404292ms step_avg:154.72ms
step:2624/3200 train_loss:3.3716 train_time:404445ms step_avg:154.72ms
step:2625/3200 train_loss:3.3253 train_time:404599ms step_avg:154.72ms
step:2625/3200 val_loss:3.3563 train_time:404647ms step_avg:154.74ms
step:2626/3200 train_loss:3.3539 train_time:404757ms step_avg:154.72ms
step:2627/3200 train_loss:3.4133 train_time:404913ms step_avg:154.72ms
step:2628/3200 train_loss:3.2257 train_time:405064ms step_avg:154.72ms
step:2629/3200 train_loss:3.5000 train_time:405216ms step_avg:154.72ms
step:2630/3200 train_loss:3.3828 train_time:405367ms step_avg:154.72ms
step:2631/3200 train_loss:3.4278 train_time:405520ms step_avg:154.72ms
step:2632/3200 train_loss:3.6581 train_time:405675ms step_avg:154.72ms
step:2633/3200 train_loss:3.3982 train_time:405831ms step_avg:154.72ms
step:2634/3200 train_loss:3.3243 train_time:405985ms step_avg:154.72ms
step:2635/3200 train_loss:3.2970 train_time:406139ms step_avg:154.72ms
step:2636/3200 train_loss:3.3349 train_time:406290ms step_avg:154.72ms
step:2637/3200 train_loss:3.1227 train_time:406442ms step_avg:154.72ms
step:2638/3200 train_loss:3.4417 train_time:406593ms step_avg:154.72ms
step:2639/3200 train_loss:3.4111 train_time:406747ms step_avg:154.72ms
step:2640/3200 train_loss:3.2979 train_time:406902ms step_avg:154.72ms
step:2641/3200 train_loss:3.3826 train_time:407055ms step_avg:154.71ms
step:2642/3200 train_loss:3.4161 train_time:407207ms step_avg:154.71ms
step:2643/3200 train_loss:3.2096 train_time:407361ms step_avg:154.71ms
step:2644/3200 train_loss:3.3296 train_time:407513ms step_avg:154.71ms
step:2645/3200 train_loss:3.4051 train_time:407664ms step_avg:154.71ms
step:2646/3200 train_loss:3.3622 train_time:407965ms step_avg:154.77ms
step:2647/3200 train_loss:3.2549 train_time:408126ms step_avg:154.77ms
step:2648/3200 train_loss:3.4790 train_time:408279ms step_avg:154.77ms
step:2649/3200 train_loss:3.7260 train_time:408429ms step_avg:154.77ms
step:2650/3200 train_loss:3.3718 train_time:408581ms step_avg:154.77ms
step:2651/3200 train_loss:3.3358 train_time:408732ms step_avg:154.76ms
step:2652/3200 train_loss:3.4758 train_time:408886ms step_avg:154.76ms
step:2653/3200 train_loss:3.3030 train_time:409043ms step_avg:154.76ms
step:2654/3200 train_loss:3.2911 train_time:409198ms step_avg:154.76ms
step:2655/3200 train_loss:3.3684 train_time:409351ms step_avg:154.76ms
step:2656/3200 train_loss:3.2867 train_time:409504ms step_avg:154.76ms
step:2657/3200 train_loss:3.3167 train_time:409656ms step_avg:154.76ms
step:2658/3200 train_loss:3.2885 train_time:409807ms step_avg:154.76ms
step:2659/3200 train_loss:3.3759 train_time:409962ms step_avg:154.76ms
step:2660/3200 train_loss:3.5140 train_time:410284ms step_avg:154.82ms
step:2661/3200 train_loss:3.3114 train_time:410434ms step_avg:154.82ms
step:2662/3200 train_loss:3.4618 train_time:410585ms step_avg:154.82ms
step:2663/3200 train_loss:3.3237 train_time:410737ms step_avg:154.82ms
step:2664/3200 train_loss:3.3203 train_time:410888ms step_avg:154.82ms
step:2665/3200 train_loss:3.2521 train_time:411040ms step_avg:154.82ms
step:2666/3200 train_loss:3.2943 train_time:411196ms step_avg:154.82ms
step:2667/3200 train_loss:3.3438 train_time:411351ms step_avg:154.82ms
step:2668/3200 train_loss:3.3804 train_time:411503ms step_avg:154.82ms
step:2669/3200 train_loss:3.2912 train_time:411657ms step_avg:154.82ms
step:2670/3200 train_loss:3.3535 train_time:411809ms step_avg:154.82ms
step:2671/3200 train_loss:3.2451 train_time:411961ms step_avg:154.81ms
step:2672/3200 train_loss:3.3115 train_time:412113ms step_avg:154.81ms
step:2673/3200 train_loss:3.2920 train_time:412267ms step_avg:154.81ms
step:2674/3200 train_loss:3.3627 train_time:412422ms step_avg:154.81ms
step:2675/3200 train_loss:3.3868 train_time:412574ms step_avg:154.81ms
step:2676/3200 train_loss:3.3502 train_time:412727ms step_avg:154.81ms
step:2677/3200 train_loss:3.3424 train_time:412880ms step_avg:154.81ms
step:2678/3200 train_loss:3.3698 train_time:413034ms step_avg:154.81ms
step:2679/3200 train_loss:3.4160 train_time:413187ms step_avg:154.81ms
step:2680/3200 train_loss:3.3210 train_time:413340ms step_avg:154.81ms
step:2681/3200 train_loss:3.2456 train_time:413495ms step_avg:154.81ms
step:2682/3200 train_loss:3.2925 train_time:413647ms step_avg:154.81ms
step:2683/3200 train_loss:3.7637 train_time:413801ms step_avg:154.81ms
step:2684/3200 train_loss:3.3484 train_time:413953ms step_avg:154.81ms
step:2685/3200 train_loss:3.3847 train_time:414106ms step_avg:154.81ms
step:2686/3200 train_loss:3.4259 train_time:414259ms step_avg:154.81ms
step:2687/3200 train_loss:3.3498 train_time:414414ms step_avg:154.81ms
step:2688/3200 train_loss:3.4300 train_time:414566ms step_avg:154.80ms
step:2689/3200 train_loss:3.3612 train_time:414721ms step_avg:154.80ms
step:2690/3200 train_loss:3.3384 train_time:414873ms step_avg:154.80ms
step:2691/3200 train_loss:3.3684 train_time:415025ms step_avg:154.80ms
step:2692/3200 train_loss:3.4457 train_time:415179ms step_avg:154.80ms
step:2693/3200 train_loss:3.2345 train_time:415332ms step_avg:154.80ms
step:2694/3200 train_loss:3.6211 train_time:415485ms step_avg:154.80ms
step:2695/3200 train_loss:3.4210 train_time:415638ms step_avg:154.80ms
step:2696/3200 train_loss:3.2206 train_time:415790ms step_avg:154.80ms
step:2697/3200 train_loss:3.4087 train_time:415944ms step_avg:154.80ms
step:2698/3200 train_loss:3.3720 train_time:416100ms step_avg:154.80ms
step:2699/3200 train_loss:3.3254 train_time:416252ms step_avg:154.80ms
step:2700/3200 train_loss:3.4250 train_time:416404ms step_avg:154.80ms
step:2701/3200 train_loss:3.4005 train_time:416558ms step_avg:154.80ms
step:2702/3200 train_loss:3.3017 train_time:416711ms step_avg:154.80ms
step:2703/3200 train_loss:3.3215 train_time:416864ms step_avg:154.80ms
step:2704/3200 train_loss:3.3332 train_time:417020ms step_avg:154.80ms
step:2705/3200 train_loss:3.3042 train_time:417172ms step_avg:154.79ms
step:2706/3200 train_loss:3.4663 train_time:417324ms step_avg:154.79ms
step:2707/3200 train_loss:3.4375 train_time:417478ms step_avg:154.79ms
step:2708/3200 train_loss:3.3407 train_time:417631ms step_avg:154.79ms
step:2709/3200 train_loss:3.3361 train_time:417784ms step_avg:154.79ms
step:2710/3200 train_loss:3.4388 train_time:417938ms step_avg:154.79ms
step:2711/3200 train_loss:3.3179 train_time:418089ms step_avg:154.79ms
step:2712/3200 train_loss:3.4327 train_time:418243ms step_avg:154.79ms
step:2713/3200 train_loss:3.1727 train_time:418396ms step_avg:154.79ms
step:2714/3200 train_loss:3.3686 train_time:418550ms step_avg:154.79ms
step:2715/3200 train_loss:3.2529 train_time:418703ms step_avg:154.79ms
step:2716/3200 train_loss:3.2708 train_time:418855ms step_avg:154.79ms
step:2717/3200 train_loss:3.4575 train_time:419008ms step_avg:154.79ms
step:2718/3200 train_loss:3.3623 train_time:419162ms step_avg:154.79ms
step:2719/3200 train_loss:3.5913 train_time:419314ms step_avg:154.79ms
step:2720/3200 train_loss:3.3232 train_time:419466ms step_avg:154.78ms
step:2721/3200 train_loss:3.3255 train_time:419621ms step_avg:154.78ms
step:2722/3200 train_loss:3.5567 train_time:419773ms step_avg:154.78ms
step:2723/3200 train_loss:3.3257 train_time:419926ms step_avg:154.78ms
step:2724/3200 train_loss:3.4945 train_time:420079ms step_avg:154.78ms
step:2725/3200 train_loss:3.3762 train_time:420231ms step_avg:154.78ms
step:2726/3200 train_loss:3.3362 train_time:420384ms step_avg:154.78ms
step:2727/3200 train_loss:3.3404 train_time:420536ms step_avg:154.78ms
step:2728/3200 train_loss:3.6793 train_time:420690ms step_avg:154.78ms
step:2729/3200 train_loss:3.4149 train_time:420844ms step_avg:154.78ms
step:2730/3200 train_loss:3.2688 train_time:420999ms step_avg:154.78ms
step:2731/3200 train_loss:3.3874 train_time:421152ms step_avg:154.78ms
step:2732/3200 train_loss:3.2923 train_time:421304ms step_avg:154.78ms
step:2733/3200 train_loss:3.1792 train_time:421457ms step_avg:154.78ms
step:2734/3200 train_loss:3.2921 train_time:421608ms step_avg:154.78ms
step:2735/3200 train_loss:3.3641 train_time:421762ms step_avg:154.78ms
step:2736/3200 train_loss:3.2587 train_time:421917ms step_avg:154.78ms
step:2737/3200 train_loss:3.6627 train_time:422069ms step_avg:154.77ms
step:2738/3200 train_loss:3.4025 train_time:422223ms step_avg:154.77ms
step:2739/3200 train_loss:3.6004 train_time:422376ms step_avg:154.77ms
step:2740/3200 train_loss:3.3539 train_time:422529ms step_avg:154.77ms
step:2741/3200 train_loss:3.3447 train_time:422683ms step_avg:154.77ms
step:2742/3200 train_loss:3.2862 train_time:422837ms step_avg:154.77ms
step:2743/3200 train_loss:3.3578 train_time:422990ms step_avg:154.77ms
step:2744/3200 train_loss:3.3715 train_time:423143ms step_avg:154.77ms
step:2745/3200 train_loss:3.4545 train_time:423297ms step_avg:154.77ms
step:2746/3200 train_loss:3.2372 train_time:423450ms step_avg:154.77ms
step:2747/3200 train_loss:3.3248 train_time:423603ms step_avg:154.77ms
step:2748/3200 train_loss:3.3695 train_time:423755ms step_avg:154.77ms
step:2749/3200 train_loss:3.4813 train_time:423908ms step_avg:154.77ms
step:2750/3200 train_loss:3.3186 train_time:424062ms step_avg:154.77ms
step:2750/3200 val_loss:3.3356 train_time:424110ms step_avg:154.78ms
step:2751/3200 train_loss:3.4038 train_time:424221ms step_avg:154.77ms
step:2752/3200 train_loss:3.4483 train_time:424374ms step_avg:154.77ms
step:2753/3200 train_loss:3.3561 train_time:424526ms step_avg:154.77ms
step:2754/3200 train_loss:3.2887 train_time:424734ms step_avg:154.79ms
step:2755/3200 train_loss:3.2931 train_time:424842ms step_avg:154.77ms
step:2756/3200 train_loss:3.3713 train_time:424993ms step_avg:154.77ms
step:2757/3200 train_loss:3.3071 train_time:425147ms step_avg:154.77ms
step:2758/3200 train_loss:3.1892 train_time:425303ms step_avg:154.77ms
step:2759/3200 train_loss:3.5800 train_time:425456ms step_avg:154.77ms
step:2760/3200 train_loss:3.3889 train_time:425609ms step_avg:154.77ms
step:2761/3200 train_loss:3.3550 train_time:425763ms step_avg:154.77ms
step:2762/3200 train_loss:3.3235 train_time:425914ms step_avg:154.77ms
step:2763/3200 train_loss:3.2331 train_time:426067ms step_avg:154.76ms
step:2764/3200 train_loss:3.4020 train_time:426222ms step_avg:154.76ms
step:2765/3200 train_loss:3.3260 train_time:426376ms step_avg:154.76ms
step:2766/3200 train_loss:3.2209 train_time:426528ms step_avg:154.76ms
step:2767/3200 train_loss:3.3133 train_time:426682ms step_avg:154.76ms
step:2768/3200 train_loss:3.3943 train_time:426836ms step_avg:154.76ms
step:2769/3200 train_loss:3.2710 train_time:426989ms step_avg:154.76ms
step:2770/3200 train_loss:3.3519 train_time:427142ms step_avg:154.76ms
step:2771/3200 train_loss:3.3256 train_time:427294ms step_avg:154.76ms
step:2772/3200 train_loss:3.7656 train_time:427447ms step_avg:154.76ms
step:2773/3200 train_loss:3.2399 train_time:427601ms step_avg:154.76ms
step:2774/3200 train_loss:3.3724 train_time:427754ms step_avg:154.76ms
step:2775/3200 train_loss:3.4331 train_time:427907ms step_avg:154.76ms
step:2776/3200 train_loss:3.3920 train_time:428061ms step_avg:154.76ms
step:2777/3200 train_loss:3.4670 train_time:428213ms step_avg:154.76ms
step:2778/3200 train_loss:3.4776 train_time:428366ms step_avg:154.76ms
step:2779/3200 train_loss:3.3503 train_time:428520ms step_avg:154.76ms
step:2780/3200 train_loss:3.2113 train_time:428673ms step_avg:154.76ms
step:2781/3200 train_loss:3.3546 train_time:428826ms step_avg:154.76ms
step:2782/3200 train_loss:3.3797 train_time:428981ms step_avg:154.75ms
step:2783/3200 train_loss:3.2490 train_time:429133ms step_avg:154.75ms
step:2784/3200 train_loss:3.3406 train_time:429286ms step_avg:154.75ms
step:2785/3200 train_loss:3.4089 train_time:429441ms step_avg:154.75ms
step:2786/3200 train_loss:3.2876 train_time:429595ms step_avg:154.75ms
step:2787/3200 train_loss:3.4005 train_time:429746ms step_avg:154.75ms
step:2788/3200 train_loss:3.3667 train_time:429900ms step_avg:154.75ms
step:2789/3200 train_loss:3.2957 train_time:430052ms step_avg:154.75ms
step:2790/3200 train_loss:3.3857 train_time:430205ms step_avg:154.75ms
step:2791/3200 train_loss:3.3148 train_time:430358ms step_avg:154.75ms
step:2792/3200 train_loss:3.2139 train_time:430510ms step_avg:154.75ms
step:2793/3200 train_loss:3.3126 train_time:430665ms step_avg:154.75ms
step:2794/3200 train_loss:3.3625 train_time:430819ms step_avg:154.75ms
step:2795/3200 train_loss:3.2740 train_time:430972ms step_avg:154.75ms
step:2796/3200 train_loss:3.3182 train_time:431124ms step_avg:154.75ms
step:2797/3200 train_loss:3.2234 train_time:431278ms step_avg:154.75ms
step:2798/3200 train_loss:3.3336 train_time:431431ms step_avg:154.75ms
step:2799/3200 train_loss:3.2925 train_time:431584ms step_avg:154.74ms
step:2800/3200 train_loss:3.4533 train_time:431738ms step_avg:154.74ms
step:2801/3200 train_loss:3.4029 train_time:431892ms step_avg:154.74ms
step:2802/3200 train_loss:3.3823 train_time:432045ms step_avg:154.74ms
step:2803/3200 train_loss:3.3216 train_time:432198ms step_avg:154.74ms
step:2804/3200 train_loss:3.4971 train_time:432351ms step_avg:154.74ms
step:2805/3200 train_loss:3.4722 train_time:432504ms step_avg:154.74ms
step:2806/3200 train_loss:3.1953 train_time:432657ms step_avg:154.74ms
step:2807/3200 train_loss:3.5926 train_time:432810ms step_avg:154.74ms
step:2808/3200 train_loss:3.3404 train_time:432963ms step_avg:154.74ms
step:2809/3200 train_loss:3.2765 train_time:433114ms step_avg:154.74ms
step:2810/3200 train_loss:3.2879 train_time:433267ms step_avg:154.74ms
step:2811/3200 train_loss:3.4552 train_time:433422ms step_avg:154.74ms
step:2812/3200 train_loss:3.4362 train_time:433574ms step_avg:154.74ms
step:2813/3200 train_loss:3.1894 train_time:433727ms step_avg:154.74ms
step:2814/3200 train_loss:3.4127 train_time:433882ms step_avg:154.74ms
step:2815/3200 train_loss:3.4838 train_time:434036ms step_avg:154.74ms
step:2816/3200 train_loss:3.2884 train_time:434188ms step_avg:154.74ms
step:2817/3200 train_loss:2.9254 train_time:434342ms step_avg:154.74ms
step:2818/3200 train_loss:3.3087 train_time:434494ms step_avg:154.73ms
step:2819/3200 train_loss:3.2739 train_time:434646ms step_avg:154.73ms
step:2820/3200 train_loss:3.4787 train_time:434802ms step_avg:154.73ms
step:2821/3200 train_loss:3.3382 train_time:434954ms step_avg:154.73ms
step:2822/3200 train_loss:3.3920 train_time:435107ms step_avg:154.73ms
step:2823/3200 train_loss:3.3325 train_time:435261ms step_avg:154.73ms
step:2824/3200 train_loss:3.2978 train_time:435413ms step_avg:154.73ms
step:2825/3200 train_loss:3.2049 train_time:435567ms step_avg:154.73ms
step:2826/3200 train_loss:3.4550 train_time:435722ms step_avg:154.73ms
step:2827/3200 train_loss:3.3520 train_time:435874ms step_avg:154.73ms
step:2828/3200 train_loss:3.2461 train_time:436026ms step_avg:154.73ms
step:2829/3200 train_loss:3.3743 train_time:436180ms step_avg:154.73ms
step:2830/3200 train_loss:3.3708 train_time:436333ms step_avg:154.73ms
step:2831/3200 train_loss:3.3026 train_time:436486ms step_avg:154.73ms
step:2832/3200 train_loss:3.4513 train_time:436641ms step_avg:154.73ms
step:2833/3200 train_loss:3.3659 train_time:436794ms step_avg:154.73ms
step:2834/3200 train_loss:3.3502 train_time:436946ms step_avg:154.73ms
step:2835/3200 train_loss:3.1635 train_time:437253ms step_avg:154.78ms
step:2836/3200 train_loss:3.3835 train_time:437413ms step_avg:154.78ms
step:2837/3200 train_loss:3.3175 train_time:437566ms step_avg:154.78ms
step:2838/3200 train_loss:3.6054 train_time:437720ms step_avg:154.78ms
step:2839/3200 train_loss:3.2695 train_time:437870ms step_avg:154.78ms
step:2840/3200 train_loss:3.2851 train_time:438023ms step_avg:154.78ms
step:2841/3200 train_loss:3.3344 train_time:438177ms step_avg:154.78ms
step:2842/3200 train_loss:3.2671 train_time:438331ms step_avg:154.78ms
step:2843/3200 train_loss:3.2707 train_time:438486ms step_avg:154.78ms
step:2844/3200 train_loss:3.4435 train_time:438640ms step_avg:154.78ms
step:2845/3200 train_loss:3.3208 train_time:438792ms step_avg:154.78ms
step:2846/3200 train_loss:3.3559 train_time:438944ms step_avg:154.78ms
step:2847/3200 train_loss:3.3156 train_time:439098ms step_avg:154.78ms
step:2848/3200 train_loss:3.5745 train_time:439251ms step_avg:154.77ms
step:2849/3200 train_loss:3.2461 train_time:439405ms step_avg:154.77ms
step:2850/3200 train_loss:3.2832 train_time:439726ms step_avg:154.83ms
step:2851/3200 train_loss:3.3807 train_time:439877ms step_avg:154.83ms
step:2852/3200 train_loss:3.3575 train_time:440027ms step_avg:154.83ms
step:2853/3200 train_loss:3.3173 train_time:440179ms step_avg:154.83ms
step:2854/3200 train_loss:3.3854 train_time:440329ms step_avg:154.83ms
step:2855/3200 train_loss:3.2093 train_time:440480ms step_avg:154.83ms
step:2856/3200 train_loss:3.2377 train_time:440636ms step_avg:154.83ms
step:2857/3200 train_loss:3.3329 train_time:440792ms step_avg:154.83ms
step:2858/3200 train_loss:3.3267 train_time:440945ms step_avg:154.83ms
step:2859/3200 train_loss:3.2235 train_time:441099ms step_avg:154.83ms
step:2860/3200 train_loss:3.3112 train_time:441250ms step_avg:154.82ms
step:2861/3200 train_loss:3.2775 train_time:441402ms step_avg:154.82ms
step:2862/3200 train_loss:3.3125 train_time:441554ms step_avg:154.82ms
step:2863/3200 train_loss:3.3575 train_time:441709ms step_avg:154.82ms
step:2864/3200 train_loss:3.6221 train_time:441865ms step_avg:154.82ms
step:2865/3200 train_loss:3.4199 train_time:442019ms step_avg:154.82ms
step:2866/3200 train_loss:3.3184 train_time:442171ms step_avg:154.82ms
step:2867/3200 train_loss:3.1947 train_time:442324ms step_avg:154.82ms
step:2868/3200 train_loss:3.4034 train_time:442477ms step_avg:154.82ms
step:2869/3200 train_loss:3.3577 train_time:442628ms step_avg:154.82ms
step:2870/3200 train_loss:3.3143 train_time:442783ms step_avg:154.82ms
step:2871/3200 train_loss:3.4556 train_time:442938ms step_avg:154.82ms
step:2872/3200 train_loss:3.2221 train_time:443091ms step_avg:154.82ms
step:2873/3200 train_loss:3.2964 train_time:443242ms step_avg:154.82ms
step:2874/3200 train_loss:3.1668 train_time:443396ms step_avg:154.82ms
step:2875/3200 train_loss:3.3166 train_time:443548ms step_avg:154.82ms
step:2875/3200 val_loss:3.3159 train_time:443596ms step_avg:154.83ms
step:2876/3200 train_loss:3.2360 train_time:443705ms step_avg:154.82ms
step:2877/3200 train_loss:3.2238 train_time:443860ms step_avg:154.82ms
step:2878/3200 train_loss:3.3052 train_time:444013ms step_avg:154.82ms
step:2879/3200 train_loss:3.4272 train_time:444165ms step_avg:154.82ms
step:2880/3200 train_loss:3.3721 train_time:444316ms step_avg:154.81ms
step:2881/3200 train_loss:3.3257 train_time:444467ms step_avg:154.81ms
step:2882/3200 train_loss:3.3126 train_time:444624ms step_avg:154.81ms
step:2883/3200 train_loss:3.4288 train_time:444780ms step_avg:154.81ms
step:2884/3200 train_loss:3.2081 train_time:444934ms step_avg:154.81ms
step:2885/3200 train_loss:3.2253 train_time:445086ms step_avg:154.81ms
step:2886/3200 train_loss:3.2792 train_time:445238ms step_avg:154.81ms
step:2887/3200 train_loss:3.2779 train_time:445390ms step_avg:154.81ms
step:2888/3200 train_loss:3.2767 train_time:445543ms step_avg:154.81ms
step:2889/3200 train_loss:3.3120 train_time:445698ms step_avg:154.81ms
step:2890/3200 train_loss:3.5026 train_time:445852ms step_avg:154.81ms
step:2891/3200 train_loss:3.3342 train_time:446004ms step_avg:154.81ms
step:2892/3200 train_loss:3.1703 train_time:446157ms step_avg:154.81ms
step:2893/3200 train_loss:3.1017 train_time:446308ms step_avg:154.81ms
step:2894/3200 train_loss:3.2419 train_time:446461ms step_avg:154.81ms
step:2895/3200 train_loss:3.1322 train_time:446616ms step_avg:154.81ms
step:2896/3200 train_loss:3.3102 train_time:446770ms step_avg:154.81ms
step:2897/3200 train_loss:3.4391 train_time:446923ms step_avg:154.81ms
step:2898/3200 train_loss:3.2617 train_time:447078ms step_avg:154.81ms
step:2899/3200 train_loss:3.3591 train_time:447230ms step_avg:154.80ms
step:2900/3200 train_loss:3.2352 train_time:447382ms step_avg:154.80ms
step:2901/3200 train_loss:3.4273 train_time:447536ms step_avg:154.80ms
step:2902/3200 train_loss:3.4138 train_time:447690ms step_avg:154.80ms
step:2903/3200 train_loss:3.4384 train_time:447844ms step_avg:154.80ms
step:2904/3200 train_loss:3.1701 train_time:447998ms step_avg:154.80ms
step:2905/3200 train_loss:3.3126 train_time:448151ms step_avg:154.80ms
step:2906/3200 train_loss:3.2942 train_time:448303ms step_avg:154.80ms
step:2907/3200 train_loss:3.3489 train_time:448456ms step_avg:154.80ms
step:2908/3200 train_loss:3.2968 train_time:448609ms step_avg:154.80ms
step:2909/3200 train_loss:3.2680 train_time:448763ms step_avg:154.80ms
step:2910/3200 train_loss:3.6034 train_time:448918ms step_avg:154.80ms
step:2911/3200 train_loss:3.3141 train_time:449072ms step_avg:154.80ms
step:2912/3200 train_loss:3.2297 train_time:449224ms step_avg:154.80ms
step:2913/3200 train_loss:3.2133 train_time:449377ms step_avg:154.80ms
step:2914/3200 train_loss:3.6883 train_time:449530ms step_avg:154.80ms
step:2915/3200 train_loss:3.2822 train_time:449682ms step_avg:154.80ms
step:2916/3200 train_loss:3.2290 train_time:449837ms step_avg:154.80ms
step:2917/3200 train_loss:3.2192 train_time:449990ms step_avg:154.80ms
step:2918/3200 train_loss:3.4997 train_time:450143ms step_avg:154.79ms
step:2919/3200 train_loss:3.0043 train_time:450298ms step_avg:154.79ms
step:2920/3200 train_loss:3.1964 train_time:450450ms step_avg:154.79ms
step:2921/3200 train_loss:3.2243 train_time:450603ms step_avg:154.79ms
step:2922/3200 train_loss:3.3230 train_time:450757ms step_avg:154.79ms
step:2923/3200 train_loss:3.3658 train_time:450910ms step_avg:154.79ms
step:2924/3200 train_loss:3.3915 train_time:451063ms step_avg:154.79ms
step:2925/3200 train_loss:3.4123 train_time:451217ms step_avg:154.79ms
step:2926/3200 train_loss:3.2982 train_time:451370ms step_avg:154.79ms
step:2927/3200 train_loss:3.2919 train_time:451522ms step_avg:154.79ms
step:2928/3200 train_loss:3.2860 train_time:451676ms step_avg:154.79ms
step:2929/3200 train_loss:3.2897 train_time:451829ms step_avg:154.79ms
step:2930/3200 train_loss:3.2489 train_time:451983ms step_avg:154.79ms
step:2931/3200 train_loss:3.2794 train_time:452137ms step_avg:154.79ms
step:2932/3200 train_loss:3.4059 train_time:452291ms step_avg:154.79ms
step:2933/3200 train_loss:3.4503 train_time:452443ms step_avg:154.79ms
step:2934/3200 train_loss:3.4196 train_time:452598ms step_avg:154.79ms
step:2935/3200 train_loss:3.2564 train_time:452750ms step_avg:154.79ms
step:2936/3200 train_loss:3.3082 train_time:452903ms step_avg:154.79ms
step:2937/3200 train_loss:3.2648 train_time:453057ms step_avg:154.79ms
step:2938/3200 train_loss:3.2863 train_time:453210ms step_avg:154.78ms
step:2939/3200 train_loss:3.3092 train_time:453362ms step_avg:154.78ms
step:2940/3200 train_loss:3.3467 train_time:453517ms step_avg:154.78ms
step:2941/3200 train_loss:3.3910 train_time:453670ms step_avg:154.78ms
step:2942/3200 train_loss:3.3827 train_time:453821ms step_avg:154.78ms
step:2943/3200 train_loss:3.3123 train_time:453977ms step_avg:154.78ms
step:2944/3200 train_loss:3.1874 train_time:454129ms step_avg:154.78ms
step:2945/3200 train_loss:3.1371 train_time:454282ms step_avg:154.78ms
step:2946/3200 train_loss:3.3413 train_time:454437ms step_avg:154.78ms
step:2947/3200 train_loss:3.4014 train_time:454589ms step_avg:154.78ms
step:2948/3200 train_loss:3.3415 train_time:454743ms step_avg:154.78ms
step:2949/3200 train_loss:3.5253 train_time:454897ms step_avg:154.78ms
step:2950/3200 train_loss:3.3278 train_time:455050ms step_avg:154.78ms
step:2951/3200 train_loss:3.3360 train_time:455202ms step_avg:154.78ms
step:2952/3200 train_loss:3.7349 train_time:455357ms step_avg:154.78ms
step:2953/3200 train_loss:3.4146 train_time:455510ms step_avg:154.78ms
step:2954/3200 train_loss:3.3579 train_time:455663ms step_avg:154.78ms
step:2955/3200 train_loss:3.3719 train_time:455817ms step_avg:154.78ms
step:2956/3200 train_loss:3.3042 train_time:455970ms step_avg:154.78ms
step:2957/3200 train_loss:3.3254 train_time:456122ms step_avg:154.78ms
step:2958/3200 train_loss:3.2061 train_time:456277ms step_avg:154.78ms
step:2959/3200 train_loss:3.2874 train_time:456429ms step_avg:154.77ms
step:2960/3200 train_loss:3.4287 train_time:456582ms step_avg:154.77ms
step:2961/3200 train_loss:3.2333 train_time:456736ms step_avg:154.77ms
step:2962/3200 train_loss:3.3582 train_time:456888ms step_avg:154.77ms
step:2963/3200 train_loss:3.2247 train_time:457040ms step_avg:154.77ms
step:2964/3200 train_loss:3.2863 train_time:457196ms step_avg:154.77ms
step:2965/3200 train_loss:3.2669 train_time:457349ms step_avg:154.77ms
step:2966/3200 train_loss:3.3705 train_time:457502ms step_avg:154.77ms
step:2967/3200 train_loss:3.2523 train_time:457656ms step_avg:154.77ms
step:2968/3200 train_loss:3.4886 train_time:457810ms step_avg:154.77ms
step:2969/3200 train_loss:3.3461 train_time:457962ms step_avg:154.77ms
step:2970/3200 train_loss:3.3661 train_time:458116ms step_avg:154.77ms
step:2971/3200 train_loss:3.3401 train_time:458270ms step_avg:154.77ms
step:2972/3200 train_loss:3.4119 train_time:458422ms step_avg:154.77ms
step:2973/3200 train_loss:3.2466 train_time:458577ms step_avg:154.77ms
step:2974/3200 train_loss:3.2513 train_time:458729ms step_avg:154.77ms
step:2975/3200 train_loss:3.1771 train_time:458883ms step_avg:154.77ms
step:2976/3200 train_loss:3.2501 train_time:459037ms step_avg:154.77ms
step:2977/3200 train_loss:3.2381 train_time:459189ms step_avg:154.77ms
step:2978/3200 train_loss:3.2640 train_time:459342ms step_avg:154.76ms
step:2979/3200 train_loss:3.5405 train_time:459497ms step_avg:154.76ms
step:2980/3200 train_loss:3.3453 train_time:459649ms step_avg:154.76ms
step:2981/3200 train_loss:3.3836 train_time:459803ms step_avg:154.76ms
step:2982/3200 train_loss:3.4018 train_time:459956ms step_avg:154.76ms
step:2983/3200 train_loss:3.4715 train_time:460110ms step_avg:154.76ms
step:2984/3200 train_loss:3.2873 train_time:460263ms step_avg:154.76ms
step:2985/3200 train_loss:3.3746 train_time:460418ms step_avg:154.76ms
step:2986/3200 train_loss:3.3821 train_time:460571ms step_avg:154.76ms
step:2987/3200 train_loss:3.3263 train_time:460724ms step_avg:154.76ms
step:2988/3200 train_loss:3.4472 train_time:460878ms step_avg:154.76ms
step:2989/3200 train_loss:3.0420 train_time:461031ms step_avg:154.76ms
step:2990/3200 train_loss:3.3936 train_time:461183ms step_avg:154.76ms
step:2991/3200 train_loss:3.3513 train_time:461338ms step_avg:154.76ms
step:2992/3200 train_loss:3.2985 train_time:461491ms step_avg:154.76ms
step:2993/3200 train_loss:3.2484 train_time:461643ms step_avg:154.76ms
step:2994/3200 train_loss:3.3793 train_time:461798ms step_avg:154.76ms
step:2995/3200 train_loss:3.2096 train_time:461951ms step_avg:154.76ms
step:2996/3200 train_loss:3.2206 train_time:462103ms step_avg:154.76ms
step:2997/3200 train_loss:3.2990 train_time:462257ms step_avg:154.76ms
step:2998/3200 train_loss:3.2420 train_time:462410ms step_avg:154.76ms
step:2999/3200 train_loss:3.3624 train_time:462562ms step_avg:154.75ms
step:3000/3200 train_loss:3.2668 train_time:462716ms step_avg:154.75ms
step:3000/3200 val_loss:3.2982 train_time:462763ms step_avg:154.77ms
step:3001/3200 train_loss:3.2597 train_time:462874ms step_avg:154.76ms
step:3002/3200 train_loss:3.2101 train_time:463027ms step_avg:154.76ms
step:3003/3200 train_loss:3.2364 train_time:463177ms step_avg:154.75ms
step:3004/3200 train_loss:3.3728 train_time:463329ms step_avg:154.75ms
step:3005/3200 train_loss:3.7078 train_time:463479ms step_avg:154.75ms
step:3006/3200 train_loss:3.2775 train_time:463632ms step_avg:154.75ms
step:3007/3200 train_loss:3.3526 train_time:463788ms step_avg:154.75ms
step:3008/3200 train_loss:3.1576 train_time:463943ms step_avg:154.75ms
step:3009/3200 train_loss:3.3828 train_time:464096ms step_avg:154.75ms
step:3010/3200 train_loss:3.2768 train_time:464250ms step_avg:154.75ms
step:3011/3200 train_loss:3.3377 train_time:464401ms step_avg:154.75ms
step:3012/3200 train_loss:3.3283 train_time:464552ms step_avg:154.75ms
step:3013/3200 train_loss:3.2109 train_time:464705ms step_avg:154.75ms
step:3014/3200 train_loss:3.4138 train_time:464860ms step_avg:154.75ms
step:3015/3200 train_loss:3.3737 train_time:465015ms step_avg:154.75ms
step:3016/3200 train_loss:3.2419 train_time:465169ms step_avg:154.75ms
step:3017/3200 train_loss:3.2859 train_time:465321ms step_avg:154.75ms
step:3018/3200 train_loss:3.3230 train_time:465473ms step_avg:154.75ms
step:3019/3200 train_loss:3.3685 train_time:465626ms step_avg:154.74ms
step:3020/3200 train_loss:3.1457 train_time:465778ms step_avg:154.74ms
step:3021/3200 train_loss:3.4514 train_time:465934ms step_avg:154.74ms
step:3022/3200 train_loss:3.2830 train_time:466086ms step_avg:154.74ms
step:3023/3200 train_loss:3.1994 train_time:466240ms step_avg:154.74ms
step:3024/3200 train_loss:3.3004 train_time:466547ms step_avg:154.79ms
step:3025/3200 train_loss:3.2724 train_time:466709ms step_avg:154.80ms
step:3026/3200 train_loss:3.3429 train_time:466859ms step_avg:154.79ms
step:3027/3200 train_loss:3.3611 train_time:467010ms step_avg:154.79ms
step:3028/3200 train_loss:3.2628 train_time:467161ms step_avg:154.79ms
step:3029/3200 train_loss:3.0691 train_time:467312ms step_avg:154.79ms
step:3030/3200 train_loss:3.4086 train_time:467465ms step_avg:154.79ms
step:3031/3200 train_loss:3.1734 train_time:467623ms step_avg:154.79ms
step:3032/3200 train_loss:3.1631 train_time:467777ms step_avg:154.79ms
step:3033/3200 train_loss:3.5000 train_time:467930ms step_avg:154.79ms
step:3034/3200 train_loss:3.5046 train_time:468080ms step_avg:154.79ms
step:3035/3200 train_loss:3.2671 train_time:468232ms step_avg:154.79ms
step:3036/3200 train_loss:3.3466 train_time:468384ms step_avg:154.79ms
step:3037/3200 train_loss:3.2901 train_time:468539ms step_avg:154.79ms
step:3038/3200 train_loss:3.2002 train_time:468695ms step_avg:154.79ms
step:3039/3200 train_loss:3.2458 train_time:468850ms step_avg:154.79ms
step:3040/3200 train_loss:3.3420 train_time:469161ms step_avg:154.84ms
step:3041/3200 train_loss:3.3335 train_time:469312ms step_avg:154.84ms
step:3042/3200 train_loss:3.1303 train_time:469464ms step_avg:154.84ms
step:3043/3200 train_loss:3.2883 train_time:469615ms step_avg:154.84ms
step:3044/3200 train_loss:3.3166 train_time:469766ms step_avg:154.83ms
step:3045/3200 train_loss:3.3294 train_time:469918ms step_avg:154.83ms
step:3046/3200 train_loss:3.4036 train_time:470073ms step_avg:154.83ms
step:3047/3200 train_loss:3.2197 train_time:470232ms step_avg:154.83ms
step:3048/3200 train_loss:3.3555 train_time:470384ms step_avg:154.83ms
step:3049/3200 train_loss:3.2925 train_time:470538ms step_avg:154.83ms
step:3050/3200 train_loss:3.2219 train_time:470690ms step_avg:154.83ms
step:3051/3200 train_loss:3.3424 train_time:470843ms step_avg:154.83ms
step:3052/3200 train_loss:3.1860 train_time:470994ms step_avg:154.83ms
step:3053/3200 train_loss:3.4306 train_time:471150ms step_avg:154.83ms
step:3054/3200 train_loss:3.3828 train_time:471304ms step_avg:154.83ms
step:3055/3200 train_loss:3.3565 train_time:471457ms step_avg:154.83ms
step:3056/3200 train_loss:3.3598 train_time:471610ms step_avg:154.83ms
step:3057/3200 train_loss:3.2377 train_time:471763ms step_avg:154.83ms
step:3058/3200 train_loss:3.2625 train_time:471917ms step_avg:154.83ms
step:3059/3200 train_loss:3.3334 train_time:472071ms step_avg:154.83ms
step:3060/3200 train_loss:3.2521 train_time:472223ms step_avg:154.83ms
step:3061/3200 train_loss:3.3106 train_time:472377ms step_avg:154.83ms
step:3062/3200 train_loss:3.3151 train_time:472531ms step_avg:154.83ms
step:3063/3200 train_loss:3.2549 train_time:472684ms step_avg:154.83ms
step:3064/3200 train_loss:3.2229 train_time:472837ms step_avg:154.83ms
step:3065/3200 train_loss:3.2397 train_time:472992ms step_avg:154.83ms
step:3066/3200 train_loss:3.2154 train_time:473145ms step_avg:154.82ms
step:3067/3200 train_loss:3.2035 train_time:473298ms step_avg:154.82ms
step:3068/3200 train_loss:3.1692 train_time:473452ms step_avg:154.82ms
step:3069/3200 train_loss:3.2093 train_time:473605ms step_avg:154.82ms
step:3070/3200 train_loss:3.1982 train_time:473758ms step_avg:154.82ms
step:3071/3200 train_loss:3.3886 train_time:473912ms step_avg:154.82ms
step:3072/3200 train_loss:3.3156 train_time:474065ms step_avg:154.82ms
step:3073/3200 train_loss:3.3643 train_time:474218ms step_avg:154.82ms
step:3074/3200 train_loss:3.3476 train_time:474373ms step_avg:154.82ms
step:3075/3200 train_loss:3.2952 train_time:474526ms step_avg:154.82ms
step:3076/3200 train_loss:3.3450 train_time:474677ms step_avg:154.82ms
step:3077/3200 train_loss:3.4017 train_time:474832ms step_avg:154.82ms
step:3078/3200 train_loss:3.2020 train_time:474985ms step_avg:154.82ms
step:3079/3200 train_loss:3.7333 train_time:475138ms step_avg:154.82ms
step:3080/3200 train_loss:3.2877 train_time:475293ms step_avg:154.82ms
step:3081/3200 train_loss:3.2498 train_time:475446ms step_avg:154.82ms
step:3082/3200 train_loss:3.4042 train_time:475597ms step_avg:154.82ms
step:3083/3200 train_loss:3.2053 train_time:475751ms step_avg:154.82ms
step:3084/3200 train_loss:3.2374 train_time:475903ms step_avg:154.82ms
step:3085/3200 train_loss:3.2959 train_time:476057ms step_avg:154.82ms
step:3086/3200 train_loss:3.3902 train_time:476211ms step_avg:154.81ms
step:3087/3200 train_loss:3.2984 train_time:476365ms step_avg:154.81ms
step:3088/3200 train_loss:3.2059 train_time:476518ms step_avg:154.81ms
step:3089/3200 train_loss:3.3630 train_time:476672ms step_avg:154.81ms
step:3090/3200 train_loss:3.2192 train_time:476825ms step_avg:154.81ms
step:3091/3200 train_loss:3.4879 train_time:476978ms step_avg:154.81ms
step:3092/3200 train_loss:4.0539 train_time:477133ms step_avg:154.81ms
step:3093/3200 train_loss:3.3221 train_time:477286ms step_avg:154.81ms
step:3094/3200 train_loss:3.2049 train_time:477438ms step_avg:154.81ms
step:3095/3200 train_loss:3.1689 train_time:477593ms step_avg:154.81ms
step:3096/3200 train_loss:3.3283 train_time:477746ms step_avg:154.81ms
step:3097/3200 train_loss:3.4742 train_time:477898ms step_avg:154.81ms
step:3098/3200 train_loss:3.2357 train_time:478053ms step_avg:154.81ms
step:3099/3200 train_loss:3.2711 train_time:478205ms step_avg:154.81ms
step:3100/3200 train_loss:3.4453 train_time:478359ms step_avg:154.81ms
step:3101/3200 train_loss:3.3539 train_time:478512ms step_avg:154.81ms
step:3102/3200 train_loss:3.3449 train_time:478665ms step_avg:154.81ms
step:3103/3200 train_loss:3.2544 train_time:478818ms step_avg:154.81ms
step:3104/3200 train_loss:3.5150 train_time:478971ms step_avg:154.81ms
step:3105/3200 train_loss:3.3347 train_time:479124ms step_avg:154.81ms
step:3106/3200 train_loss:3.1893 train_time:479277ms step_avg:154.81ms
step:3107/3200 train_loss:3.2096 train_time:479432ms step_avg:154.81ms
step:3108/3200 train_loss:3.1704 train_time:479585ms step_avg:154.80ms
step:3109/3200 train_loss:3.3975 train_time:479738ms step_avg:154.80ms
step:3110/3200 train_loss:3.2844 train_time:479892ms step_avg:154.80ms
step:3111/3200 train_loss:3.3172 train_time:480045ms step_avg:154.80ms
step:3112/3200 train_loss:3.2966 train_time:480197ms step_avg:154.80ms
step:3113/3200 train_loss:3.3458 train_time:480353ms step_avg:154.80ms
step:3114/3200 train_loss:3.3059 train_time:480506ms step_avg:154.80ms
step:3115/3200 train_loss:3.3059 train_time:480659ms step_avg:154.80ms
step:3116/3200 train_loss:3.3361 train_time:480813ms step_avg:154.80ms
step:3117/3200 train_loss:3.1874 train_time:480966ms step_avg:154.80ms
step:3118/3200 train_loss:3.2131 train_time:481118ms step_avg:154.80ms
step:3119/3200 train_loss:3.3914 train_time:481272ms step_avg:154.80ms
step:3120/3200 train_loss:3.3704 train_time:481425ms step_avg:154.80ms
step:3121/3200 train_loss:3.1593 train_time:481578ms step_avg:154.80ms
step:3122/3200 train_loss:3.3537 train_time:481733ms step_avg:154.80ms
step:3123/3200 train_loss:3.4163 train_time:481885ms step_avg:154.80ms
step:3124/3200 train_loss:3.3802 train_time:482039ms step_avg:154.80ms
step:3125/3200 train_loss:3.1779 train_time:482193ms step_avg:154.80ms
step:3125/3200 val_loss:3.2835 train_time:482240ms step_avg:154.81ms
step:3126/3200 train_loss:3.2617 train_time:482352ms step_avg:154.80ms
step:3127/3200 train_loss:3.2892 train_time:482508ms step_avg:154.80ms
step:3128/3200 train_loss:3.3829 train_time:482659ms step_avg:154.80ms
step:3129/3200 train_loss:3.4548 train_time:482811ms step_avg:154.80ms
step:3130/3200 train_loss:3.1557 train_time:482961ms step_avg:154.80ms
step:3131/3200 train_loss:3.3269 train_time:483113ms step_avg:154.79ms
step:3132/3200 train_loss:3.3230 train_time:483269ms step_avg:154.79ms
step:3133/3200 train_loss:3.3472 train_time:483424ms step_avg:154.79ms
step:3134/3200 train_loss:3.2341 train_time:483577ms step_avg:154.79ms
step:3135/3200 train_loss:3.3620 train_time:483731ms step_avg:154.79ms
step:3136/3200 train_loss:3.2677 train_time:483882ms step_avg:154.79ms
step:3137/3200 train_loss:3.3397 train_time:484033ms step_avg:154.79ms
step:3138/3200 train_loss:3.5241 train_time:484186ms step_avg:154.79ms
step:3139/3200 train_loss:3.5062 train_time:484340ms step_avg:154.79ms
step:3140/3200 train_loss:3.2684 train_time:484495ms step_avg:154.79ms
step:3141/3200 train_loss:3.2910 train_time:484650ms step_avg:154.79ms
step:3142/3200 train_loss:3.2075 train_time:484802ms step_avg:154.79ms
step:3143/3200 train_loss:3.3054 train_time:484953ms step_avg:154.79ms
step:3144/3200 train_loss:3.1022 train_time:485107ms step_avg:154.79ms
step:3145/3200 train_loss:3.3393 train_time:485259ms step_avg:154.79ms
step:3146/3200 train_loss:3.2567 train_time:485413ms step_avg:154.79ms
step:3147/3200 train_loss:3.2735 train_time:485568ms step_avg:154.79ms
step:3148/3200 train_loss:3.4430 train_time:485721ms step_avg:154.79ms
step:3149/3200 train_loss:3.5283 train_time:485874ms step_avg:154.79ms
step:3150/3200 train_loss:3.4026 train_time:486028ms step_avg:154.79ms
step:3151/3200 train_loss:3.2076 train_time:486181ms step_avg:154.79ms
step:3152/3200 train_loss:3.2632 train_time:486334ms step_avg:154.78ms
step:3153/3200 train_loss:3.2327 train_time:486489ms step_avg:154.78ms
step:3154/3200 train_loss:3.3562 train_time:486642ms step_avg:154.78ms
step:3155/3200 train_loss:3.1723 train_time:486795ms step_avg:154.78ms
step:3156/3200 train_loss:3.2996 train_time:486949ms step_avg:154.78ms
step:3157/3200 train_loss:3.2453 train_time:487102ms step_avg:154.78ms
step:3158/3200 train_loss:3.3783 train_time:487254ms step_avg:154.78ms
step:3159/3200 train_loss:3.4327 train_time:487406ms step_avg:154.78ms
step:3160/3200 train_loss:3.2820 train_time:487560ms step_avg:154.78ms
step:3161/3200 train_loss:3.3496 train_time:487713ms step_avg:154.78ms
step:3162/3200 train_loss:3.4321 train_time:487868ms step_avg:154.78ms
step:3163/3200 train_loss:3.3298 train_time:488020ms step_avg:154.78ms
step:3164/3200 train_loss:3.3791 train_time:488173ms step_avg:154.78ms
step:3165/3200 train_loss:3.2085 train_time:488327ms step_avg:154.78ms
step:3166/3200 train_loss:3.1912 train_time:488479ms step_avg:154.78ms
step:3167/3200 train_loss:3.2350 train_time:488633ms step_avg:154.78ms
step:3168/3200 train_loss:3.0499 train_time:488787ms step_avg:154.78ms
step:3169/3200 train_loss:3.2228 train_time:488940ms step_avg:154.78ms
step:3170/3200 train_loss:3.3563 train_time:489093ms step_avg:154.78ms
step:3171/3200 train_loss:3.3734 train_time:489247ms step_avg:154.78ms
step:3172/3200 train_loss:3.3499 train_time:489400ms step_avg:154.78ms
step:3173/3200 train_loss:3.3301 train_time:489553ms step_avg:154.77ms
step:3174/3200 train_loss:3.2937 train_time:489707ms step_avg:154.77ms
step:3175/3200 train_loss:3.2913 train_time:489859ms step_avg:154.77ms
step:3176/3200 train_loss:3.2822 train_time:490014ms step_avg:154.77ms
step:3177/3200 train_loss:3.2249 train_time:490169ms step_avg:154.77ms
step:3178/3200 train_loss:3.3448 train_time:490323ms step_avg:154.77ms
step:3179/3200 train_loss:3.4356 train_time:490475ms step_avg:154.77ms
step:3180/3200 train_loss:3.2667 train_time:490630ms step_avg:154.77ms
step:3181/3200 train_loss:3.2606 train_time:490782ms step_avg:154.77ms
step:3182/3200 train_loss:3.2989 train_time:490936ms step_avg:154.77ms
step:3183/3200 train_loss:3.3988 train_time:491090ms step_avg:154.77ms
step:3184/3200 train_loss:3.4123 train_time:491241ms step_avg:154.77ms
step:3185/3200 train_loss:3.3110 train_time:491395ms step_avg:154.77ms
step:3186/3200 train_loss:3.3800 train_time:491549ms step_avg:154.77ms
step:3187/3200 train_loss:3.3740 train_time:491703ms step_avg:154.77ms
step:3188/3200 train_loss:3.1705 train_time:491855ms step_avg:154.77ms
step:3189/3200 train_loss:3.2590 train_time:492010ms step_avg:154.77ms
step:3190/3200 train_loss:3.2868 train_time:492163ms step_avg:154.77ms
step:3191/3200 train_loss:3.3058 train_time:492315ms step_avg:154.77ms
step:3192/3200 train_loss:3.2691 train_time:492470ms step_avg:154.77ms
step:3193/3200 train_loss:3.1946 train_time:492622ms step_avg:154.77ms
step:3194/3200 train_loss:4.2117 train_time:492775ms step_avg:154.77ms
step:3195/3200 train_loss:3.3060 train_time:492930ms step_avg:154.77ms
step:3196/3200 train_loss:3.1119 train_time:493082ms step_avg:154.77ms
step:3197/3200 train_loss:3.2500 train_time:493235ms step_avg:154.76ms
step:3198/3200 train_loss:3.1215 train_time:493389ms step_avg:154.76ms
step:3199/3200 train_loss:3.2496 train_time:493543ms step_avg:154.76ms
step:3200/3200 train_loss:3.1888 train_time:493695ms step_avg:154.76ms
step:3200/3200 val_loss:3.2791 train_time:493742ms step_avg:154.78ms