records/120824_UNetValueEmbedsTweaks/677ef1aa-30f7-4c4d-96c8-b85c7d70c4d6.txt

import os
import sys
with open(sys.argv[0]) as f:
    code = f.read() # read the code of this file ASAP, for logging
import uuid
import time
from dataclasses import dataclass
from pathlib import Path

import torch
from torch import nn
import torch.nn.functional as F
import torch.distributed as dist
import torch._inductor.config as config
from torch.nn.parallel import DistributedDataParallel as DDP
# Use of FlexAttention contributed by @KoszarskyB
from torch.nn.attention.flex_attention import BlockMask, flex_attention

# -----------------------------------------------------------------------------
# Muon optimizer

def zeropower_via_svd(G, steps=None):
    U, S, V = G.svd()
    return U @ V.T

@torch.compile
def zeropower_via_newtonschulz5(G, steps=10, eps=1e-7):
    """
    Newton-Schulz iteration to compute the zeroth power / orthogonalization of G. We opt to use a
    quintic iteration whose coefficients are selected to maximize the slope at zero. For the purpose
    of minimizing steps, it turns out to be empirically effective to keep increasing the slope at
    zero even beyond the point where the iteration no longer converges all the way to one everywhere
    on the interval. This iteration therefore does not produce UV^T but rather something like US'V^T
    where S' is diagonal with S_{ii}' ~ Uniform(0.5, 1.5), which turns out not to hurt model
    performance at all relative to UV^T, where USV^T = G is the SVD.
    """
    assert len(G.shape) == 2
    a, b, c = (3.4445, -4.7750,  2.0315)
    X = G.bfloat16()
    X /= (X.norm() + eps) # ensure top singular value <= 1
    if G.size(0) > G.size(1):
        X = X.T
    for _ in range(steps):
        A = X @ X.T
        B = b * A + c * A @ A # adapted from suggestion by @jxbz, @leloykun, and @YouJiacheng
        X = a * X + B @ X
    if G.size(0) > G.size(1):
        X = X.T
    return X

zeropower_backends = dict(svd=zeropower_via_svd, newtonschulz5=zeropower_via_newtonschulz5)

class Muon(torch.optim.Optimizer):
    """
    Muon - MomentUm Orthogonalized by Newton-schulz

    Muon internally runs standard SGD-momentum, and then performs an orthogonalization post-
    processing step, in which each 2D parameter's update is replaced with the nearest orthogonal
    matrix. To efficiently orthogonalize each update, we use a Newton-Schulz iteration, which has
    the advantage that it can be stably run in bfloat16 on the GPU.

    Some warnings:
    - This optimizer assumes that all parameters passed in are 2D.
    - It should not be used for the embedding layer, the final fully connected layer, or any {0,1}-D
    parameters; those should all be optimized by a standard method (e.g., AdamW).
    - To use it with 4D convolutional filters, it works well to just flatten their last 3 dimensions.
    - We believe it is unlikely to work well for training with small batch size.
    - We believe it may not work well for finetuning pretrained models, but we haven't tested this.
    - We have not yet tried this optimizer for training scenarios larger than NanoGPT (124M).

    Arguments:
        lr: The learning rate used by the internal SGD.
        momentum: The momentum used by the internal SGD.
        nesterov: Whether to use Nesterov-style momentum in the internal SGD. (recommended)
        backend: The chosen backend for the orthogonalization step. (recommended: 'newtonschulz5')
        backend_steps: The number of iteration steps to use in the backend, if it is iterative.
    """
    def __init__(self, params, lr=0.02, momentum=0.95, nesterov=True,
                 backend='newtonschulz5', backend_steps=5):
        self.num_process = int(os.environ['WORLD_SIZE'])
        self.rank = int(os.environ["RANK"])
        defaults = dict(lr=lr, momentum=momentum, nesterov=nesterov, backend=backend, backend_steps=backend_steps)
        params: "list[torch.Tensor]" = list(params)
        assert all(isinstance(p, torch.Tensor) for p in params)
        sizes = {p.numel() for p in params}
        param_groups = [
            {
                "params": [p for p in params if p.numel() == size],
                "update_buffer": [
                    torch.empty(size, device="cuda", dtype=torch.bfloat16)
                    for _ in range(self.num_process)
                ],
            }
            for size in sizes
        ]
        super().__init__(param_groups, defaults)

    def step(self):
        for group in self.param_groups:
            lr: float = group["lr"]
            momentum: float = group["momentum"]
            nesterov: bool = group["nesterov"]
            zeropower_backend = zeropower_backends[group["backend"]]
            backend_steps: int = group["backend_steps"]
            update_buffers: "list[torch.Tensor]" = group["update_buffer"]
            # generate weight updates in distributed fashion
            params: "list[torch.Tensor]" = group["params"]
            assert len(params) % self.num_process == 0
            handle = None
            params_world = None
            def update_prev():
                if params_world is None:
                    return
                assert handle is not None
                handle.wait()
                for p_world, g_world in zip(params_world, update_buffers):
                    p_world.data.add_(
                        g_world.view_as(p_world),
                        alpha=-lr * max(1, p_world.size(0) / p_world.size(1)) ** 0.5,
                    )
            for base_i in range(len(params))[::self.num_process]:
                p = params[base_i + self.rank]
                g = p.grad
                assert g is not None
                state = self.state[p] 
                if "momentum_buffer" not in state:
                    state["momentum_buffer"] = torch.zeros_like(g)
                buf: torch.Tensor = state["momentum_buffer"]
                buf.lerp_(g, 1 - momentum)
                g = g.lerp_(buf, momentum) if nesterov else buf
                g = zeropower_backend(g, steps=backend_steps).flatten()
                update_prev()
                handle = dist.all_gather(update_buffers, g, async_op=True)
                params_world = params[base_i : base_i + self.num_process]
            update_prev()


# -----------------------------------------------------------------------------
# PyTorch nn.Module definitions for the GPT-2 model

def norm(x):
    return F.rms_norm(x, (x.size(-1),))

class CastedLinear(nn.Linear):

    def __init__(self, in_features, out_features):
        super().__init__(in_features, out_features, bias=False)

    def forward(self, x):
        return F.linear(x, self.weight.to(x.dtype))

class Rotary(torch.nn.Module):

    def __init__(self, dim, base=10000):
        super().__init__()
        self.register_buffer('inv_freq', (1 / base) ** (torch.arange(0, dim, 2) / dim))
        self.seq_len_cached = None
        self.cos_cached = None
        self.sin_cached = None

    def forward(self, x):
        seq_len = x.shape[1]
        if seq_len != self.seq_len_cached:
            t = torch.arange(seq_len, device=x.device)
            freqs = torch.outer(t, self.inv_freq)
            self.seq_len_cached = seq_len
            self.cos_cached = freqs.cos()
            self.sin_cached = freqs.sin()
        cos, sin = self.cos_cached[None, :, None, :], self.sin_cached[None, :, None, :]
        # apply_rotary_emb(x, cos, sin)
        x1, x2 = x.chunk(2, dim=3)
        y1 = x1 * cos + x2 * sin
        y2 = x1 * (-sin) + x2 * cos
        return torch.cat((y1, y2), 3).type_as(x)

class CausalSelfAttention(nn.Module):

    def __init__(self, dim, n_head):
        super().__init__()
        assert dim % n_head == 0
        self.n_head = n_head
        self.c_q = CastedLinear(dim, dim)
        self.c_k = CastedLinear(dim, dim)
        self.c_v = CastedLinear(dim, dim)
        # value residual lambda
        self.lambdas = nn.Parameter(torch.tensor([0.5, 0.5])) # @Grad62304977
        # rotary embeddings
        self.rotary = Rotary(dim // n_head) # dim // n_head = head_dim
        # output projection
        self.c_proj = CastedLinear(dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x: torch.Tensor, vi: torch.Tensor, block_mask: BlockMask) -> torch.Tensor:
        B, T = x.size(0), x.size(1) # batch size, sequence length
        assert B == 1, "Must use batch size = 1 for FlexAttention"
        q: torch.Tensor = self.c_q(x).view(B, T, self.n_head, -1)
        k: torch.Tensor = self.c_k(x).view(B, T, self.n_head, -1)
        v: torch.Tensor = self.c_v(x).view(B, T, self.n_head, -1)
        v = self.lambdas[0] * v + self.lambdas[1] * vi.view_as(v) # @Grad62304977
        q, k = norm(q), norm(k) # QK norm suggested by @Grad62304977
        q, k = self.rotary(q), self.rotary(k)
        y = flex_attention(q.transpose(1, 2), k.transpose(1, 2), v.transpose(1, 2), block_mask=block_mask)
        y = y.transpose(1, 2).contiguous().view_as(x) # re-assemble all head outputs side by side
        y = self.c_proj(y)
        return y

class MLP(nn.Module):

    def __init__(self, dim: int):
        super().__init__()
        self.c_fc   = CastedLinear(dim, 4 * dim)
        self.c_proj = CastedLinear(4 * dim, dim)
        self.c_proj.weight.data.zero_() # zero init suggested by @Grad62304977

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        x = self.c_fc(x)
        x = F.relu(x).square() # https://arxiv.org/abs/2109.08668v2; ~1-2% better than GELU; suggested by @SKYLINEZ007 and @Grad62304977
        x = self.c_proj(x)
        return x

class Block(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.attn = CausalSelfAttention(config.n_embd, config.n_head)
        self.mlp = MLP(config.n_embd)
        self.lambdas = nn.Parameter(torch.tensor([1., 0.]))

    def forward(self, x: torch.Tensor, vi: torch.Tensor, x0: torch.Tensor, block_mask: BlockMask) -> torch.Tensor:
        x = self.lambdas[0] * x + self.lambdas[1] * x0
        x = x + self.attn(norm(x), vi, block_mask)
        x = x + self.mlp(norm(x))
        return x

# -----------------------------------------------------------------------------
# The main GPT-2 model

@dataclass
class GPTConfig:
    vocab_size : int = 50304
    n_layer : int = 12
    n_head : int = 6 # head dim 128 suggested by @Grad62304977
    n_embd : int = 768
    lm_head_softcap : int = 30

class GPT(nn.Module):

    def __init__(self, config: GPTConfig):
        super().__init__()
        self.n_layer = config.n_layer
        self.lm_head_softcap = config.lm_head_softcap

        # U-net design by @brendanh0gan
        self.num_encoder_layers = config.n_layer // 2 # Half of the layers for encoder
        self.num_decoder_layers = config.n_layer - self.num_encoder_layers # Remaining for decoder
        # Add learnable skip connection weights for decoder layers
        self.skip_weights = nn.Parameter(torch.ones(self.num_decoder_layers))

        self.transformer = nn.ModuleDict(dict(
            wte = nn.Embedding(config.vocab_size, config.n_embd),
            # token value embeddings by @KoszarskyB - inspired by @Grad62304977's value residual learning
            # U-net structure on token value embeddings by @leloykun
            vte = nn.Embedding(config.vocab_size, config.n_embd*self.num_encoder_layers),
            h = nn.ModuleList([Block(config) for _ in range(config.n_layer)]),
        ))
        self.lm_head = CastedLinear(config.n_embd, config.vocab_size)
        self.lm_head.weight.data.zero_() # @Grad62304977

    def forward(self, idx: torch.Tensor, target: torch.Tensor, sliding_window: torch.Tensor) -> torch.Tensor:
        BLOCK_SIZE = 128
        assert idx.ndim == 1
        docs = (idx == 50256).cumsum(0)
        docs_low = docs.reshape(-1, BLOCK_SIZE)[:, 0].contiguous()
        docs_high = docs.reshape(-1, BLOCK_SIZE)[:, -1].contiguous()
        def document_sliding_window_causal(b, h, q_idx, kv_idx):
            causal_mask = q_idx >= kv_idx
            document_mask = docs[q_idx] == docs[kv_idx]
            window_mask = q_idx - kv_idx < sliding_window
            return causal_mask & document_mask & window_mask

        S = len(idx)
        def create_sliding_window_causal_mask(S: int, sliding_window: torch.Tensor):
            kv_idx = block_idx = torch.arange(S // BLOCK_SIZE, dtype=torch.int32, device="cuda")
            q_idx = block_idx[:, None]
            causal_mask = q_idx >= kv_idx
            document_mask = (docs_low[q_idx] <= docs_high[kv_idx]) & (docs_low[kv_idx] <= docs_high[q_idx])
            window_mask = q_idx - kv_idx < ((sliding_window + BLOCK_SIZE - 1) // BLOCK_SIZE)
            dense_mask = causal_mask & document_mask & window_mask
            dense_mask = dense_mask.to(torch.int32)
            num_blocks = dense_mask.sum(dim=-1).to(torch.int32)
            indices = torch.argsort(dense_mask, dim=-1, descending=True, stable=True).to(torch.int32)
            num_blocks = num_blocks[None, None, :].contiguous()
            indices = indices[None, None, :].contiguous()
            return BlockMask.from_kv_blocks(num_blocks, indices, BLOCK_SIZE=BLOCK_SIZE, mask_mod=document_sliding_window_causal)
        block_mask = create_sliding_window_causal_mask(S, sliding_window)

        # forward the GPT model itself
        x = self.transformer.wte(idx[None]) # token embeddings of shape (b, t, n_embd)
        x = norm(x) # @Grad62304977
        x0 = x
        vi = self.transformer.vte(idx[None]).chunk(self.num_encoder_layers, dim=-1)

        # Store outputs for U-Net skip connections
        skip_connections = []
        # Encoder pass - process only the first half of the blocks
        for i in range(self.num_encoder_layers):
            x = self.transformer.h[i](x, vi[i], x0, block_mask)
            skip_connections.append(x)
        # Decoder pass - process the remaining blocks with weighted skip connections
        for i in range(self.num_decoder_layers):
            x = x + self.skip_weights[i] * skip_connections.pop()
            # U-net structure on token value embeddings by @leloykun
            x = self.transformer.h[self.num_encoder_layers + i](x, vi[self.num_encoder_layers-1-i], x0, block_mask)

        x = norm(x)
        logits = self.lm_head(x)
        logits = self.lm_head_softcap * torch.tanh(logits / self.lm_head_softcap) # @Grad62304977
        logits = logits.float()
        loss = F.cross_entropy(logits.view(-1, logits.size(-1)), target.view(-1))
        return loss

# -----------------------------------------------------------------------------
# Our own simple Distributed Data Loader

def _peek_data_shard(file: Path):
    # only reads the header, returns header data
    # header is 256 int32
    header = torch.from_file(f"{file}", False, 256, dtype=torch.int32)
    assert header[0] == 20240520, "magic number mismatch in the data .bin file"
    assert header[1] == 1, "unsupported version"
    return int(header[2]) # number of tokens (claimed)

def _load_data_shard(file: Path, ntok: int):
    with file.open("rb") as f:
        tokens = torch.empty(ntok, dtype=torch.uint16, pin_memory=True)
        f.seek(256 * 4)
        nbytes = f.readinto(tokens.numpy())
        assert nbytes == 2 * ntok, "number of tokens read does not match header?"
    return tokens

class DistributedDataLoader:
    def __init__(self, filename_pattern, T, process_rank, num_processes):
        self.process_rank = process_rank
        self.num_processes = num_processes
        self.T = T

        # glob files that match the pattern
        self.files = sorted(Path.cwd().glob(filename_pattern))
        assert len(self.files) > 0, f"did not find any files that match the pattern {filename_pattern}"

        # load and validate all data shards, count number of tokens in total
        self.ntoks = [_peek_data_shard(file) for file in self.files]
        assert min(self.ntoks) >= num_processes * T + 1
        self.ntok_total = sum(self.ntoks)

        self.reset()

    def reset(self):
        self.current_shard = -1
        self.advance()

    def advance(self): # advance to next data shard
        self.current_shard = (self.current_shard + 1) % len(self.files)
        self.current_position = self.process_rank * self.T
        self.tokens = _load_data_shard(self.files[self.current_shard], self.ntoks[self.current_shard])

    def next_batch(self):
        batch_size = self.T * self.num_processes
        buf = self.tokens[self.current_position:self.current_position+self.T+1]
        # host side async is sufficient;
        # no performance improvement was observed when introducing a separate stream.
        x = buf[:-1].to(device="cuda", dtype=torch.int32, non_blocking=True) # inputs
        y = buf[1:].to(device="cuda", dtype=torch.int64, non_blocking=True) # targets
        # advance current position and load next shard if necessary
        self.current_position += batch_size
        if self.current_position + batch_size + 1 >= len(self.tokens):
            self.advance()
        return x, y

# -----------------------------------------------------------------------------
# int main

@dataclass
class Hyperparameters:
    # data hyperparams
    input_bin : str = 'data/fineweb10B/fineweb_train_*.bin' # input .bin to train on
    input_val_bin : str = 'data/fineweb10B/fineweb_val_*.bin' # input .bin to eval validation loss on
    # optimization hyperparams
    batch_size : int = 8 # batch size, in sequences, across all devices
    sequence_length : int = 64*1024 # sequence length, in tokens
    num_iterations : int = 1480 # number of iterations to run
    warmup_iters : int = 0
    cooldown_iters : int = 600 # number of iterations of linear warmup/cooldown for triangular or trapezoidal schedule
    weight_decay : float = 0
    # evaluation and logging hyperparams
    val_loss_every : int = 125 # every how many steps to evaluate val loss? 0 for only at the end
    val_tokens : int = 10485760 # how many tokens of validation data? it's important to keep this fixed for consistent comparisons
    save_every : int = 0 # every how many steps to save the checkpoint? 0 for only at the end
args = Hyperparameters()

# set up DDP (distributed data parallel). torchrun sets this env variable
assert torch.cuda.is_available()
dist.init_process_group(backend='nccl')
ddp_rank = int(os.environ['RANK'])
ddp_local_rank = int(os.environ['LOCAL_RANK'])
ddp_world_size = int(os.environ['WORLD_SIZE'])
device = f'cuda:{ddp_local_rank}'
torch.cuda.set_device(device)
print(f"using device: {device}")
master_process = (ddp_rank == 0) # this process will do logging, checkpointing etc.

# begin logging
logfile = None
if master_process:
    run_id = str(uuid.uuid4())
    logdir = 'logs/%s/' % run_id
    # os.makedirs(logdir, exist_ok=True)
    logfile = 'logs/%s.txt' % run_id
    # create the log file
    with open(logfile, "w") as f:
        # begin the log by printing this file (the Python code)
        f.write(code)
        f.write('='*100 + '\n')
def print0(s, logonly=False):
    if master_process:
        with open(logfile, "a") as f:
            if not logonly:
                print(s)
            f.write(s+'\n')
# log information about the hardware/software environment this is running on
# and print the full `nvidia-smi` to file
print0(f"Running pytorch {torch.version.__version__} compiled for CUDA {torch.version.cuda}\nnvidia-smi:")
import subprocess
result = subprocess.run(['nvidia-smi'], stdout=subprocess.PIPE, stderr=subprocess.PIPE, text=True)
print0(f'{result.stdout}', logonly=True)
print0('='*100, logonly=True)

# convenience variables
T = args.sequence_length
# calculate the number of steps to take in the val loop.
assert args.val_tokens % (T * ddp_world_size) == 0
val_steps = args.val_tokens // (T * ddp_world_size)
# calculate the steps of gradient accumulation required to attain the desired global batch size.
assert args.batch_size % (ddp_world_size) == 0
train_accumulation_steps = args.batch_size // ddp_world_size
assert train_accumulation_steps == 1

# load tokens
train_loader = DistributedDataLoader(args.input_bin, T, ddp_rank, ddp_world_size)
val_loader = DistributedDataLoader(args.input_val_bin, T, ddp_rank, ddp_world_size)
print0(f"Training DataLoader: total number of tokens: {train_loader.ntok_total} across {len(train_loader.files)} files")
print0(f"Validation DataLoader: total number of tokens: {val_loader.ntok_total} across {len(val_loader.files)} files")
print0('='*100, logonly=True)
x, y = train_loader.next_batch()

# there are only 50257 unique GPT-2 tokens; we extend to nearest multiple of 128 for efficiency. suggested to me by @Grad62304977.
# this originates from Karpathy's experiments.
num_vocab = 50304
model = GPT(GPTConfig(vocab_size=num_vocab, n_layer=12, n_head=6, n_embd=768))
model = model.cuda().bfloat16()
for m in model.modules():
    if isinstance(m, CastedLinear):
        m.float()
if hasattr(config, "coordinate_descent_tuning"):
    config.coordinate_descent_tuning = True # suggested by @Chillee
model = torch.compile(model)
# here we wrap model into DDP container
model = DDP(model, device_ids=[ddp_local_rank])
raw_model = model.module # always contains the "raw" unwrapped model

# init the optimizer(s)
optimizer1 = torch.optim.Adam([raw_model.transformer.wte.weight, raw_model.transformer.vte.weight], lr=0.6, betas=(0.8, 0.95), fused=True)
optimizer2 = torch.optim.Adam([raw_model.lm_head.weight], lr=0.008, betas=(0.8, 0.95), fused=True)
params = list(raw_model.transformer.h.parameters())
matrix_params = [p for p in params if p.ndim == 2]
scalar_params = [p for p in params if p.ndim < 2] + [raw_model.skip_weights]
optimizer3 = Muon(matrix_params, lr=0.05, momentum=0.95)
optimizer4 = torch.optim.Adam(scalar_params, lr=0.04, betas=(0.8, 0.95), fused=True)
optimizers = [optimizer1, optimizer2, optimizer3, optimizer4]
# learning rate decay scheduler (linear warmup and cooldown)
def get_lr(it):
    assert it <= args.num_iterations
    # 1) linear warmup for warmup_iters steps
    if it < args.warmup_iters:
        return (it+1) / args.warmup_iters
    # 2) constant lr for a while
    elif it < args.num_iterations - args.cooldown_iters:
        return 1.0
    # 3) linear cooldown
    else:
        decay_ratio = (args.num_iterations - it) / args.cooldown_iters
        return decay_ratio
schedulers = [torch.optim.lr_scheduler.LambdaLR(opt, get_lr) for opt in optimizers]

sliding_window_size = torch.tensor(64, dtype=torch.int32, device="cuda")
sw_size_prev = 64
# Start training loop
training_time_ms = 0
# start the clock
torch.cuda.synchronize()
t0 = time.perf_counter()
# begin training
for step in range(args.num_iterations + 1):
    last_step = (step == args.num_iterations)
    # This effectively ignores timing first 10 steps, which are slower for weird reasons.
    # Alternately, and slightly more correctly in terms of benchmarking, we could do 10
    # steps with dummy data first, and then re-initialize the model and reset the loader.
    if step == 10:
        training_time_ms = 0
        t0 = time.perf_counter()
    timed_steps = float('nan') if step <= 11 else (step - 10) + 1 # <= 11 to avoid bug in val

    # Set the sliding window size for the current step, in chunks of 64. By @fernbear.bsky.social
    sw_size =  64 * int((64 + (1792 - 64) * step / args.num_iterations) // 64)
    if sw_size != sw_size_prev:
        sliding_window_size.copy_(sw_size, non_blocking=True)
        sw_size_prev = sw_size

    # once in a while evaluate the validation dataset
    if (last_step or (args.val_loss_every > 0 and step % args.val_loss_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.perf_counter() - t0)
        # run validation batches
        model.eval()
        val_loader.reset()
        val_loss = 0.0
        for _ in range(val_steps):
            with torch.no_grad():
                x_val, y_val = val_loader.next_batch()
                val_loss += model(x_val, y_val, sliding_window=sliding_window_size)
        dist.all_reduce(val_loss, op=dist.ReduceOp.AVG)
        val_loss /= val_steps
        # log val loss to console and to logfile
        print0(f'step:{step}/{args.num_iterations} val_loss:{val_loss:.4f} train_time:{training_time_ms:.0f}ms step_avg:{training_time_ms/(timed_steps-1):.2f}ms')
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.perf_counter()

    if master_process and (last_step or (args.save_every > 0 and step % args.save_every == 0)):
        # stop the clock
        torch.cuda.synchronize()
        training_time_ms += 1000 * (time.perf_counter() - t0)
        # save the state of the training process
        log = dict(step=step, code=code, model=raw_model.state_dict(), optimizers=[opt.state_dict() for opt in optimizers])
        # torch.save(log, 'logs/%s/state_step%06d.pt' % (run_id, step))
        # start the clock again
        torch.cuda.synchronize()
        t0 = time.perf_counter()

    # bit confusing: we want to make sure to eval on 0th iteration
    # but also after the very last iteration. so we loop for step <= num_iterations
    # instead of just < num_iterations (one extra due to <=), only to do
    # the validation/sampling one last time, and then we break right here as we're done.
    if last_step:
        break

    # --------------- TRAINING SECTION BEGIN -----------------
    model.train()
    loss = model(x, y, sliding_window=sliding_window_size)
    loss.backward()
    del loss
    # advance the dataset for the next batch
    x, y = train_loader.next_batch()
    # momentum warmup for Muon
    frac = min(step/300, 1)
    for group in optimizer3.param_groups:
        group['momentum'] = (1 - frac) * 0.85 + frac * 0.95
    # step the optimizers and schedulers
    for opt, sched in zip(optimizers, schedulers):
        opt.step()
        sched.step()
    # null the gradients
    model.zero_grad(set_to_none=True)
    # --------------- TRAINING SECTION END -------------------
    # everything that follows now is just diagnostics, prints, logging, etc.
    approx_time = training_time_ms + 1000 * (time.perf_counter() - t0)
    print0(f"step:{step+1}/{args.num_iterations} train_time:{approx_time:.0f}ms step_avg:{approx_time/timed_steps:.2f}ms")

if master_process:
    print(f"peak memory consumption: {torch.cuda.max_memory_allocated() // 1024 // 1024} MiB")

# -------------------------------------------------------------------------
# clean up nice
dist.destroy_process_group()
====================================================================================================
Running pytorch 2.6.0.dev20241203+cu124 compiled for CUDA 12.4
nvidia-smi:
Sun Dec  8 09:53:51 2024       
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.129.03             Driver Version: 535.129.03   CUDA Version: 12.6     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA H100 80GB HBM3          On  | 00000000:65:02.0 Off |                    0 |
| N/A   37C    P0              74W / 700W |      7MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA H100 80GB HBM3          On  | 00000000:67:02.0 Off |                    0 |
| N/A   46C    P0             129W / 700W |    533MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA H100 80GB HBM3          On  | 00000000:69:02.0 Off |                    0 |
| N/A   46C    P0             110W / 700W |     35MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA H100 80GB HBM3          On  | 00000000:6B:02.0 Off |                    0 |
| N/A   40C    P0             119W / 700W |    533MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   4  NVIDIA H100 80GB HBM3          On  | 00000000:6F:02.0 Off |                    0 |
| N/A   39C    P0             117W / 700W |    533MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   5  NVIDIA H100 80GB HBM3          On  | 00000000:71:02.0 Off |                    0 |
| N/A   46C    P0             108W / 700W |    533MiB / 81559MiB |      1%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   6  NVIDIA H100 80GB HBM3          On  | 00000000:73:02.0 Off |                    0 |
| N/A   46C    P0             127W / 700W |    533MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   7  NVIDIA H100 80GB HBM3          On  | 00000000:75:02.0 Off |                    0 |
| N/A   39C    P0             124W / 700W |    533MiB / 81559MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
                                                                                         
+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
+---------------------------------------------------------------------------------------+

====================================================================================================
Training DataLoader: total number of tokens: 3200000000 across 32 files
Validation DataLoader: total number of tokens: 100000000 across 1 files
====================================================================================================
step:0/1480 val_loss:10.8258 train_time:0ms step_avg:nanms
step:1/1480 train_time:23764ms step_avg:nanms
step:2/1480 train_time:23854ms step_avg:nanms
step:3/1480 train_time:23994ms step_avg:nanms
step:4/1480 train_time:24136ms step_avg:nanms
step:5/1480 train_time:24278ms step_avg:nanms
step:6/1480 train_time:24419ms step_avg:nanms
step:7/1480 train_time:24559ms step_avg:nanms
step:8/1480 train_time:24702ms step_avg:nanms
step:9/1480 train_time:24845ms step_avg:nanms
step:10/1480 train_time:24991ms step_avg:nanms
step:11/1480 train_time:143ms step_avg:nanms
step:12/1480 train_time:285ms step_avg:nanms
step:13/1480 train_time:427ms step_avg:142.26ms
step:14/1480 train_time:567ms step_avg:141.76ms
step:15/1480 train_time:709ms step_avg:141.74ms
step:16/1480 train_time:852ms step_avg:141.99ms
step:17/1480 train_time:995ms step_avg:142.11ms
step:18/1480 train_time:1137ms step_avg:142.13ms
step:19/1480 train_time:1281ms step_avg:142.39ms
step:20/1480 train_time:1425ms step_avg:142.55ms
step:21/1480 train_time:1567ms step_avg:142.46ms
step:22/1480 train_time:1710ms step_avg:142.53ms
step:23/1480 train_time:1855ms step_avg:142.70ms
step:24/1480 train_time:2000ms step_avg:142.84ms
step:25/1480 train_time:2144ms step_avg:142.92ms
step:26/1480 train_time:2287ms step_avg:142.94ms
step:27/1480 train_time:2430ms step_avg:142.93ms
step:28/1480 train_time:2571ms step_avg:142.84ms
step:29/1480 train_time:2713ms step_avg:142.76ms
step:30/1480 train_time:2854ms step_avg:142.68ms
step:31/1480 train_time:2997ms step_avg:142.70ms
step:32/1480 train_time:3140ms step_avg:142.73ms
step:33/1480 train_time:3283ms step_avg:142.76ms
step:34/1480 train_time:3426ms step_avg:142.75ms
step:35/1480 train_time:3568ms step_avg:142.72ms
step:36/1480 train_time:3710ms step_avg:142.71ms
step:37/1480 train_time:3853ms step_avg:142.72ms
step:38/1480 train_time:3996ms step_avg:142.73ms
step:39/1480 train_time:4138ms step_avg:142.69ms
step:40/1480 train_time:4281ms step_avg:142.70ms
step:41/1480 train_time:4425ms step_avg:142.74ms
step:42/1480 train_time:4568ms step_avg:142.74ms
step:43/1480 train_time:4711ms step_avg:142.76ms
step:44/1480 train_time:4853ms step_avg:142.74ms
step:45/1480 train_time:4996ms step_avg:142.74ms
step:46/1480 train_time:5138ms step_avg:142.73ms
step:47/1480 train_time:5282ms step_avg:142.77ms
step:48/1480 train_time:5426ms step_avg:142.78ms
step:49/1480 train_time:5568ms step_avg:142.76ms
step:50/1480 train_time:5710ms step_avg:142.74ms
step:51/1480 train_time:5852ms step_avg:142.73ms
step:52/1480 train_time:5994ms step_avg:142.72ms
step:53/1480 train_time:6136ms step_avg:142.70ms
step:54/1480 train_time:6281ms step_avg:142.75ms
step:55/1480 train_time:6425ms step_avg:142.77ms
step:56/1480 train_time:6567ms step_avg:142.76ms
step:57/1480 train_time:6709ms step_avg:142.75ms
step:58/1480 train_time:6851ms step_avg:142.72ms
step:59/1480 train_time:6992ms step_avg:142.70ms
step:60/1480 train_time:7133ms step_avg:142.66ms
step:61/1480 train_time:7278ms step_avg:142.70ms
step:62/1480 train_time:7422ms step_avg:142.73ms
step:63/1480 train_time:7565ms step_avg:142.73ms
step:64/1480 train_time:7707ms step_avg:142.72ms
step:65/1480 train_time:7849ms step_avg:142.71ms
step:66/1480 train_time:7991ms step_avg:142.69ms
step:67/1480 train_time:8133ms step_avg:142.69ms
step:68/1480 train_time:8276ms step_avg:142.70ms
step:69/1480 train_time:8421ms step_avg:142.72ms
step:70/1480 train_time:8565ms step_avg:142.74ms
step:71/1480 train_time:8707ms step_avg:142.74ms
step:72/1480 train_time:8849ms step_avg:142.72ms
step:73/1480 train_time:8990ms step_avg:142.69ms
step:74/1480 train_time:9131ms step_avg:142.67ms
step:75/1480 train_time:9273ms step_avg:142.66ms
step:76/1480 train_time:9417ms step_avg:142.68ms
step:77/1480 train_time:9560ms step_avg:142.69ms
step:78/1480 train_time:9703ms step_avg:142.70ms
step:79/1480 train_time:9846ms step_avg:142.69ms
step:80/1480 train_time:9988ms step_avg:142.68ms
step:81/1480 train_time:10130ms step_avg:142.67ms
step:82/1480 train_time:10273ms step_avg:142.68ms
step:83/1480 train_time:10416ms step_avg:142.69ms
step:84/1480 train_time:10560ms step_avg:142.70ms
step:85/1480 train_time:10703ms step_avg:142.71ms
step:86/1480 train_time:10846ms step_avg:142.71ms
step:87/1480 train_time:10990ms step_avg:142.73ms
step:88/1480 train_time:11131ms step_avg:142.70ms
step:89/1480 train_time:11272ms step_avg:142.68ms
step:90/1480 train_time:11416ms step_avg:142.70ms
step:91/1480 train_time:11560ms step_avg:142.72ms
step:92/1480 train_time:11705ms step_avg:142.74ms
step:93/1480 train_time:11847ms step_avg:142.73ms
step:94/1480 train_time:11990ms step_avg:142.73ms
step:95/1480 train_time:12130ms step_avg:142.71ms
step:96/1480 train_time:12271ms step_avg:142.68ms
step:97/1480 train_time:12413ms step_avg:142.68ms
step:98/1480 train_time:12556ms step_avg:142.69ms
step:99/1480 train_time:12701ms step_avg:142.71ms
step:100/1480 train_time:12845ms step_avg:142.72ms
step:101/1480 train_time:12987ms step_avg:142.71ms
step:102/1480 train_time:13129ms step_avg:142.70ms
step:103/1480 train_time:13270ms step_avg:142.69ms
step:104/1480 train_time:13413ms step_avg:142.69ms
step:105/1480 train_time:13555ms step_avg:142.68ms
step:106/1480 train_time:13697ms step_avg:142.68ms
step:107/1480 train_time:13841ms step_avg:142.69ms
step:108/1480 train_time:13986ms step_avg:142.71ms
step:109/1480 train_time:14127ms step_avg:142.70ms
step:110/1480 train_time:14268ms step_avg:142.68ms
step:111/1480 train_time:14413ms step_avg:142.70ms
step:112/1480 train_time:14560ms step_avg:142.75ms
step:113/1480 train_time:14708ms step_avg:142.80ms
step:114/1480 train_time:14855ms step_avg:142.84ms
step:115/1480 train_time:15004ms step_avg:142.90ms
step:116/1480 train_time:15152ms step_avg:142.94ms
step:117/1480 train_time:15298ms step_avg:142.98ms
step:118/1480 train_time:15446ms step_avg:143.02ms
step:119/1480 train_time:15593ms step_avg:143.05ms
step:120/1480 train_time:15738ms step_avg:143.07ms
step:121/1480 train_time:15887ms step_avg:143.12ms
step:122/1480 train_time:16033ms step_avg:143.15ms
step:123/1480 train_time:16179ms step_avg:143.17ms
step:124/1480 train_time:16326ms step_avg:143.21ms
step:125/1480 train_time:16472ms step_avg:143.23ms
step:125/1480 val_loss:4.4199 train_time:16528ms step_avg:143.72ms
step:126/1480 train_time:16622ms step_avg:143.30ms
step:127/1480 train_time:16769ms step_avg:143.32ms
step:128/1480 train_time:16916ms step_avg:143.35ms
step:129/1480 train_time:17061ms step_avg:143.37ms
step:130/1480 train_time:17207ms step_avg:143.39ms
step:131/1480 train_time:17354ms step_avg:143.42ms
step:132/1480 train_time:17500ms step_avg:143.44ms
step:133/1480 train_time:17649ms step_avg:143.49ms
step:134/1480 train_time:17797ms step_avg:143.52ms
step:135/1480 train_time:17943ms step_avg:143.54ms
step:136/1480 train_time:18089ms step_avg:143.56ms
step:137/1480 train_time:18236ms step_avg:143.59ms
step:138/1480 train_time:18382ms step_avg:143.61ms
step:139/1480 train_time:18529ms step_avg:143.64ms
step:140/1480 train_time:18676ms step_avg:143.66ms
step:141/1480 train_time:18822ms step_avg:143.68ms
step:142/1480 train_time:18969ms step_avg:143.70ms
step:143/1480 train_time:19120ms step_avg:143.76ms
step:144/1480 train_time:19263ms step_avg:143.75ms
step:145/1480 train_time:19409ms step_avg:143.77ms
step:146/1480 train_time:19557ms step_avg:143.80ms
step:147/1480 train_time:19703ms step_avg:143.82ms
step:148/1480 train_time:19849ms step_avg:143.84ms
step:149/1480 train_time:19996ms step_avg:143.86ms
step:150/1480 train_time:20143ms step_avg:143.88ms
step:151/1480 train_time:20290ms step_avg:143.90ms
step:152/1480 train_time:20437ms step_avg:143.92ms
step:153/1480 train_time:20583ms step_avg:143.94ms
step:154/1480 train_time:20731ms step_avg:143.97ms
step:155/1480 train_time:20878ms step_avg:143.99ms
step:156/1480 train_time:21024ms step_avg:144.00ms
step:157/1480 train_time:21170ms step_avg:144.01ms
step:158/1480 train_time:21317ms step_avg:144.04ms
step:159/1480 train_time:21463ms step_avg:144.05ms
step:160/1480 train_time:21609ms step_avg:144.06ms
step:161/1480 train_time:21758ms step_avg:144.09ms
step:162/1480 train_time:21904ms step_avg:144.11ms
step:163/1480 train_time:22052ms step_avg:144.13ms
step:164/1480 train_time:22199ms step_avg:144.15ms
step:165/1480 train_time:22345ms step_avg:144.16ms
step:166/1480 train_time:22492ms step_avg:144.18ms
step:167/1480 train_time:22639ms step_avg:144.20ms
step:168/1480 train_time:22784ms step_avg:144.20ms
step:169/1480 train_time:22933ms step_avg:144.23ms
step:170/1480 train_time:23080ms step_avg:144.25ms
step:171/1480 train_time:23226ms step_avg:144.26ms
step:172/1480 train_time:23374ms step_avg:144.28ms
step:173/1480 train_time:23521ms step_avg:144.30ms
step:174/1480 train_time:23665ms step_avg:144.30ms
step:175/1480 train_time:23813ms step_avg:144.32ms
step:176/1480 train_time:23960ms step_avg:144.34ms
step:177/1480 train_time:24106ms step_avg:144.35ms
step:178/1480 train_time:24254ms step_avg:144.37ms
step:179/1480 train_time:24401ms step_avg:144.38ms
step:180/1480 train_time:24548ms step_avg:144.40ms
step:181/1480 train_time:24696ms step_avg:144.42ms
step:182/1480 train_time:24842ms step_avg:144.43ms
step:183/1480 train_time:24987ms step_avg:144.43ms
step:184/1480 train_time:25135ms step_avg:144.45ms
step:185/1480 train_time:25282ms step_avg:144.47ms
step:186/1480 train_time:25429ms step_avg:144.49ms
step:187/1480 train_time:25576ms step_avg:144.50ms
step:188/1480 train_time:25723ms step_avg:144.51ms
step:189/1480 train_time:25871ms step_avg:144.53ms
step:190/1480 train_time:26017ms step_avg:144.54ms
step:191/1480 train_time:26162ms step_avg:144.54ms
step:192/1480 train_time:26310ms step_avg:144.56ms
step:193/1480 train_time:26457ms step_avg:144.58ms
step:194/1480 train_time:26603ms step_avg:144.58ms
step:195/1480 train_time:26751ms step_avg:144.60ms
step:196/1480 train_time:26898ms step_avg:144.61ms
step:197/1480 train_time:27045ms step_avg:144.62ms
step:198/1480 train_time:27193ms step_avg:144.64ms
step:199/1480 train_time:27340ms step_avg:144.65ms
step:200/1480 train_time:27487ms step_avg:144.67ms
step:201/1480 train_time:27634ms step_avg:144.68ms
step:202/1480 train_time:27780ms step_avg:144.69ms
step:203/1480 train_time:27926ms step_avg:144.69ms
step:204/1480 train_time:28072ms step_avg:144.70ms
step:205/1480 train_time:28220ms step_avg:144.72ms
step:206/1480 train_time:28365ms step_avg:144.72ms
step:207/1480 train_time:28513ms step_avg:144.74ms
step:208/1480 train_time:28660ms step_avg:144.75ms
step:209/1480 train_time:28806ms step_avg:144.75ms
step:210/1480 train_time:28953ms step_avg:144.77ms
step:211/1480 train_time:29100ms step_avg:144.78ms
step:212/1480 train_time:29246ms step_avg:144.78ms
step:213/1480 train_time:29394ms step_avg:144.80ms
step:214/1480 train_time:29542ms step_avg:144.81ms
step:215/1480 train_time:29687ms step_avg:144.82ms
step:216/1480 train_time:29834ms step_avg:144.83ms
step:217/1480 train_time:29981ms step_avg:144.83ms
step:218/1480 train_time:30128ms step_avg:144.84ms
step:219/1480 train_time:30276ms step_avg:144.86ms
step:220/1480 train_time:30423ms step_avg:144.87ms
step:221/1480 train_time:30571ms step_avg:144.89ms
step:222/1480 train_time:30721ms step_avg:144.91ms
step:223/1480 train_time:30871ms step_avg:144.93ms
step:224/1480 train_time:31022ms step_avg:144.96ms
step:225/1480 train_time:31171ms step_avg:144.98ms
step:226/1480 train_time:31322ms step_avg:145.01ms
step:227/1480 train_time:31474ms step_avg:145.04ms
step:228/1480 train_time:31625ms step_avg:145.07ms
step:229/1480 train_time:31776ms step_avg:145.09ms
step:230/1480 train_time:31925ms step_avg:145.11ms
step:231/1480 train_time:32074ms step_avg:145.13ms
step:232/1480 train_time:32225ms step_avg:145.16ms
step:233/1480 train_time:32375ms step_avg:145.18ms
step:234/1480 train_time:32526ms step_avg:145.20ms
step:235/1480 train_time:32677ms step_avg:145.23ms
step:236/1480 train_time:32827ms step_avg:145.25ms
step:237/1480 train_time:32978ms step_avg:145.28ms
step:238/1480 train_time:33128ms step_avg:145.30ms
step:239/1480 train_time:33278ms step_avg:145.32ms
step:240/1480 train_time:33427ms step_avg:145.34ms
step:241/1480 train_time:33578ms step_avg:145.36ms
step:242/1480 train_time:33727ms step_avg:145.38ms
step:243/1480 train_time:33878ms step_avg:145.40ms
step:244/1480 train_time:34028ms step_avg:145.42ms
step:245/1480 train_time:34178ms step_avg:145.44ms
step:246/1480 train_time:34330ms step_avg:145.46ms
step:247/1480 train_time:34481ms step_avg:145.49ms
step:248/1480 train_time:34632ms step_avg:145.51ms
step:249/1480 train_time:34783ms step_avg:145.53ms
step:250/1480 train_time:34933ms step_avg:145.56ms
step:250/1480 val_loss:3.9841 train_time:34992ms step_avg:145.80ms
step:251/1480 train_time:35089ms step_avg:145.60ms
step:252/1480 train_time:35242ms step_avg:145.63ms
step:253/1480 train_time:35392ms step_avg:145.65ms
step:254/1480 train_time:35540ms step_avg:145.66ms
step:255/1480 train_time:35690ms step_avg:145.67ms
step:256/1480 train_time:35840ms step_avg:145.69ms
step:257/1480 train_time:35991ms step_avg:145.71ms
step:258/1480 train_time:36142ms step_avg:145.74ms
step:259/1480 train_time:36294ms step_avg:145.76ms
step:260/1480 train_time:36444ms step_avg:145.78ms
step:261/1480 train_time:36594ms step_avg:145.79ms
step:262/1480 train_time:36745ms step_avg:145.81ms
step:263/1480 train_time:36895ms step_avg:145.83ms
step:264/1480 train_time:37046ms step_avg:145.85ms
step:265/1480 train_time:37197ms step_avg:145.87ms
step:266/1480 train_time:37348ms step_avg:145.89ms
step:267/1480 train_time:37499ms step_avg:145.91ms
step:268/1480 train_time:37650ms step_avg:145.93ms
step:269/1480 train_time:37800ms step_avg:145.94ms
step:270/1480 train_time:37950ms step_avg:145.96ms
step:271/1480 train_time:38100ms step_avg:145.98ms
step:272/1480 train_time:38252ms step_avg:146.00ms
step:273/1480 train_time:38402ms step_avg:146.01ms
step:274/1480 train_time:38553ms step_avg:146.03ms
step:275/1480 train_time:38702ms step_avg:146.04ms
step:276/1480 train_time:38852ms step_avg:146.06ms
step:277/1480 train_time:39001ms step_avg:146.07ms
step:278/1480 train_time:39153ms step_avg:146.09ms
step:279/1480 train_time:39302ms step_avg:146.10ms
step:280/1480 train_time:39453ms step_avg:146.12ms
step:281/1480 train_time:39603ms step_avg:146.14ms
step:282/1480 train_time:39754ms step_avg:146.15ms
step:283/1480 train_time:39903ms step_avg:146.16ms
step:284/1480 train_time:40053ms step_avg:146.18ms
step:285/1480 train_time:40204ms step_avg:146.20ms
step:286/1480 train_time:40355ms step_avg:146.21ms
step:287/1480 train_time:40505ms step_avg:146.23ms
step:288/1480 train_time:40656ms step_avg:146.24ms
step:289/1480 train_time:40806ms step_avg:146.26ms
step:290/1480 train_time:40956ms step_avg:146.27ms
step:291/1480 train_time:41105ms step_avg:146.28ms
step:292/1480 train_time:41256ms step_avg:146.30ms
step:293/1480 train_time:41406ms step_avg:146.31ms
step:294/1480 train_time:41555ms step_avg:146.32ms
step:295/1480 train_time:41704ms step_avg:146.33ms
step:296/1480 train_time:41855ms step_avg:146.35ms
step:297/1480 train_time:42005ms step_avg:146.36ms
step:298/1480 train_time:42156ms step_avg:146.37ms
step:299/1480 train_time:42306ms step_avg:146.39ms
step:300/1480 train_time:42457ms step_avg:146.40ms
step:301/1480 train_time:42606ms step_avg:146.41ms
step:302/1480 train_time:42756ms step_avg:146.42ms
step:303/1480 train_time:42907ms step_avg:146.44ms
step:304/1480 train_time:43056ms step_avg:146.45ms
step:305/1480 train_time:43207ms step_avg:146.46ms
step:306/1480 train_time:43357ms step_avg:146.48ms
step:307/1480 train_time:43508ms step_avg:146.49ms
step:308/1480 train_time:43658ms step_avg:146.50ms
step:309/1480 train_time:43808ms step_avg:146.52ms
step:310/1480 train_time:43959ms step_avg:146.53ms
step:311/1480 train_time:44110ms step_avg:146.55ms
step:312/1480 train_time:44260ms step_avg:146.56ms
step:313/1480 train_time:44411ms step_avg:146.57ms
step:314/1480 train_time:44561ms step_avg:146.58ms
step:315/1480 train_time:44711ms step_avg:146.59ms
step:316/1480 train_time:44861ms step_avg:146.60ms
step:317/1480 train_time:45012ms step_avg:146.62ms
step:318/1480 train_time:45162ms step_avg:146.63ms
step:319/1480 train_time:45312ms step_avg:146.64ms
step:320/1480 train_time:45463ms step_avg:146.66ms
step:321/1480 train_time:45614ms step_avg:146.67ms
step:322/1480 train_time:45765ms step_avg:146.68ms
step:323/1480 train_time:45915ms step_avg:146.69ms
step:324/1480 train_time:46066ms step_avg:146.71ms
step:325/1480 train_time:46216ms step_avg:146.72ms
step:326/1480 train_time:46366ms step_avg:146.73ms
step:327/1480 train_time:46515ms step_avg:146.74ms
step:328/1480 train_time:46667ms step_avg:146.75ms
step:329/1480 train_time:46817ms step_avg:146.76ms
step:330/1480 train_time:46970ms step_avg:146.78ms
step:331/1480 train_time:47124ms step_avg:146.80ms
step:332/1480 train_time:47279ms step_avg:146.83ms
step:333/1480 train_time:47434ms step_avg:146.85ms
step:334/1480 train_time:47588ms step_avg:146.88ms
step:335/1480 train_time:47743ms step_avg:146.90ms
step:336/1480 train_time:47896ms step_avg:146.92ms
step:337/1480 train_time:48051ms step_avg:146.94ms
step:338/1480 train_time:48204ms step_avg:146.96ms
step:339/1480 train_time:48358ms step_avg:146.98ms
step:340/1480 train_time:48512ms step_avg:147.00ms
step:341/1480 train_time:48667ms step_avg:147.03ms
step:342/1480 train_time:48820ms step_avg:147.05ms
step:343/1480 train_time:48974ms step_avg:147.07ms
step:344/1480 train_time:49128ms step_avg:147.09ms
step:345/1480 train_time:49282ms step_avg:147.11ms
step:346/1480 train_time:49436ms step_avg:147.13ms
step:347/1480 train_time:49589ms step_avg:147.15ms
step:348/1480 train_time:49742ms step_avg:147.17ms
step:349/1480 train_time:49896ms step_avg:147.18ms
step:350/1480 train_time:50050ms step_avg:147.21ms
step:351/1480 train_time:50205ms step_avg:147.23ms
step:352/1480 train_time:50359ms step_avg:147.25ms
step:353/1480 train_time:50513ms step_avg:147.27ms
step:354/1480 train_time:50667ms step_avg:147.29ms
step:355/1480 train_time:50821ms step_avg:147.31ms
step:356/1480 train_time:50974ms step_avg:147.32ms
step:357/1480 train_time:51128ms step_avg:147.34ms
step:358/1480 train_time:51282ms step_avg:147.36ms
step:359/1480 train_time:51437ms step_avg:147.38ms
step:360/1480 train_time:51591ms step_avg:147.40ms
step:361/1480 train_time:51746ms step_avg:147.42ms
step:362/1480 train_time:51898ms step_avg:147.44ms
step:363/1480 train_time:52052ms step_avg:147.46ms
step:364/1480 train_time:52206ms step_avg:147.47ms
step:365/1480 train_time:52360ms step_avg:147.49ms
step:366/1480 train_time:52513ms step_avg:147.51ms
step:367/1480 train_time:52666ms step_avg:147.52ms
step:368/1480 train_time:52819ms step_avg:147.54ms
step:369/1480 train_time:52973ms step_avg:147.56ms
step:370/1480 train_time:53127ms step_avg:147.57ms
step:371/1480 train_time:53280ms step_avg:147.59ms
step:372/1480 train_time:53436ms step_avg:147.61ms
step:373/1480 train_time:53590ms step_avg:147.63ms
step:374/1480 train_time:53744ms step_avg:147.65ms
step:375/1480 train_time:53897ms step_avg:147.66ms
step:375/1480 val_loss:3.7990 train_time:53958ms step_avg:147.83ms
step:376/1480 train_time:54055ms step_avg:147.69ms
step:377/1480 train_time:54211ms step_avg:147.71ms
step:378/1480 train_time:54364ms step_avg:147.73ms
step:379/1480 train_time:54517ms step_avg:147.74ms
step:380/1480 train_time:54671ms step_avg:147.76ms
step:381/1480 train_time:54823ms step_avg:147.77ms
step:382/1480 train_time:54977ms step_avg:147.79ms
step:383/1480 train_time:55131ms step_avg:147.80ms
step:384/1480 train_time:55284ms step_avg:147.82ms
step:385/1480 train_time:55437ms step_avg:147.83ms
step:386/1480 train_time:55590ms step_avg:147.85ms
step:387/1480 train_time:55744ms step_avg:147.86ms
step:388/1480 train_time:55897ms step_avg:147.88ms
step:389/1480 train_time:56051ms step_avg:147.89ms
step:390/1480 train_time:56204ms step_avg:147.91ms
step:391/1480 train_time:56358ms step_avg:147.92ms
step:392/1480 train_time:56510ms step_avg:147.93ms
step:393/1480 train_time:56665ms step_avg:147.95ms
step:394/1480 train_time:56819ms step_avg:147.96ms
step:395/1480 train_time:56973ms step_avg:147.98ms
step:396/1480 train_time:57127ms step_avg:148.00ms
step:397/1480 train_time:57280ms step_avg:148.01ms
step:398/1480 train_time:57434ms step_avg:148.03ms
step:399/1480 train_time:57587ms step_avg:148.04ms
step:400/1480 train_time:57741ms step_avg:148.05ms
step:401/1480 train_time:57896ms step_avg:148.07ms
step:402/1480 train_time:58049ms step_avg:148.08ms
step:403/1480 train_time:58203ms step_avg:148.10ms
step:404/1480 train_time:58357ms step_avg:148.11ms
step:405/1480 train_time:58510ms step_avg:148.13ms
step:406/1480 train_time:58664ms step_avg:148.14ms
step:407/1480 train_time:58818ms step_avg:148.16ms
step:408/1480 train_time:58973ms step_avg:148.17ms
step:409/1480 train_time:59126ms step_avg:148.19ms
step:410/1480 train_time:59279ms step_avg:148.20ms
step:411/1480 train_time:59433ms step_avg:148.21ms
step:412/1480 train_time:59586ms step_avg:148.22ms
step:413/1480 train_time:59740ms step_avg:148.24ms
step:414/1480 train_time:59894ms step_avg:148.25ms
step:415/1480 train_time:60049ms step_avg:148.27ms
step:416/1480 train_time:60202ms step_avg:148.28ms
step:417/1480 train_time:60355ms step_avg:148.29ms
step:418/1480 train_time:60509ms step_avg:148.31ms
step:419/1480 train_time:60663ms step_avg:148.32ms
step:420/1480 train_time:60817ms step_avg:148.33ms
step:421/1480 train_time:60972ms step_avg:148.35ms
step:422/1480 train_time:61126ms step_avg:148.37ms
step:423/1480 train_time:61279ms step_avg:148.38ms
step:424/1480 train_time:61433ms step_avg:148.39ms
step:425/1480 train_time:61587ms step_avg:148.40ms
step:426/1480 train_time:61742ms step_avg:148.42ms
step:427/1480 train_time:61896ms step_avg:148.43ms
step:428/1480 train_time:62051ms step_avg:148.45ms
step:429/1480 train_time:62205ms step_avg:148.46ms
step:430/1480 train_time:62359ms step_avg:148.47ms
step:431/1480 train_time:62511ms step_avg:148.48ms
step:432/1480 train_time:62665ms step_avg:148.49ms
step:433/1480 train_time:62818ms step_avg:148.51ms
step:434/1480 train_time:62972ms step_avg:148.52ms
step:435/1480 train_time:63125ms step_avg:148.53ms
step:436/1480 train_time:63279ms step_avg:148.54ms
step:437/1480 train_time:63433ms step_avg:148.56ms
step:438/1480 train_time:63587ms step_avg:148.57ms
step:439/1480 train_time:63742ms step_avg:148.58ms
step:440/1480 train_time:63897ms step_avg:148.60ms
step:441/1480 train_time:64053ms step_avg:148.61ms
step:442/1480 train_time:64210ms step_avg:148.63ms
step:443/1480 train_time:64367ms step_avg:148.65ms
step:444/1480 train_time:64521ms step_avg:148.67ms
step:445/1480 train_time:64677ms step_avg:148.68ms
step:446/1480 train_time:64834ms step_avg:148.70ms
step:447/1480 train_time:64991ms step_avg:148.72ms
step:448/1480 train_time:65147ms step_avg:148.74ms
step:449/1480 train_time:65304ms step_avg:148.76ms
step:450/1480 train_time:65463ms step_avg:148.78ms
step:451/1480 train_time:65620ms step_avg:148.80ms
step:452/1480 train_time:65776ms step_avg:148.82ms
step:453/1480 train_time:65933ms step_avg:148.83ms
step:454/1480 train_time:66091ms step_avg:148.85ms
step:455/1480 train_time:66249ms step_avg:148.87ms
step:456/1480 train_time:66406ms step_avg:148.89ms
step:457/1480 train_time:66563ms step_avg:148.91ms
step:458/1480 train_time:66720ms step_avg:148.93ms
step:459/1480 train_time:66876ms step_avg:148.94ms
step:460/1480 train_time:67032ms step_avg:148.96ms
step:461/1480 train_time:67191ms step_avg:148.98ms
step:462/1480 train_time:67348ms step_avg:149.00ms
step:463/1480 train_time:67506ms step_avg:149.02ms
step:464/1480 train_time:67663ms step_avg:149.04ms
step:465/1480 train_time:67818ms step_avg:149.05ms
step:466/1480 train_time:67974ms step_avg:149.07ms
step:467/1480 train_time:68132ms step_avg:149.08ms
step:468/1480 train_time:68288ms step_avg:149.10ms
step:469/1480 train_time:68444ms step_avg:149.12ms
step:470/1480 train_time:68601ms step_avg:149.13ms
step:471/1480 train_time:68757ms step_avg:149.15ms
step:472/1480 train_time:68915ms step_avg:149.17ms
step:473/1480 train_time:69074ms step_avg:149.19ms
step:474/1480 train_time:69234ms step_avg:149.21ms
step:475/1480 train_time:69392ms step_avg:149.23ms
step:476/1480 train_time:69548ms step_avg:149.24ms
step:477/1480 train_time:69704ms step_avg:149.26ms
step:478/1480 train_time:69859ms step_avg:149.27ms
step:479/1480 train_time:70016ms step_avg:149.29ms
step:480/1480 train_time:70175ms step_avg:149.31ms
step:481/1480 train_time:70332ms step_avg:149.33ms
step:482/1480 train_time:70490ms step_avg:149.34ms
step:483/1480 train_time:70648ms step_avg:149.36ms
step:484/1480 train_time:70805ms step_avg:149.38ms
step:485/1480 train_time:70962ms step_avg:149.39ms
step:486/1480 train_time:71119ms step_avg:149.41ms
step:487/1480 train_time:71276ms step_avg:149.43ms
step:488/1480 train_time:71432ms step_avg:149.44ms
step:489/1480 train_time:71589ms step_avg:149.46ms
step:490/1480 train_time:71746ms step_avg:149.47ms
step:491/1480 train_time:71902ms step_avg:149.48ms
step:492/1480 train_time:72059ms step_avg:149.50ms
step:493/1480 train_time:72216ms step_avg:149.52ms
step:494/1480 train_time:72374ms step_avg:149.53ms
step:495/1480 train_time:72532ms step_avg:149.55ms
step:496/1480 train_time:72691ms step_avg:149.57ms
step:497/1480 train_time:72849ms step_avg:149.59ms
step:498/1480 train_time:73004ms step_avg:149.60ms
step:499/1480 train_time:73162ms step_avg:149.62ms
step:500/1480 train_time:73318ms step_avg:149.63ms
step:500/1480 val_loss:3.6801 train_time:73380ms step_avg:149.76ms
step:501/1480 train_time:73477ms step_avg:149.65ms
step:502/1480 train_time:73634ms step_avg:149.66ms
step:503/1480 train_time:73791ms step_avg:149.68ms
step:504/1480 train_time:73947ms step_avg:149.69ms
step:505/1480 train_time:74102ms step_avg:149.70ms
step:506/1480 train_time:74258ms step_avg:149.71ms
step:507/1480 train_time:74415ms step_avg:149.73ms
step:508/1480 train_time:74572ms step_avg:149.74ms
step:509/1480 train_time:74729ms step_avg:149.76ms
step:510/1480 train_time:74885ms step_avg:149.77ms
step:511/1480 train_time:75042ms step_avg:149.78ms
step:512/1480 train_time:75199ms step_avg:149.80ms
step:513/1480 train_time:75354ms step_avg:149.81ms
step:514/1480 train_time:75512ms step_avg:149.83ms
step:515/1480 train_time:75670ms step_avg:149.84ms
step:516/1480 train_time:75830ms step_avg:149.86ms
step:517/1480 train_time:75989ms step_avg:149.88ms
step:518/1480 train_time:76147ms step_avg:149.89ms
step:519/1480 train_time:76304ms step_avg:149.91ms
step:520/1480 train_time:76460ms step_avg:149.92ms
step:521/1480 train_time:76616ms step_avg:149.93ms
step:522/1480 train_time:76774ms step_avg:149.95ms
step:523/1480 train_time:76930ms step_avg:149.96ms
step:524/1480 train_time:77088ms step_avg:149.98ms
step:525/1480 train_time:77247ms step_avg:149.99ms
step:526/1480 train_time:77404ms step_avg:150.01ms
step:527/1480 train_time:77560ms step_avg:150.02ms
step:528/1480 train_time:77716ms step_avg:150.03ms
step:529/1480 train_time:77872ms step_avg:150.04ms
step:530/1480 train_time:78029ms step_avg:150.06ms
step:531/1480 train_time:78187ms step_avg:150.07ms
step:532/1480 train_time:78344ms step_avg:150.08ms
step:533/1480 train_time:78501ms step_avg:150.10ms
step:534/1480 train_time:78657ms step_avg:150.11ms
step:535/1480 train_time:78813ms step_avg:150.12ms
step:536/1480 train_time:78971ms step_avg:150.13ms
step:537/1480 train_time:79129ms step_avg:150.15ms
step:538/1480 train_time:79286ms step_avg:150.16ms
step:539/1480 train_time:79444ms step_avg:150.18ms
step:540/1480 train_time:79602ms step_avg:150.19ms
step:541/1480 train_time:79756ms step_avg:150.20ms
step:542/1480 train_time:79913ms step_avg:150.21ms
step:543/1480 train_time:80069ms step_avg:150.22ms
step:544/1480 train_time:80226ms step_avg:150.24ms
step:545/1480 train_time:80382ms step_avg:150.25ms
step:546/1480 train_time:80539ms step_avg:150.26ms
step:547/1480 train_time:80695ms step_avg:150.27ms
step:548/1480 train_time:80853ms step_avg:150.28ms
step:549/1480 train_time:81010ms step_avg:150.30ms
step:550/1480 train_time:81168ms step_avg:150.31ms
step:551/1480 train_time:81327ms step_avg:150.33ms
step:552/1480 train_time:81485ms step_avg:150.34ms
step:553/1480 train_time:81646ms step_avg:150.36ms
step:554/1480 train_time:81806ms step_avg:150.38ms
step:555/1480 train_time:81967ms step_avg:150.40ms
step:556/1480 train_time:82126ms step_avg:150.41ms
step:557/1480 train_time:82286ms step_avg:150.43ms
step:558/1480 train_time:82445ms step_avg:150.45ms
step:559/1480 train_time:82603ms step_avg:150.46ms
step:560/1480 train_time:82762ms step_avg:150.48ms
step:561/1480 train_time:82920ms step_avg:150.49ms
step:562/1480 train_time:83079ms step_avg:150.51ms
step:563/1480 train_time:83236ms step_avg:150.52ms
step:564/1480 train_time:83395ms step_avg:150.53ms
step:565/1480 train_time:83553ms step_avg:150.55ms
step:566/1480 train_time:83712ms step_avg:150.56ms
step:567/1480 train_time:83872ms step_avg:150.58ms
step:568/1480 train_time:84031ms step_avg:150.59ms
step:569/1480 train_time:84190ms step_avg:150.61ms
step:570/1480 train_time:84351ms step_avg:150.63ms
step:571/1480 train_time:84510ms step_avg:150.64ms
step:572/1480 train_time:84669ms step_avg:150.66ms
step:573/1480 train_time:84830ms step_avg:150.67ms
step:574/1480 train_time:84991ms step_avg:150.69ms
step:575/1480 train_time:85152ms step_avg:150.71ms
step:576/1480 train_time:85311ms step_avg:150.73ms
step:577/1480 train_time:85471ms step_avg:150.74ms
step:578/1480 train_time:85631ms step_avg:150.76ms
step:579/1480 train_time:85790ms step_avg:150.77ms
step:580/1480 train_time:85951ms step_avg:150.79ms
step:581/1480 train_time:86112ms step_avg:150.81ms
step:582/1480 train_time:86272ms step_avg:150.82ms
step:583/1480 train_time:86431ms step_avg:150.84ms
step:584/1480 train_time:86590ms step_avg:150.85ms
step:585/1480 train_time:86750ms step_avg:150.87ms
step:586/1480 train_time:86911ms step_avg:150.89ms
step:587/1480 train_time:87071ms step_avg:150.90ms
step:588/1480 train_time:87230ms step_avg:150.92ms
step:589/1480 train_time:87391ms step_avg:150.93ms
step:590/1480 train_time:87551ms step_avg:150.95ms
step:591/1480 train_time:87710ms step_avg:150.96ms
step:592/1480 train_time:87870ms step_avg:150.98ms
step:593/1480 train_time:88031ms step_avg:151.00ms
step:594/1480 train_time:88191ms step_avg:151.01ms
step:595/1480 train_time:88353ms step_avg:151.03ms
step:596/1480 train_time:88514ms step_avg:151.05ms
step:597/1480 train_time:88673ms step_avg:151.06ms
step:598/1480 train_time:88831ms step_avg:151.07ms
step:599/1480 train_time:88990ms step_avg:151.09ms
step:600/1480 train_time:89151ms step_avg:151.10ms
step:601/1480 train_time:89311ms step_avg:151.12ms
step:602/1480 train_time:89470ms step_avg:151.13ms
step:603/1480 train_time:89633ms step_avg:151.15ms
step:604/1480 train_time:89791ms step_avg:151.16ms
step:605/1480 train_time:89950ms step_avg:151.18ms
step:606/1480 train_time:90112ms step_avg:151.19ms
step:607/1480 train_time:90273ms step_avg:151.21ms
step:608/1480 train_time:90433ms step_avg:151.22ms
step:609/1480 train_time:90592ms step_avg:151.24ms
step:610/1480 train_time:90751ms step_avg:151.25ms
step:611/1480 train_time:90911ms step_avg:151.27ms
step:612/1480 train_time:91071ms step_avg:151.28ms
step:613/1480 train_time:91232ms step_avg:151.30ms
step:614/1480 train_time:91392ms step_avg:151.31ms
step:615/1480 train_time:91551ms step_avg:151.32ms
step:616/1480 train_time:91711ms step_avg:151.34ms
step:617/1480 train_time:91870ms step_avg:151.35ms
step:618/1480 train_time:92029ms step_avg:151.36ms
step:619/1480 train_time:92190ms step_avg:151.38ms
step:620/1480 train_time:92351ms step_avg:151.40ms
step:621/1480 train_time:92511ms step_avg:151.41ms
step:622/1480 train_time:92673ms step_avg:151.43ms
step:623/1480 train_time:92832ms step_avg:151.44ms
step:624/1480 train_time:92991ms step_avg:151.45ms
step:625/1480 train_time:93151ms step_avg:151.47ms
step:625/1480 val_loss:3.6006 train_time:93215ms step_avg:151.57ms
step:626/1480 train_time:93314ms step_avg:151.48ms
step:627/1480 train_time:93474ms step_avg:151.50ms
step:628/1480 train_time:93632ms step_avg:151.51ms
step:629/1480 train_time:93791ms step_avg:151.52ms
step:630/1480 train_time:93948ms step_avg:151.53ms
step:631/1480 train_time:94105ms step_avg:151.54ms
step:632/1480 train_time:94265ms step_avg:151.55ms
step:633/1480 train_time:94426ms step_avg:151.57ms
step:634/1480 train_time:94586ms step_avg:151.58ms
step:635/1480 train_time:94744ms step_avg:151.59ms
step:636/1480 train_time:94903ms step_avg:151.60ms
step:637/1480 train_time:95062ms step_avg:151.61ms
step:638/1480 train_time:95221ms step_avg:151.63ms
step:639/1480 train_time:95381ms step_avg:151.64ms
step:640/1480 train_time:95540ms step_avg:151.65ms
step:641/1480 train_time:95701ms step_avg:151.67ms
step:642/1480 train_time:95860ms step_avg:151.68ms
step:643/1480 train_time:96022ms step_avg:151.69ms
step:644/1480 train_time:96181ms step_avg:151.70ms
step:645/1480 train_time:96340ms step_avg:151.72ms
step:646/1480 train_time:96499ms step_avg:151.73ms
step:647/1480 train_time:96659ms step_avg:151.74ms
step:648/1480 train_time:96821ms step_avg:151.76ms
step:649/1480 train_time:96981ms step_avg:151.77ms
step:650/1480 train_time:97139ms step_avg:151.78ms
step:651/1480 train_time:97299ms step_avg:151.79ms
step:652/1480 train_time:97459ms step_avg:151.81ms
step:653/1480 train_time:97619ms step_avg:151.82ms
step:654/1480 train_time:97780ms step_avg:151.83ms
step:655/1480 train_time:97940ms step_avg:151.84ms
step:656/1480 train_time:98100ms step_avg:151.86ms
step:657/1480 train_time:98260ms step_avg:151.87ms
step:658/1480 train_time:98420ms step_avg:151.88ms
step:659/1480 train_time:98582ms step_avg:151.90ms
step:660/1480 train_time:98744ms step_avg:151.91ms
step:661/1480 train_time:98907ms step_avg:151.93ms
step:662/1480 train_time:99066ms step_avg:151.94ms
step:663/1480 train_time:99227ms step_avg:151.96ms
step:664/1480 train_time:99388ms step_avg:151.97ms
step:665/1480 train_time:99549ms step_avg:151.98ms
step:666/1480 train_time:99709ms step_avg:152.00ms
step:667/1480 train_time:99874ms step_avg:152.01ms
step:668/1480 train_time:100036ms step_avg:152.03ms
step:669/1480 train_time:100199ms step_avg:152.05ms
step:670/1480 train_time:100360ms step_avg:152.06ms
step:671/1480 train_time:100522ms step_avg:152.08ms
step:672/1480 train_time:100683ms step_avg:152.09ms
step:673/1480 train_time:100845ms step_avg:152.10ms
step:674/1480 train_time:101007ms step_avg:152.12ms
step:675/1480 train_time:101167ms step_avg:152.13ms
step:676/1480 train_time:101329ms step_avg:152.15ms
step:677/1480 train_time:101491ms step_avg:152.16ms
step:678/1480 train_time:101654ms step_avg:152.18ms
step:679/1480 train_time:101817ms step_avg:152.19ms
step:680/1480 train_time:101979ms step_avg:152.21ms
step:681/1480 train_time:102140ms step_avg:152.22ms
step:682/1480 train_time:102303ms step_avg:152.24ms
step:683/1480 train_time:102464ms step_avg:152.25ms
step:684/1480 train_time:102625ms step_avg:152.26ms
step:685/1480 train_time:102787ms step_avg:152.28ms
step:686/1480 train_time:102948ms step_avg:152.29ms
step:687/1480 train_time:103108ms step_avg:152.30ms
step:688/1480 train_time:103271ms step_avg:152.32ms
step:689/1480 train_time:103433ms step_avg:152.33ms
step:690/1480 train_time:103598ms step_avg:152.35ms
step:691/1480 train_time:103760ms step_avg:152.36ms
step:692/1480 train_time:103922ms step_avg:152.38ms
step:693/1480 train_time:104083ms step_avg:152.39ms
step:694/1480 train_time:104245ms step_avg:152.41ms
step:695/1480 train_time:104407ms step_avg:152.42ms
step:696/1480 train_time:104566ms step_avg:152.43ms
step:697/1480 train_time:104729ms step_avg:152.44ms
step:698/1480 train_time:104890ms step_avg:152.46ms
step:699/1480 train_time:105052ms step_avg:152.47ms
step:700/1480 train_time:105217ms step_avg:152.49ms
step:701/1480 train_time:105378ms step_avg:152.50ms
step:702/1480 train_time:105539ms step_avg:152.51ms
step:703/1480 train_time:105701ms step_avg:152.53ms
step:704/1480 train_time:105862ms step_avg:152.54ms
step:705/1480 train_time:106024ms step_avg:152.55ms
step:706/1480 train_time:106189ms step_avg:152.57ms
step:707/1480 train_time:106352ms step_avg:152.59ms
step:708/1480 train_time:106514ms step_avg:152.60ms
step:709/1480 train_time:106676ms step_avg:152.61ms
step:710/1480 train_time:106838ms step_avg:152.63ms
step:711/1480 train_time:107002ms step_avg:152.64ms
step:712/1480 train_time:107166ms step_avg:152.66ms
step:713/1480 train_time:107329ms step_avg:152.67ms
step:714/1480 train_time:107489ms step_avg:152.68ms
step:715/1480 train_time:107650ms step_avg:152.69ms
step:716/1480 train_time:107808ms step_avg:152.70ms
step:717/1480 train_time:107969ms step_avg:152.71ms
step:718/1480 train_time:108128ms step_avg:152.72ms
step:719/1480 train_time:108289ms step_avg:152.74ms
step:720/1480 train_time:108453ms step_avg:152.75ms
step:721/1480 train_time:108616ms step_avg:152.76ms
step:722/1480 train_time:108779ms step_avg:152.78ms
step:723/1480 train_time:108941ms step_avg:152.79ms
step:724/1480 train_time:109103ms step_avg:152.80ms
step:725/1480 train_time:109264ms step_avg:152.82ms
step:726/1480 train_time:109427ms step_avg:152.83ms
step:727/1480 train_time:109591ms step_avg:152.85ms
step:728/1480 train_time:109752ms step_avg:152.86ms
step:729/1480 train_time:109914ms step_avg:152.87ms
step:730/1480 train_time:110081ms step_avg:152.89ms
step:731/1480 train_time:110243ms step_avg:152.90ms
step:732/1480 train_time:110402ms step_avg:152.91ms
step:733/1480 train_time:110563ms step_avg:152.92ms
step:734/1480 train_time:110724ms step_avg:152.93ms
step:735/1480 train_time:110885ms step_avg:152.95ms
step:736/1480 train_time:111047ms step_avg:152.96ms
step:737/1480 train_time:111207ms step_avg:152.97ms
step:738/1480 train_time:111368ms step_avg:152.98ms
step:739/1480 train_time:111528ms step_avg:152.99ms
step:740/1480 train_time:111695ms step_avg:153.01ms
step:741/1480 train_time:111859ms step_avg:153.02ms
step:742/1480 train_time:112022ms step_avg:153.04ms
step:743/1480 train_time:112183ms step_avg:153.05ms
step:744/1480 train_time:112348ms step_avg:153.06ms
step:745/1480 train_time:112511ms step_avg:153.08ms
step:746/1480 train_time:112672ms step_avg:153.09ms
step:747/1480 train_time:112833ms step_avg:153.10ms
step:748/1480 train_time:113001ms step_avg:153.12ms
step:749/1480 train_time:113164ms step_avg:153.13ms
step:750/1480 train_time:113324ms step_avg:153.14ms
step:750/1480 val_loss:3.5469 train_time:113387ms step_avg:153.23ms
step:751/1480 train_time:113487ms step_avg:153.15ms
step:752/1480 train_time:113651ms step_avg:153.17ms
step:753/1480 train_time:113812ms step_avg:153.18ms
step:754/1480 train_time:113974ms step_avg:153.19ms
step:755/1480 train_time:114136ms step_avg:153.20ms
step:756/1480 train_time:114298ms step_avg:153.21ms
step:757/1480 train_time:114461ms step_avg:153.23ms
step:758/1480 train_time:114621ms step_avg:153.24ms
step:759/1480 train_time:114783ms step_avg:153.25ms
step:760/1480 train_time:114943ms step_avg:153.26ms
step:761/1480 train_time:115104ms step_avg:153.27ms
step:762/1480 train_time:115264ms step_avg:153.28ms
step:763/1480 train_time:115425ms step_avg:153.29ms
step:764/1480 train_time:115585ms step_avg:153.30ms
step:765/1480 train_time:115746ms step_avg:153.31ms
step:766/1480 train_time:115908ms step_avg:153.32ms
step:767/1480 train_time:116071ms step_avg:153.33ms
step:768/1480 train_time:116235ms step_avg:153.34ms
step:769/1480 train_time:116398ms step_avg:153.36ms
step:770/1480 train_time:116560ms step_avg:153.37ms
step:771/1480 train_time:116723ms step_avg:153.38ms
step:772/1480 train_time:116884ms step_avg:153.39ms
step:773/1480 train_time:117047ms step_avg:153.40ms
step:774/1480 train_time:117209ms step_avg:153.41ms
step:775/1480 train_time:117371ms step_avg:153.43ms
step:776/1480 train_time:117536ms step_avg:153.44ms
step:777/1480 train_time:117703ms step_avg:153.46ms
step:778/1480 train_time:117866ms step_avg:153.47ms
step:779/1480 train_time:118028ms step_avg:153.48ms
step:780/1480 train_time:118193ms step_avg:153.50ms
step:781/1480 train_time:118358ms step_avg:153.51ms
step:782/1480 train_time:118521ms step_avg:153.53ms
step:783/1480 train_time:118682ms step_avg:153.53ms
step:784/1480 train_time:118845ms step_avg:153.55ms
step:785/1480 train_time:119007ms step_avg:153.56ms
step:786/1480 train_time:119172ms step_avg:153.57ms
step:787/1480 train_time:119337ms step_avg:153.59ms
step:788/1480 train_time:119500ms step_avg:153.60ms
step:789/1480 train_time:119661ms step_avg:153.61ms
step:790/1480 train_time:119826ms step_avg:153.62ms
step:791/1480 train_time:119996ms step_avg:153.64ms
step:792/1480 train_time:120161ms step_avg:153.66ms
step:793/1480 train_time:120322ms step_avg:153.67ms
step:794/1480 train_time:120485ms step_avg:153.68ms
step:795/1480 train_time:120651ms step_avg:153.70ms
step:796/1480 train_time:120818ms step_avg:153.71ms
step:797/1480 train_time:120982ms step_avg:153.73ms
step:798/1480 train_time:121146ms step_avg:153.74ms
step:799/1480 train_time:121313ms step_avg:153.76ms
step:800/1480 train_time:121477ms step_avg:153.77ms
step:801/1480 train_time:121640ms step_avg:153.78ms
step:802/1480 train_time:121807ms step_avg:153.80ms
step:803/1480 train_time:121969ms step_avg:153.81ms
step:804/1480 train_time:122131ms step_avg:153.82ms
step:805/1480 train_time:122296ms step_avg:153.83ms
step:806/1480 train_time:122458ms step_avg:153.84ms
step:807/1480 train_time:122619ms step_avg:153.85ms
step:808/1480 train_time:122782ms step_avg:153.86ms
step:809/1480 train_time:122944ms step_avg:153.87ms
step:810/1480 train_time:123104ms step_avg:153.88ms
step:811/1480 train_time:123267ms step_avg:153.89ms
step:812/1480 train_time:123431ms step_avg:153.90ms
step:813/1480 train_time:123592ms step_avg:153.91ms
step:814/1480 train_time:123756ms step_avg:153.93ms
step:815/1480 train_time:123919ms step_avg:153.94ms
step:816/1480 train_time:124084ms step_avg:153.95ms
step:817/1480 train_time:124245ms step_avg:153.96ms
step:818/1480 train_time:124406ms step_avg:153.97ms
step:819/1480 train_time:124570ms step_avg:153.98ms
step:820/1480 train_time:124733ms step_avg:153.99ms
step:821/1480 train_time:124895ms step_avg:154.00ms
step:822/1480 train_time:125060ms step_avg:154.01ms
step:823/1480 train_time:125221ms step_avg:154.02ms
step:824/1480 train_time:125383ms step_avg:154.03ms
step:825/1480 train_time:125548ms step_avg:154.05ms
step:826/1480 train_time:125716ms step_avg:154.06ms
step:827/1480 train_time:125882ms step_avg:154.08ms
step:828/1480 train_time:126045ms step_avg:154.09ms
step:829/1480 train_time:126207ms step_avg:154.10ms
step:830/1480 train_time:126371ms step_avg:154.11ms
step:831/1480 train_time:126537ms step_avg:154.13ms
step:832/1480 train_time:126701ms step_avg:154.14ms
step:833/1480 train_time:126865ms step_avg:154.15ms
step:834/1480 train_time:127031ms step_avg:154.16ms
step:835/1480 train_time:127193ms step_avg:154.17ms
step:836/1480 train_time:127359ms step_avg:154.19ms
step:837/1480 train_time:127520ms step_avg:154.20ms
step:838/1480 train_time:127684ms step_avg:154.21ms
step:839/1480 train_time:127846ms step_avg:154.22ms
step:840/1480 train_time:128007ms step_avg:154.23ms
step:841/1480 train_time:128170ms step_avg:154.24ms
step:842/1480 train_time:128334ms step_avg:154.25ms
step:843/1480 train_time:128497ms step_avg:154.26ms
step:844/1480 train_time:128660ms step_avg:154.27ms
step:845/1480 train_time:128823ms step_avg:154.28ms
step:846/1480 train_time:128986ms step_avg:154.29ms
step:847/1480 train_time:129151ms step_avg:154.30ms
step:848/1480 train_time:129314ms step_avg:154.31ms
step:849/1480 train_time:129478ms step_avg:154.32ms
step:850/1480 train_time:129640ms step_avg:154.33ms
step:851/1480 train_time:129804ms step_avg:154.34ms
step:852/1480 train_time:129965ms step_avg:154.35ms
step:853/1480 train_time:130126ms step_avg:154.36ms
step:854/1480 train_time:130292ms step_avg:154.37ms
step:855/1480 train_time:130457ms step_avg:154.39ms
step:856/1480 train_time:130619ms step_avg:154.40ms
step:857/1480 train_time:130784ms step_avg:154.41ms
step:858/1480 train_time:130950ms step_avg:154.42ms
step:859/1480 train_time:131116ms step_avg:154.44ms
step:860/1480 train_time:131278ms step_avg:154.45ms
step:861/1480 train_time:131443ms step_avg:154.46ms
step:862/1480 train_time:131612ms step_avg:154.47ms
step:863/1480 train_time:131781ms step_avg:154.49ms
step:864/1480 train_time:131944ms step_avg:154.50ms
step:865/1480 train_time:132105ms step_avg:154.51ms
step:866/1480 train_time:132270ms step_avg:154.52ms
step:867/1480 train_time:132435ms step_avg:154.53ms
step:868/1480 train_time:132597ms step_avg:154.54ms
step:869/1480 train_time:132760ms step_avg:154.55ms
step:870/1480 train_time:132924ms step_avg:154.56ms
step:871/1480 train_time:133086ms step_avg:154.57ms
step:872/1480 train_time:133252ms step_avg:154.58ms
step:873/1480 train_time:133415ms step_avg:154.59ms
step:874/1480 train_time:133581ms step_avg:154.61ms
step:875/1480 train_time:133745ms step_avg:154.62ms
step:875/1480 val_loss:3.4997 train_time:133810ms step_avg:154.69ms
step:876/1480 train_time:133909ms step_avg:154.63ms
step:877/1480 train_time:134073ms step_avg:154.64ms
step:878/1480 train_time:134235ms step_avg:154.65ms
step:879/1480 train_time:134399ms step_avg:154.66ms
step:880/1480 train_time:134562ms step_avg:154.67ms
step:881/1480 train_time:134726ms step_avg:154.68ms
step:882/1480 train_time:134890ms step_avg:154.69ms
step:883/1480 train_time:135055ms step_avg:154.70ms
step:884/1480 train_time:135224ms step_avg:154.72ms
step:885/1480 train_time:135389ms step_avg:154.73ms
step:886/1480 train_time:135555ms step_avg:154.74ms
step:887/1480 train_time:135725ms step_avg:154.76ms
step:888/1480 train_time:135897ms step_avg:154.78ms
step:889/1480 train_time:136064ms step_avg:154.79ms
step:890/1480 train_time:136227ms step_avg:154.80ms
step:891/1480 train_time:136392ms step_avg:154.82ms
step:892/1480 train_time:136557ms step_avg:154.83ms
step:893/1480 train_time:136721ms step_avg:154.84ms
step:894/1480 train_time:136889ms step_avg:154.85ms
step:895/1480 train_time:137056ms step_avg:154.87ms
step:896/1480 train_time:137221ms step_avg:154.88ms
step:897/1480 train_time:137387ms step_avg:154.89ms
step:898/1480 train_time:137555ms step_avg:154.90ms
step:899/1480 train_time:137720ms step_avg:154.92ms
step:900/1480 train_time:137884ms step_avg:154.93ms
step:901/1480 train_time:138048ms step_avg:154.94ms
step:902/1480 train_time:138210ms step_avg:154.94ms
step:903/1480 train_time:138382ms step_avg:154.96ms
step:904/1480 train_time:138547ms step_avg:154.97ms
step:905/1480 train_time:138709ms step_avg:154.98ms
step:906/1480 train_time:138875ms step_avg:154.99ms
step:907/1480 train_time:139045ms step_avg:155.01ms
step:908/1480 train_time:139207ms step_avg:155.02ms
step:909/1480 train_time:139370ms step_avg:155.03ms
step:910/1480 train_time:139540ms step_avg:155.04ms
step:911/1480 train_time:139706ms step_avg:155.06ms
step:912/1480 train_time:139871ms step_avg:155.07ms
step:913/1480 train_time:140039ms step_avg:155.08ms
step:914/1480 train_time:140206ms step_avg:155.10ms
step:915/1480 train_time:140374ms step_avg:155.11ms
step:916/1480 train_time:140540ms step_avg:155.12ms
step:917/1480 train_time:140704ms step_avg:155.13ms
step:918/1480 train_time:140871ms step_avg:155.14ms
step:919/1480 train_time:141039ms step_avg:155.16ms
step:920/1480 train_time:141205ms step_avg:155.17ms
step:921/1480 train_time:141370ms step_avg:155.18ms
step:922/1480 train_time:141538ms step_avg:155.19ms
step:923/1480 train_time:141701ms step_avg:155.20ms
step:924/1480 train_time:141865ms step_avg:155.21ms
step:925/1480 train_time:142030ms step_avg:155.22ms
step:926/1480 train_time:142192ms step_avg:155.23ms
step:927/1480 train_time:142357ms step_avg:155.24ms
step:928/1480 train_time:142523ms step_avg:155.25ms
step:929/1480 train_time:142687ms step_avg:155.26ms
step:930/1480 train_time:142852ms step_avg:155.27ms
step:931/1480 train_time:143015ms step_avg:155.28ms
step:932/1480 train_time:143183ms step_avg:155.30ms
step:933/1480 train_time:143350ms step_avg:155.31ms
step:934/1480 train_time:143518ms step_avg:155.32ms
step:935/1480 train_time:143689ms step_avg:155.34ms
step:936/1480 train_time:143855ms step_avg:155.35ms
step:937/1480 train_time:144025ms step_avg:155.37ms
step:938/1480 train_time:144188ms step_avg:155.37ms
step:939/1480 train_time:144357ms step_avg:155.39ms
step:940/1480 train_time:144524ms step_avg:155.40ms
step:941/1480 train_time:144687ms step_avg:155.41ms
step:942/1480 train_time:144851ms step_avg:155.42ms
step:943/1480 train_time:145021ms step_avg:155.44ms
step:944/1480 train_time:145194ms step_avg:155.45ms
step:945/1480 train_time:145359ms step_avg:155.46ms
step:946/1480 train_time:145529ms step_avg:155.48ms
step:947/1480 train_time:145696ms step_avg:155.49ms
step:948/1480 train_time:145863ms step_avg:155.50ms
step:949/1480 train_time:146029ms step_avg:155.52ms
step:950/1480 train_time:146193ms step_avg:155.52ms
step:951/1480 train_time:146363ms step_avg:155.54ms
step:952/1480 train_time:146528ms step_avg:155.55ms
step:953/1480 train_time:146697ms step_avg:155.56ms
step:954/1480 train_time:146866ms step_avg:155.58ms
step:955/1480 train_time:147030ms step_avg:155.59ms
step:956/1480 train_time:147196ms step_avg:155.60ms
step:957/1480 train_time:147365ms step_avg:155.61ms
step:958/1480 train_time:147532ms step_avg:155.62ms
step:959/1480 train_time:147697ms step_avg:155.63ms
step:960/1480 train_time:147864ms step_avg:155.65ms
step:961/1480 train_time:148030ms step_avg:155.66ms
step:962/1480 train_time:148194ms step_avg:155.67ms
step:963/1480 train_time:148359ms step_avg:155.68ms
step:964/1480 train_time:148528ms step_avg:155.69ms
step:965/1480 train_time:148691ms step_avg:155.70ms
step:966/1480 train_time:148857ms step_avg:155.71ms
step:967/1480 train_time:149021ms step_avg:155.72ms
step:968/1480 train_time:149186ms step_avg:155.73ms
step:969/1480 train_time:149351ms step_avg:155.74ms
step:970/1480 train_time:149513ms step_avg:155.74ms
step:971/1480 train_time:149678ms step_avg:155.75ms
step:972/1480 train_time:149845ms step_avg:155.76ms
step:973/1480 train_time:150009ms step_avg:155.77ms
step:974/1480 train_time:150176ms step_avg:155.78ms
step:975/1480 train_time:150343ms step_avg:155.80ms
step:976/1480 train_time:150508ms step_avg:155.80ms
step:977/1480 train_time:150671ms step_avg:155.81ms
step:978/1480 train_time:150836ms step_avg:155.82ms
step:979/1480 train_time:151004ms step_avg:155.84ms
step:980/1480 train_time:151170ms step_avg:155.85ms
step:981/1480 train_time:151341ms step_avg:155.86ms
step:982/1480 train_time:151504ms step_avg:155.87ms
step:983/1480 train_time:151668ms step_avg:155.88ms
step:984/1480 train_time:151831ms step_avg:155.88ms
step:985/1480 train_time:152001ms step_avg:155.90ms
step:986/1480 train_time:152167ms step_avg:155.91ms
step:987/1480 train_time:152330ms step_avg:155.92ms
step:988/1480 train_time:152496ms step_avg:155.93ms
step:989/1480 train_time:152662ms step_avg:155.94ms
step:990/1480 train_time:152832ms step_avg:155.95ms
step:991/1480 train_time:153001ms step_avg:155.96ms
step:992/1480 train_time:153174ms step_avg:155.98ms
step:993/1480 train_time:153351ms step_avg:156.00ms
step:994/1480 train_time:153515ms step_avg:156.01ms
step:995/1480 train_time:153679ms step_avg:156.02ms
step:996/1480 train_time:153842ms step_avg:156.03ms
step:997/1480 train_time:154006ms step_avg:156.03ms
step:998/1480 train_time:154169ms step_avg:156.04ms
step:999/1480 train_time:154335ms step_avg:156.05ms
step:1000/1480 train_time:154505ms step_avg:156.07ms
step:1000/1480 val_loss:3.4384 train_time:154572ms step_avg:156.13ms
step:1001/1480 train_time:154673ms step_avg:156.08ms
step:1002/1480 train_time:154840ms step_avg:156.09ms
step:1003/1480 train_time:155010ms step_avg:156.10ms
step:1004/1480 train_time:155178ms step_avg:156.11ms
step:1005/1480 train_time:155346ms step_avg:156.13ms
step:1006/1480 train_time:155512ms step_avg:156.14ms
step:1007/1480 train_time:155677ms step_avg:156.15ms
step:1008/1480 train_time:155846ms step_avg:156.16ms
step:1009/1480 train_time:156022ms step_avg:156.18ms
step:1010/1480 train_time:156188ms step_avg:156.19ms
step:1011/1480 train_time:156354ms step_avg:156.20ms
step:1012/1480 train_time:156519ms step_avg:156.21ms
step:1013/1480 train_time:156690ms step_avg:156.22ms
step:1014/1480 train_time:156859ms step_avg:156.23ms
step:1015/1480 train_time:157029ms step_avg:156.25ms
step:1016/1480 train_time:157197ms step_avg:156.26ms
step:1017/1480 train_time:157369ms step_avg:156.27ms
step:1018/1480 train_time:157535ms step_avg:156.28ms
step:1019/1480 train_time:157704ms step_avg:156.30ms
step:1020/1480 train_time:157872ms step_avg:156.31ms
step:1021/1480 train_time:158037ms step_avg:156.32ms
step:1022/1480 train_time:158205ms step_avg:156.33ms
step:1023/1480 train_time:158372ms step_avg:156.34ms
step:1024/1480 train_time:158540ms step_avg:156.35ms
step:1025/1480 train_time:158709ms step_avg:156.36ms
step:1026/1480 train_time:158874ms step_avg:156.37ms
step:1027/1480 train_time:159041ms step_avg:156.38ms
step:1028/1480 train_time:159212ms step_avg:156.40ms
step:1029/1480 train_time:159386ms step_avg:156.41ms
step:1030/1480 train_time:159553ms step_avg:156.42ms
step:1031/1480 train_time:159717ms step_avg:156.43ms
step:1032/1480 train_time:159890ms step_avg:156.45ms
step:1033/1480 train_time:160056ms step_avg:156.46ms
step:1034/1480 train_time:160225ms step_avg:156.47ms
step:1035/1480 train_time:160391ms step_avg:156.48ms
step:1036/1480 train_time:160557ms step_avg:156.49ms
step:1037/1480 train_time:160725ms step_avg:156.50ms
step:1038/1480 train_time:160892ms step_avg:156.51ms
step:1039/1480 train_time:161065ms step_avg:156.53ms
step:1040/1480 train_time:161229ms step_avg:156.53ms
step:1041/1480 train_time:161395ms step_avg:156.54ms
step:1042/1480 train_time:161559ms step_avg:156.55ms
step:1043/1480 train_time:161725ms step_avg:156.56ms
step:1044/1480 train_time:161890ms step_avg:156.57ms
step:1045/1480 train_time:162061ms step_avg:156.58ms
step:1046/1480 train_time:162229ms step_avg:156.59ms
step:1047/1480 train_time:162394ms step_avg:156.60ms
step:1048/1480 train_time:162561ms step_avg:156.61ms
step:1049/1480 train_time:162727ms step_avg:156.62ms
step:1050/1480 train_time:162896ms step_avg:156.63ms
step:1051/1480 train_time:163066ms step_avg:156.64ms
step:1052/1480 train_time:163233ms step_avg:156.65ms
step:1053/1480 train_time:163402ms step_avg:156.66ms
step:1054/1480 train_time:163569ms step_avg:156.68ms
step:1055/1480 train_time:163735ms step_avg:156.68ms
step:1056/1480 train_time:163900ms step_avg:156.69ms
step:1057/1480 train_time:164068ms step_avg:156.70ms
step:1058/1480 train_time:164236ms step_avg:156.71ms
step:1059/1480 train_time:164409ms step_avg:156.73ms
step:1060/1480 train_time:164577ms step_avg:156.74ms
step:1061/1480 train_time:164741ms step_avg:156.75ms
step:1062/1480 train_time:164908ms step_avg:156.76ms
step:1063/1480 train_time:165072ms step_avg:156.76ms
step:1064/1480 train_time:165237ms step_avg:156.77ms
step:1065/1480 train_time:165404ms step_avg:156.78ms
step:1066/1480 train_time:165571ms step_avg:156.79ms
step:1067/1480 train_time:165740ms step_avg:156.80ms
step:1068/1480 train_time:165907ms step_avg:156.81ms
step:1069/1480 train_time:166078ms step_avg:156.83ms
step:1070/1480 train_time:166245ms step_avg:156.83ms
step:1071/1480 train_time:166416ms step_avg:156.85ms
step:1072/1480 train_time:166585ms step_avg:156.86ms
step:1073/1480 train_time:166748ms step_avg:156.87ms
step:1074/1480 train_time:166914ms step_avg:156.87ms
step:1075/1480 train_time:167086ms step_avg:156.89ms
step:1076/1480 train_time:167252ms step_avg:156.90ms
step:1077/1480 train_time:167416ms step_avg:156.90ms
step:1078/1480 train_time:167592ms step_avg:156.92ms
step:1079/1480 train_time:167764ms step_avg:156.94ms
step:1080/1480 train_time:167933ms step_avg:156.95ms
step:1081/1480 train_time:168100ms step_avg:156.96ms
step:1082/1480 train_time:168267ms step_avg:156.97ms
step:1083/1480 train_time:168433ms step_avg:156.97ms
step:1084/1480 train_time:168599ms step_avg:156.98ms
step:1085/1480 train_time:168768ms step_avg:156.99ms
step:1086/1480 train_time:168935ms step_avg:157.00ms
step:1087/1480 train_time:169101ms step_avg:157.01ms
step:1088/1480 train_time:169273ms step_avg:157.02ms
step:1089/1480 train_time:169445ms step_avg:157.04ms
step:1090/1480 train_time:169618ms step_avg:157.05ms
step:1091/1480 train_time:169786ms step_avg:157.06ms
step:1092/1480 train_time:169952ms step_avg:157.07ms
step:1093/1480 train_time:170121ms step_avg:157.08ms
step:1094/1480 train_time:170287ms step_avg:157.09ms
step:1095/1480 train_time:170452ms step_avg:157.10ms
step:1096/1480 train_time:170620ms step_avg:157.11ms
step:1097/1480 train_time:170789ms step_avg:157.12ms
step:1098/1480 train_time:170961ms step_avg:157.13ms
step:1099/1480 train_time:171131ms step_avg:157.15ms
step:1100/1480 train_time:171305ms step_avg:157.16ms
step:1101/1480 train_time:171474ms step_avg:157.17ms
step:1102/1480 train_time:171646ms step_avg:157.19ms
step:1103/1480 train_time:171823ms step_avg:157.20ms
step:1104/1480 train_time:171991ms step_avg:157.21ms
step:1105/1480 train_time:172163ms step_avg:157.23ms
step:1106/1480 train_time:172332ms step_avg:157.24ms
step:1107/1480 train_time:172501ms step_avg:157.25ms
step:1108/1480 train_time:172667ms step_avg:157.26ms
step:1109/1480 train_time:172832ms step_avg:157.26ms
step:1110/1480 train_time:172997ms step_avg:157.27ms
step:1111/1480 train_time:173164ms step_avg:157.28ms
step:1112/1480 train_time:173333ms step_avg:157.29ms
step:1113/1480 train_time:173514ms step_avg:157.31ms
step:1114/1480 train_time:173687ms step_avg:157.33ms
step:1115/1480 train_time:173859ms step_avg:157.34ms
step:1116/1480 train_time:174027ms step_avg:157.35ms
step:1117/1480 train_time:174200ms step_avg:157.36ms
step:1118/1480 train_time:174375ms step_avg:157.38ms
step:1119/1480 train_time:174543ms step_avg:157.39ms
step:1120/1480 train_time:174710ms step_avg:157.40ms
step:1121/1480 train_time:174880ms step_avg:157.41ms
step:1122/1480 train_time:175048ms step_avg:157.42ms
step:1123/1480 train_time:175213ms step_avg:157.42ms
step:1124/1480 train_time:175382ms step_avg:157.43ms
step:1125/1480 train_time:175551ms step_avg:157.44ms
step:1125/1480 val_loss:3.3834 train_time:175619ms step_avg:157.51ms
step:1126/1480 train_time:175721ms step_avg:157.46ms
step:1127/1480 train_time:175892ms step_avg:157.47ms
step:1128/1480 train_time:176062ms step_avg:157.48ms
step:1129/1480 train_time:176235ms step_avg:157.49ms
step:1130/1480 train_time:176403ms step_avg:157.50ms
step:1131/1480 train_time:176581ms step_avg:157.52ms
step:1132/1480 train_time:176747ms step_avg:157.53ms
step:1133/1480 train_time:176918ms step_avg:157.54ms
step:1134/1480 train_time:177089ms step_avg:157.55ms
step:1135/1480 train_time:177255ms step_avg:157.56ms
step:1136/1480 train_time:177427ms step_avg:157.57ms
step:1137/1480 train_time:177597ms step_avg:157.58ms
step:1138/1480 train_time:177770ms step_avg:157.60ms
step:1139/1480 train_time:177939ms step_avg:157.61ms
step:1140/1480 train_time:178107ms step_avg:157.62ms
step:1141/1480 train_time:178279ms step_avg:157.63ms
step:1142/1480 train_time:178445ms step_avg:157.64ms
step:1143/1480 train_time:178615ms step_avg:157.65ms
step:1144/1480 train_time:178783ms step_avg:157.66ms
step:1145/1480 train_time:178950ms step_avg:157.67ms
step:1146/1480 train_time:179120ms step_avg:157.68ms
step:1147/1480 train_time:179289ms step_avg:157.69ms
step:1148/1480 train_time:179457ms step_avg:157.69ms
step:1149/1480 train_time:179629ms step_avg:157.71ms
step:1150/1480 train_time:179797ms step_avg:157.72ms
step:1151/1480 train_time:179970ms step_avg:157.73ms
step:1152/1480 train_time:180141ms step_avg:157.74ms
step:1153/1480 train_time:180315ms step_avg:157.76ms
step:1154/1480 train_time:180481ms step_avg:157.76ms
step:1155/1480 train_time:180655ms step_avg:157.78ms
step:1156/1480 train_time:180833ms step_avg:157.80ms
step:1157/1480 train_time:181001ms step_avg:157.80ms
step:1158/1480 train_time:181169ms step_avg:157.81ms
step:1159/1480 train_time:181336ms step_avg:157.82ms
step:1160/1480 train_time:181501ms step_avg:157.83ms
step:1161/1480 train_time:181675ms step_avg:157.84ms
step:1162/1480 train_time:181846ms step_avg:157.85ms
step:1163/1480 train_time:182016ms step_avg:157.86ms
step:1164/1480 train_time:182183ms step_avg:157.87ms
step:1165/1480 train_time:182349ms step_avg:157.88ms
step:1166/1480 train_time:182518ms step_avg:157.89ms
step:1167/1480 train_time:182687ms step_avg:157.90ms
step:1168/1480 train_time:182854ms step_avg:157.91ms
step:1169/1480 train_time:183022ms step_avg:157.91ms
step:1170/1480 train_time:183192ms step_avg:157.92ms
step:1171/1480 train_time:183359ms step_avg:157.93ms
step:1172/1480 train_time:183523ms step_avg:157.94ms
step:1173/1480 train_time:183695ms step_avg:157.95ms
step:1174/1480 train_time:183876ms step_avg:157.97ms
step:1175/1480 train_time:184047ms step_avg:157.98ms
step:1176/1480 train_time:184219ms step_avg:157.99ms
step:1177/1480 train_time:184395ms step_avg:158.01ms
step:1178/1480 train_time:184560ms step_avg:158.01ms
step:1179/1480 train_time:184726ms step_avg:158.02ms
step:1180/1480 train_time:184904ms step_avg:158.04ms
step:1181/1480 train_time:185074ms step_avg:158.05ms
step:1182/1480 train_time:185240ms step_avg:158.05ms
step:1183/1480 train_time:185412ms step_avg:158.07ms
step:1184/1480 train_time:185580ms step_avg:158.07ms
step:1185/1480 train_time:185754ms step_avg:158.09ms
step:1186/1480 train_time:185925ms step_avg:158.10ms
step:1187/1480 train_time:186108ms step_avg:158.12ms
step:1188/1480 train_time:186276ms step_avg:158.13ms
step:1189/1480 train_time:186448ms step_avg:158.14ms
step:1190/1480 train_time:186615ms step_avg:158.15ms
step:1191/1480 train_time:186786ms step_avg:158.16ms
step:1192/1480 train_time:186953ms step_avg:158.17ms
step:1193/1480 train_time:187118ms step_avg:158.17ms
step:1194/1480 train_time:187289ms step_avg:158.18ms
step:1195/1480 train_time:187462ms step_avg:158.20ms
step:1196/1480 train_time:187647ms step_avg:158.22ms
step:1197/1480 train_time:187818ms step_avg:158.23ms
step:1198/1480 train_time:187999ms step_avg:158.25ms
step:1199/1480 train_time:188170ms step_avg:158.26ms
step:1200/1480 train_time:188338ms step_avg:158.27ms
step:1201/1480 train_time:188505ms step_avg:158.27ms
step:1202/1480 train_time:188687ms step_avg:158.29ms
step:1203/1480 train_time:188862ms step_avg:158.31ms
step:1204/1480 train_time:189036ms step_avg:158.32ms
step:1205/1480 train_time:189202ms step_avg:158.33ms
step:1206/1480 train_time:189372ms step_avg:158.34ms
step:1207/1480 train_time:189542ms step_avg:158.35ms
step:1208/1480 train_time:189710ms step_avg:158.36ms
step:1209/1480 train_time:189884ms step_avg:158.37ms
step:1210/1480 train_time:190059ms step_avg:158.38ms
step:1211/1480 train_time:190233ms step_avg:158.40ms
step:1212/1480 train_time:190405ms step_avg:158.41ms
step:1213/1480 train_time:190579ms step_avg:158.42ms
step:1214/1480 train_time:190757ms step_avg:158.44ms
step:1215/1480 train_time:190932ms step_avg:158.45ms
step:1216/1480 train_time:191101ms step_avg:158.46ms
step:1217/1480 train_time:191275ms step_avg:158.47ms
step:1218/1480 train_time:191445ms step_avg:158.48ms
step:1219/1480 train_time:191624ms step_avg:158.50ms
step:1220/1480 train_time:191795ms step_avg:158.51ms
step:1221/1480 train_time:191963ms step_avg:158.52ms
step:1222/1480 train_time:192130ms step_avg:158.52ms
step:1223/1480 train_time:192299ms step_avg:158.53ms
step:1224/1480 train_time:192478ms step_avg:158.55ms
step:1225/1480 train_time:192650ms step_avg:158.56ms
step:1226/1480 train_time:192822ms step_avg:158.57ms
step:1227/1480 train_time:192995ms step_avg:158.58ms
step:1228/1480 train_time:193165ms step_avg:158.59ms
step:1229/1480 train_time:193337ms step_avg:158.60ms
step:1230/1480 train_time:193517ms step_avg:158.62ms
step:1231/1480 train_time:193692ms step_avg:158.63ms
step:1232/1480 train_time:193867ms step_avg:158.65ms
step:1233/1480 train_time:194036ms step_avg:158.66ms
step:1234/1480 train_time:194205ms step_avg:158.66ms
step:1235/1480 train_time:194380ms step_avg:158.68ms
step:1236/1480 train_time:194548ms step_avg:158.69ms
step:1237/1480 train_time:194720ms step_avg:158.70ms
step:1238/1480 train_time:194906ms step_avg:158.72ms
step:1239/1480 train_time:195076ms step_avg:158.73ms
step:1240/1480 train_time:195246ms step_avg:158.74ms
step:1241/1480 train_time:195418ms step_avg:158.75ms
step:1242/1480 train_time:195587ms step_avg:158.76ms
step:1243/1480 train_time:195759ms step_avg:158.77ms
step:1244/1480 train_time:195926ms step_avg:158.77ms
step:1245/1480 train_time:196096ms step_avg:158.78ms
step:1246/1480 train_time:196265ms step_avg:158.79ms
step:1247/1480 train_time:196433ms step_avg:158.80ms
step:1248/1480 train_time:196602ms step_avg:158.81ms
step:1249/1480 train_time:196773ms step_avg:158.82ms
step:1250/1480 train_time:196941ms step_avg:158.82ms
step:1250/1480 val_loss:3.3334 train_time:197012ms step_avg:158.88ms
step:1251/1480 train_time:197120ms step_avg:158.84ms
step:1252/1480 train_time:197289ms step_avg:158.85ms
step:1253/1480 train_time:197457ms step_avg:158.85ms
step:1254/1480 train_time:197630ms step_avg:158.87ms
step:1255/1480 train_time:197816ms step_avg:158.89ms
step:1256/1480 train_time:197991ms step_avg:158.90ms
step:1257/1480 train_time:198161ms step_avg:158.91ms
step:1258/1480 train_time:198335ms step_avg:158.92ms
step:1259/1480 train_time:198507ms step_avg:158.93ms
step:1260/1480 train_time:198674ms step_avg:158.94ms
step:1261/1480 train_time:198847ms step_avg:158.95ms
step:1262/1480 train_time:199022ms step_avg:158.96ms
step:1263/1480 train_time:199197ms step_avg:158.98ms
step:1264/1480 train_time:199363ms step_avg:158.98ms
step:1265/1480 train_time:199530ms step_avg:158.99ms
step:1266/1480 train_time:199702ms step_avg:159.00ms
step:1267/1480 train_time:199873ms step_avg:159.01ms
step:1268/1480 train_time:200044ms step_avg:159.02ms
step:1269/1480 train_time:200219ms step_avg:159.03ms
step:1270/1480 train_time:200390ms step_avg:159.04ms
step:1271/1480 train_time:200558ms step_avg:159.05ms
step:1272/1480 train_time:200724ms step_avg:159.05ms
step:1273/1480 train_time:200894ms step_avg:159.06ms
step:1274/1480 train_time:201066ms step_avg:159.07ms
step:1275/1480 train_time:201234ms step_avg:159.08ms
step:1276/1480 train_time:201399ms step_avg:159.08ms
step:1277/1480 train_time:201572ms step_avg:159.09ms
step:1278/1480 train_time:201739ms step_avg:159.10ms
step:1279/1480 train_time:201913ms step_avg:159.11ms
step:1280/1480 train_time:202092ms step_avg:159.13ms
step:1281/1480 train_time:202259ms step_avg:159.13ms
step:1282/1480 train_time:202425ms step_avg:159.14ms
step:1283/1480 train_time:202595ms step_avg:159.15ms
step:1284/1480 train_time:202767ms step_avg:159.16ms
step:1285/1480 train_time:202936ms step_avg:159.17ms
step:1286/1480 train_time:203107ms step_avg:159.17ms
step:1287/1480 train_time:203279ms step_avg:159.18ms
step:1288/1480 train_time:203449ms step_avg:159.19ms
step:1289/1480 train_time:203633ms step_avg:159.21ms
step:1290/1480 train_time:203814ms step_avg:159.23ms
step:1291/1480 train_time:203987ms step_avg:159.24ms
step:1292/1480 train_time:204162ms step_avg:159.25ms
step:1293/1480 train_time:204339ms step_avg:159.27ms
step:1294/1480 train_time:204512ms step_avg:159.28ms
step:1295/1480 train_time:204682ms step_avg:159.29ms
step:1296/1480 train_time:204855ms step_avg:159.30ms
step:1297/1480 train_time:205027ms step_avg:159.31ms
step:1298/1480 train_time:205196ms step_avg:159.31ms
step:1299/1480 train_time:205367ms step_avg:159.32ms
step:1300/1480 train_time:205535ms step_avg:159.33ms
step:1301/1480 train_time:205704ms step_avg:159.34ms
step:1302/1480 train_time:205878ms step_avg:159.35ms
step:1303/1480 train_time:206054ms step_avg:159.36ms
step:1304/1480 train_time:206228ms step_avg:159.37ms
step:1305/1480 train_time:206397ms step_avg:159.38ms
step:1306/1480 train_time:206572ms step_avg:159.39ms
step:1307/1480 train_time:206740ms step_avg:159.40ms
step:1308/1480 train_time:206910ms step_avg:159.41ms
step:1309/1480 train_time:207080ms step_avg:159.42ms
step:1310/1480 train_time:207249ms step_avg:159.42ms
step:1311/1480 train_time:207417ms step_avg:159.43ms
step:1312/1480 train_time:207591ms step_avg:159.44ms
step:1313/1480 train_time:207758ms step_avg:159.45ms
step:1314/1480 train_time:207934ms step_avg:159.46ms
step:1315/1480 train_time:208104ms step_avg:159.47ms
step:1316/1480 train_time:208273ms step_avg:159.47ms
step:1317/1480 train_time:208443ms step_avg:159.48ms
step:1318/1480 train_time:208622ms step_avg:159.50ms
step:1319/1480 train_time:208796ms step_avg:159.51ms
step:1320/1480 train_time:208973ms step_avg:159.52ms
step:1321/1480 train_time:209144ms step_avg:159.53ms
step:1322/1480 train_time:209327ms step_avg:159.55ms
step:1323/1480 train_time:209498ms step_avg:159.56ms
step:1324/1480 train_time:209672ms step_avg:159.57ms
step:1325/1480 train_time:209853ms step_avg:159.58ms
step:1326/1480 train_time:210030ms step_avg:159.60ms
step:1327/1480 train_time:210200ms step_avg:159.61ms
step:1328/1480 train_time:210371ms step_avg:159.61ms
step:1329/1480 train_time:210567ms step_avg:159.64ms
step:1330/1480 train_time:210747ms step_avg:159.66ms
step:1331/1480 train_time:210917ms step_avg:159.66ms
step:1332/1480 train_time:211093ms step_avg:159.68ms
step:1333/1480 train_time:211269ms step_avg:159.69ms
step:1334/1480 train_time:211439ms step_avg:159.70ms
step:1335/1480 train_time:211609ms step_avg:159.71ms
step:1336/1480 train_time:211794ms step_avg:159.72ms
step:1337/1480 train_time:211970ms step_avg:159.74ms
step:1338/1480 train_time:212141ms step_avg:159.74ms
step:1339/1480 train_time:212316ms step_avg:159.76ms
step:1340/1480 train_time:212487ms step_avg:159.76ms
step:1341/1480 train_time:212655ms step_avg:159.77ms
step:1342/1480 train_time:212829ms step_avg:159.78ms
step:1343/1480 train_time:212999ms step_avg:159.79ms
step:1344/1480 train_time:213172ms step_avg:159.80ms
step:1345/1480 train_time:213349ms step_avg:159.81ms
step:1346/1480 train_time:213518ms step_avg:159.82ms
step:1347/1480 train_time:213689ms step_avg:159.83ms
step:1348/1480 train_time:213858ms step_avg:159.83ms
step:1349/1480 train_time:214028ms step_avg:159.84ms
step:1350/1480 train_time:214203ms step_avg:159.85ms
step:1351/1480 train_time:214374ms step_avg:159.86ms
step:1352/1480 train_time:214543ms step_avg:159.87ms
step:1353/1480 train_time:214718ms step_avg:159.88ms
step:1354/1480 train_time:214890ms step_avg:159.89ms
step:1355/1480 train_time:215057ms step_avg:159.89ms
step:1356/1480 train_time:215231ms step_avg:159.90ms
step:1357/1480 train_time:215404ms step_avg:159.91ms
step:1358/1480 train_time:215575ms step_avg:159.92ms
step:1359/1480 train_time:215747ms step_avg:159.93ms
step:1360/1480 train_time:215919ms step_avg:159.94ms
step:1361/1480 train_time:216098ms step_avg:159.95ms
step:1362/1480 train_time:216274ms step_avg:159.97ms
step:1363/1480 train_time:216454ms step_avg:159.98ms
step:1364/1480 train_time:216622ms step_avg:159.99ms
step:1365/1480 train_time:216791ms step_avg:159.99ms
step:1366/1480 train_time:216962ms step_avg:160.00ms
step:1367/1480 train_time:217133ms step_avg:160.01ms
step:1368/1480 train_time:217307ms step_avg:160.02ms
step:1369/1480 train_time:217488ms step_avg:160.04ms
step:1370/1480 train_time:217666ms step_avg:160.05ms
step:1371/1480 train_time:217837ms step_avg:160.06ms
step:1372/1480 train_time:218015ms step_avg:160.07ms
step:1373/1480 train_time:218183ms step_avg:160.08ms
step:1374/1480 train_time:218358ms step_avg:160.09ms
step:1375/1480 train_time:218530ms step_avg:160.10ms
step:1375/1480 val_loss:3.2954 train_time:218598ms step_avg:160.15ms
step:1376/1480 train_time:218705ms step_avg:160.11ms
step:1377/1480 train_time:218877ms step_avg:160.12ms
step:1378/1480 train_time:219047ms step_avg:160.12ms
step:1379/1480 train_time:219223ms step_avg:160.13ms
step:1380/1480 train_time:219396ms step_avg:160.14ms
step:1381/1480 train_time:219577ms step_avg:160.16ms
step:1382/1480 train_time:219748ms step_avg:160.17ms
step:1383/1480 train_time:219919ms step_avg:160.17ms
step:1384/1480 train_time:220095ms step_avg:160.19ms
step:1385/1480 train_time:220260ms step_avg:160.19ms
step:1386/1480 train_time:220432ms step_avg:160.20ms
step:1387/1480 train_time:220605ms step_avg:160.21ms
step:1388/1480 train_time:220774ms step_avg:160.21ms
step:1389/1480 train_time:220949ms step_avg:160.22ms
step:1390/1480 train_time:221115ms step_avg:160.23ms
step:1391/1480 train_time:221286ms step_avg:160.24ms
step:1392/1480 train_time:221459ms step_avg:160.25ms
step:1393/1480 train_time:221631ms step_avg:160.25ms
step:1394/1480 train_time:221799ms step_avg:160.26ms
step:1395/1480 train_time:221968ms step_avg:160.27ms
step:1396/1480 train_time:222135ms step_avg:160.27ms
step:1397/1480 train_time:222302ms step_avg:160.28ms
step:1398/1480 train_time:222469ms step_avg:160.28ms
step:1399/1480 train_time:222637ms step_avg:160.29ms
step:1400/1480 train_time:222814ms step_avg:160.30ms
step:1401/1480 train_time:222981ms step_avg:160.30ms
step:1402/1480 train_time:223153ms step_avg:160.31ms
step:1403/1480 train_time:223331ms step_avg:160.32ms
step:1404/1480 train_time:223503ms step_avg:160.33ms
step:1405/1480 train_time:223676ms step_avg:160.34ms
step:1406/1480 train_time:223851ms step_avg:160.35ms
step:1407/1480 train_time:224018ms step_avg:160.36ms
step:1408/1480 train_time:224190ms step_avg:160.36ms
step:1409/1480 train_time:224372ms step_avg:160.38ms
step:1410/1480 train_time:224541ms step_avg:160.39ms
step:1411/1480 train_time:224711ms step_avg:160.39ms
step:1412/1480 train_time:224881ms step_avg:160.40ms
step:1413/1480 train_time:225049ms step_avg:160.41ms
step:1414/1480 train_time:225221ms step_avg:160.41ms
step:1415/1480 train_time:225397ms step_avg:160.43ms
step:1416/1480 train_time:225585ms step_avg:160.44ms
step:1417/1480 train_time:225759ms step_avg:160.45ms
step:1418/1480 train_time:225931ms step_avg:160.46ms
step:1419/1480 train_time:226105ms step_avg:160.47ms
step:1420/1480 train_time:226279ms step_avg:160.48ms
step:1421/1480 train_time:226452ms step_avg:160.49ms
step:1422/1480 train_time:226626ms step_avg:160.50ms
step:1423/1480 train_time:226796ms step_avg:160.51ms
step:1424/1480 train_time:226974ms step_avg:160.52ms
step:1425/1480 train_time:227155ms step_avg:160.53ms
step:1426/1480 train_time:227327ms step_avg:160.54ms
step:1427/1480 train_time:227501ms step_avg:160.55ms
step:1428/1480 train_time:227671ms step_avg:160.56ms
step:1429/1480 train_time:227837ms step_avg:160.56ms
step:1430/1480 train_time:228013ms step_avg:160.57ms
step:1431/1480 train_time:228189ms step_avg:160.58ms
step:1432/1480 train_time:228366ms step_avg:160.59ms
step:1433/1480 train_time:228544ms step_avg:160.61ms
step:1434/1480 train_time:228727ms step_avg:160.62ms
step:1435/1480 train_time:228902ms step_avg:160.63ms
step:1436/1480 train_time:229076ms step_avg:160.64ms
step:1437/1480 train_time:229247ms step_avg:160.65ms
step:1438/1480 train_time:229415ms step_avg:160.65ms
step:1439/1480 train_time:229589ms step_avg:160.66ms
step:1440/1480 train_time:229756ms step_avg:160.67ms
step:1441/1480 train_time:229929ms step_avg:160.68ms
step:1442/1480 train_time:230106ms step_avg:160.69ms
step:1443/1480 train_time:230296ms step_avg:160.71ms
step:1444/1480 train_time:230467ms step_avg:160.72ms
step:1445/1480 train_time:230639ms step_avg:160.72ms
step:1446/1480 train_time:230816ms step_avg:160.74ms
step:1447/1480 train_time:230993ms step_avg:160.75ms
step:1448/1480 train_time:231165ms step_avg:160.75ms
step:1449/1480 train_time:231339ms step_avg:160.76ms
step:1450/1480 train_time:231514ms step_avg:160.77ms
step:1451/1480 train_time:231684ms step_avg:160.78ms
step:1452/1480 train_time:231856ms step_avg:160.79ms
step:1453/1480 train_time:232028ms step_avg:160.80ms
step:1454/1480 train_time:232199ms step_avg:160.80ms
step:1455/1480 train_time:232377ms step_avg:160.81ms
step:1456/1480 train_time:232550ms step_avg:160.82ms
step:1457/1480 train_time:232721ms step_avg:160.83ms
step:1458/1480 train_time:232892ms step_avg:160.84ms
step:1459/1480 train_time:233068ms step_avg:160.85ms
step:1460/1480 train_time:233239ms step_avg:160.85ms
step:1461/1480 train_time:233414ms step_avg:160.86ms
step:1462/1480 train_time:233586ms step_avg:160.87ms
step:1463/1480 train_time:233762ms step_avg:160.88ms
step:1464/1480 train_time:233935ms step_avg:160.89ms
step:1465/1480 train_time:234110ms step_avg:160.90ms
step:1466/1480 train_time:234280ms step_avg:160.91ms
step:1467/1480 train_time:234456ms step_avg:160.92ms
step:1468/1480 train_time:234628ms step_avg:160.92ms
step:1469/1480 train_time:234800ms step_avg:160.93ms
step:1470/1480 train_time:234979ms step_avg:160.94ms
step:1471/1480 train_time:235166ms step_avg:160.96ms
step:1472/1480 train_time:235346ms step_avg:160.98ms
step:1473/1480 train_time:235516ms step_avg:160.98ms
step:1474/1480 train_time:235694ms step_avg:160.99ms
step:1475/1480 train_time:235873ms step_avg:161.01ms
step:1476/1480 train_time:236045ms step_avg:161.01ms
step:1477/1480 train_time:236230ms step_avg:161.03ms
step:1478/1480 train_time:236411ms step_avg:161.04ms
step:1479/1480 train_time:236586ms step_avg:161.05ms
step:1480/1480 train_time:236759ms step_avg:161.06ms
step:1480/1480 val_loss:3.2764 train_time:236830ms step_avg:161.11ms