jit-source/hip/hip-ref-basis-nontensor.h

*a0154adeSJed Brown// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
*a0154adeSJed Brown// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*a0154adeSJed Brown//
*a0154adeSJed Brown// SPDX-License-Identifier: BSD-2-Clause
*a0154adeSJed Brown//
*a0154adeSJed Brown// This file is part of CEED:  http://github.com/ceed
*a0154adeSJed Brown
*a0154adeSJed Brown#include <ceed/ceed.h>
*a0154adeSJed Brown
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brown// Non-Tensor Basis Kernels
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brown
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brown// Interp
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brownextern "C" __global__ void Interp(const CeedInt num_elem, const CeedInt transpose,
*a0154adeSJed Brown                                  const CeedScalar *d_B,
*a0154adeSJed Brown                                  const CeedScalar *__restrict__ d_U,
*a0154adeSJed Brown                                  CeedScalar *__restrict__ d_V) {
*a0154adeSJed Brown  const CeedInt t_id = threadIdx.x;
*a0154adeSJed Brown
*a0154adeSJed Brown  const CeedScalar *U;
*a0154adeSJed Brown  CeedScalar V;
*a0154adeSJed Brown  //TODO load B in shared memory if blockDim.z > 1?
*a0154adeSJed Brown
*a0154adeSJed Brown  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < num_elem;
*a0154adeSJed Brown       elem += gridDim.x*blockDim.z) {
*a0154adeSJed Brown    for (CeedInt comp = 0; comp < BASIS_NUM_COMP; comp++) {
*a0154adeSJed Brown      if (transpose) { // run with P threads
*a0154adeSJed Brown        U = d_U + elem*BASIS_Q + comp*num_elem*BASIS_Q;
*a0154adeSJed Brown        V = 0.0;
*a0154adeSJed Brown        for (CeedInt i = 0; i < BASIS_Q; i++)
*a0154adeSJed Brown          V += d_B[t_id + i*BASIS_P]*U[i];
*a0154adeSJed Brown
*a0154adeSJed Brown        d_V[elem*BASIS_P + comp*num_elem*BASIS_P + t_id] = V;
*a0154adeSJed Brown      } else { // run with Q threads
*a0154adeSJed Brown        U = d_U + elem*BASIS_P + comp*num_elem*BASIS_P;
*a0154adeSJed Brown        V = 0.0;
*a0154adeSJed Brown        for (CeedInt i = 0; i < BASIS_P; i++)
*a0154adeSJed Brown          V += d_B[i + t_id*BASIS_P]*U[i];
*a0154adeSJed Brown
*a0154adeSJed Brown        d_V[elem*BASIS_Q + comp*num_elem*BASIS_Q + t_id] = V;
*a0154adeSJed Brown      }
*a0154adeSJed Brown    }
*a0154adeSJed Brown  }
*a0154adeSJed Brown}
*a0154adeSJed Brown
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brown// Grad
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brownextern "C" __global__ void Grad(const CeedInt num_elem, const CeedInt transpose,
*a0154adeSJed Brown                                const CeedScalar *d_G,
*a0154adeSJed Brown                                const CeedScalar *__restrict__ d_U,
*a0154adeSJed Brown                                CeedScalar *__restrict__ d_V) {
*a0154adeSJed Brown  const CeedInt t_id = threadIdx.x;
*a0154adeSJed Brown
*a0154adeSJed Brown  const CeedScalar *U;
*a0154adeSJed Brown  //TODO load G in shared memory if blockDim.z > 1?
*a0154adeSJed Brown
*a0154adeSJed Brown  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < num_elem;
*a0154adeSJed Brown       elem += gridDim.x*blockDim.z) {
*a0154adeSJed Brown    for (CeedInt comp = 0; comp < BASIS_NUM_COMP; comp++) {
*a0154adeSJed Brown      if (transpose) { // run with P threads
*a0154adeSJed Brown        CeedScalar V = 0.0;
*a0154adeSJed Brown        for (CeedInt dim = 0; dim < BASIS_DIM; dim++) {
*a0154adeSJed Brown          U = d_U + elem*BASIS_Q + comp*num_elem*BASIS_Q +
*a0154adeSJed Brown              dim*BASIS_NUM_COMP*num_elem*BASIS_Q;
*a0154adeSJed Brown          for (CeedInt i = 0; i < BASIS_Q; i++)
*a0154adeSJed Brown            V += d_G[t_id + i*BASIS_P + dim*BASIS_P*BASIS_Q]*U[i];
*a0154adeSJed Brown        }
*a0154adeSJed Brown        d_V[elem*BASIS_P + comp*num_elem*BASIS_P + t_id] = V;
*a0154adeSJed Brown      } else { // run with Q threads
*a0154adeSJed Brown        CeedScalar V[BASIS_DIM];
*a0154adeSJed Brown        U = d_U + elem*BASIS_P + comp*num_elem*BASIS_P;
*a0154adeSJed Brown        for (CeedInt dim = 0; dim < BASIS_DIM; dim++)
*a0154adeSJed Brown          V[dim] = 0.0;
*a0154adeSJed Brown
*a0154adeSJed Brown        for (CeedInt i = 0; i < BASIS_P; i++) {
*a0154adeSJed Brown          const CeedScalar val = U[i];
*a0154adeSJed Brown          for(CeedInt dim = 0; dim < BASIS_DIM; dim++)
*a0154adeSJed Brown            V[dim] += d_G[i + t_id*BASIS_P + dim*BASIS_P*BASIS_Q]*val;
*a0154adeSJed Brown        }
*a0154adeSJed Brown        for (CeedInt dim = 0; dim < BASIS_DIM; dim++) {
*a0154adeSJed Brown          d_V[elem*BASIS_Q + comp*num_elem*BASIS_Q +
*a0154adeSJed Brown              dim*BASIS_NUM_COMP*num_elem*BASIS_Q + t_id] = V[dim];
*a0154adeSJed Brown        }
*a0154adeSJed Brown      }
*a0154adeSJed Brown    }
*a0154adeSJed Brown  }
*a0154adeSJed Brown}
*a0154adeSJed Brown
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brown// Weight
*a0154adeSJed Brown//------------------------------------------------------------------------------
*a0154adeSJed Brownextern "C" __global__ void Weight(const CeedInt num_elem,
*a0154adeSJed Brown                                  const CeedScalar *__restrict__ qweight,
*a0154adeSJed Brown                                  CeedScalar *__restrict__ d_V) {
*a0154adeSJed Brown  const CeedInt t_id = threadIdx.x;
*a0154adeSJed Brown  //TODO load qweight in shared memory if blockDim.z > 1?
*a0154adeSJed Brown  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < num_elem;
*a0154adeSJed Brown       elem += gridDim.x*blockDim.z) {
*a0154adeSJed Brown    d_V[elem*BASIS_Q + t_id] = qweight[t_id];
*a0154adeSJed Brown  }
*a0154adeSJed Brown}
*a0154adeSJed Brown
*a0154adeSJed Brown//------------------------------------------------------------------------------