jit-source/cuda/cuda-ref-basis-nontensor.h

a0154adeSJed Brown// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
a0154adeSJed Brown// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
a0154adeSJed Brown//
a0154adeSJed Brown// SPDX-License-Identifier: BSD-2-Clause
a0154adeSJed Brown//
a0154adeSJed Brown// This file is part of CEED:  http://github.com/ceed
a0154adeSJed Brown
*b2165e7aSSebastian Grimberg/// @file
*b2165e7aSSebastian Grimberg/// Internal header for CUDA non-tensor product basis
*b2165e7aSSebastian Grimberg#ifndef _ceed_cuda_ref_basis_nontensor_h
*b2165e7aSSebastian Grimberg#define _ceed_cuda_ref_basis_nontensor_h
*b2165e7aSSebastian Grimberg
c9c2c079SJeremy L Thompson#include <ceed.h>
a0154adeSJed Brown
a0154adeSJed Brown//------------------------------------------------------------------------------
a0154adeSJed Brown// Non-Tensor Basis Kernels
a0154adeSJed Brown//------------------------------------------------------------------------------
a0154adeSJed Brown
a0154adeSJed Brown//------------------------------------------------------------------------------
a0154adeSJed Brown// Interp
a0154adeSJed Brown//------------------------------------------------------------------------------
2b730f8bSJeremy L Thompsonextern "C" __global__ void Interp(const CeedInt num_elem, const CeedInt transpose, const CeedScalar *d_B, const CeedScalar *__restrict__ d_U,
a0154adeSJed Brown                                  CeedScalar *__restrict__ d_V) {
a0154adeSJed Brown  const CeedInt t_id = threadIdx.x;
a0154adeSJed Brown
a0154adeSJed Brown  const CeedScalar *U;
a0154adeSJed Brown  CeedScalar        V;
a0154adeSJed Brown  // TODO load B in shared memory if blockDim.z > 1?
a0154adeSJed Brown
2b730f8bSJeremy L Thompson  for (CeedInt elem = blockIdx.x * blockDim.z + threadIdx.z; elem < num_elem; elem += gridDim.x * blockDim.z) {
a0154adeSJed Brown    for (CeedInt comp = 0; comp < BASIS_NUM_COMP; comp++) {
a0154adeSJed Brown      if (transpose) {  // run with P threads
a0154adeSJed Brown        U = d_U + elem * BASIS_Q + comp * num_elem * BASIS_Q;
a0154adeSJed Brown        V = 0.0;
2b730f8bSJeremy L Thompson        for (CeedInt i = 0; i < BASIS_Q; i++) V += d_B[t_id + i * BASIS_P] * U[i];
a0154adeSJed Brown
a0154adeSJed Brown        d_V[elem * BASIS_P + comp * num_elem * BASIS_P + t_id] = V;
a0154adeSJed Brown      } else {  // run with Q threads
a0154adeSJed Brown        U = d_U + elem * BASIS_P + comp * num_elem * BASIS_P;
a0154adeSJed Brown        V = 0.0;
2b730f8bSJeremy L Thompson        for (CeedInt i = 0; i < BASIS_P; i++) V += d_B[i + t_id * BASIS_P] * U[i];
a0154adeSJed Brown
a0154adeSJed Brown        d_V[elem * BASIS_Q + comp * num_elem * BASIS_Q + t_id] = V;
a0154adeSJed Brown      }
a0154adeSJed Brown    }
a0154adeSJed Brown  }
a0154adeSJed Brown}
a0154adeSJed Brown
a0154adeSJed Brown//------------------------------------------------------------------------------
a0154adeSJed Brown// Grad
a0154adeSJed Brown//------------------------------------------------------------------------------
2b730f8bSJeremy L Thompsonextern "C" __global__ void Grad(const CeedInt num_elem, const CeedInt transpose, const CeedScalar *d_G, const CeedScalar *__restrict__ d_U,
a0154adeSJed Brown                                CeedScalar *__restrict__ d_V) {
a0154adeSJed Brown  const CeedInt t_id = threadIdx.x;
a0154adeSJed Brown
a0154adeSJed Brown  const CeedScalar *U;
a0154adeSJed Brown  // TODO load G in shared memory if blockDim.z > 1?
a0154adeSJed Brown
2b730f8bSJeremy L Thompson  for (CeedInt elem = blockIdx.x * blockDim.z + threadIdx.z; elem < num_elem; elem += gridDim.x * blockDim.z) {
a0154adeSJed Brown    for (CeedInt comp = 0; comp < BASIS_NUM_COMP; comp++) {
a0154adeSJed Brown      if (transpose) {  // run with P threads
a0154adeSJed Brown        CeedScalar V = 0.0;
a0154adeSJed Brown        for (CeedInt dim = 0; dim < BASIS_DIM; dim++) {
2b730f8bSJeremy L Thompson          U = d_U + elem * BASIS_Q + comp * num_elem * BASIS_Q + dim * BASIS_NUM_COMP * num_elem * BASIS_Q;
2b730f8bSJeremy L Thompson          for (CeedInt i = 0; i < BASIS_Q; i++) V += d_G[t_id + i * BASIS_P + dim * BASIS_P * BASIS_Q] * U[i];
a0154adeSJed Brown        }
a0154adeSJed Brown
a0154adeSJed Brown        d_V[elem * BASIS_P + comp * num_elem * BASIS_P + t_id] = V;
a0154adeSJed Brown      } else {  // run with Q threads
a0154adeSJed Brown        CeedScalar V[BASIS_DIM];
a0154adeSJed Brown        U = d_U + elem * BASIS_P + comp * num_elem * BASIS_P;
2b730f8bSJeremy L Thompson        for (CeedInt dim = 0; dim < BASIS_DIM; dim++) V[dim] = 0.0;
a0154adeSJed Brown        for (CeedInt i = 0; i < BASIS_P; i++) {
a0154adeSJed Brown          const CeedScalar val = U[i];
2b730f8bSJeremy L Thompson          for (CeedInt dim = 0; dim < BASIS_DIM; dim++) V[dim] += d_G[i + t_id * BASIS_P + dim * BASIS_P * BASIS_Q] * val;
a0154adeSJed Brown        }
a0154adeSJed Brown
a0154adeSJed Brown        for (CeedInt dim = 0; dim < BASIS_DIM; dim++) {
a0154adeSJed Brown          d_V[elem * BASIS_Q + comp * num_elem * BASIS_Q + dim * BASIS_NUM_COMP * num_elem * BASIS_Q + t_id] = V[dim];
a0154adeSJed Brown        }
a0154adeSJed Brown      }
a0154adeSJed Brown    }
a0154adeSJed Brown  }
a0154adeSJed Brown}
a0154adeSJed Brown
a0154adeSJed Brown//------------------------------------------------------------------------------
a0154adeSJed Brown// Weight
a0154adeSJed Brown//------------------------------------------------------------------------------
2b730f8bSJeremy L Thompsonextern "C" __global__ void Weight(const CeedInt num_elem, const CeedScalar *__restrict__ q_weight, CeedScalar *__restrict__ d_V) {
a0154adeSJed Brown  const CeedInt t_id = threadIdx.x;
a0154adeSJed Brown  // TODO load q_weight in shared memory if blockDim.z > 1?
2b730f8bSJeremy L Thompson  for (CeedInt elem = blockIdx.x * blockDim.z + threadIdx.z; elem < num_elem; elem += gridDim.x * blockDim.z) {
a0154adeSJed Brown    d_V[elem * BASIS_Q + t_id] = q_weight[t_id];
a0154adeSJed Brown  }
a0154adeSJed Brown}
a0154adeSJed Brown
a0154adeSJed Brown//------------------------------------------------------------------------------
*b2165e7aSSebastian Grimberg
*b2165e7aSSebastian Grimberg#endif