backends/cuda-ref/ceed-cuda-ref-basis.c

*0d0321e0SJeremy L Thompson// Copyright (c) 2017-2018, Lawrence Livermore National Security, LLC.
*0d0321e0SJeremy L Thompson// Produced at the Lawrence Livermore National Laboratory. LLNL-CODE-734707.
*0d0321e0SJeremy L Thompson// All Rights reserved. See files LICENSE and NOTICE for details.
*0d0321e0SJeremy L Thompson//
*0d0321e0SJeremy L Thompson// This file is part of CEED, a collection of benchmarks, miniapps, software
*0d0321e0SJeremy L Thompson// libraries and APIs for efficient high-order finite element and spectral
*0d0321e0SJeremy L Thompson// element discretizations for exascale applications. For more information and
*0d0321e0SJeremy L Thompson// source code availability see http://github.com/ceed.
*0d0321e0SJeremy L Thompson//
*0d0321e0SJeremy L Thompson// The CEED research is supported by the Exascale Computing Project 17-SC-20-SC,
*0d0321e0SJeremy L Thompson// a collaborative effort of two U.S. Department of Energy organizations (Office
*0d0321e0SJeremy L Thompson// of Science and the National Nuclear Security Administration) responsible for
*0d0321e0SJeremy L Thompson// the planning and preparation of a capable exascale ecosystem, including
*0d0321e0SJeremy L Thompson// software, applications, hardware, advanced system engineering and early
*0d0321e0SJeremy L Thompson// testbed platforms, in support of the nation's exascale computing imperative.
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson#include <ceed/ceed.h>
*0d0321e0SJeremy L Thompson#include <ceed/backend.h>
*0d0321e0SJeremy L Thompson#include <cuda.h>
*0d0321e0SJeremy L Thompson#include <cuda_runtime.h>
*0d0321e0SJeremy L Thompson#include "ceed-cuda-ref.h"
*0d0321e0SJeremy L Thompson#include "../cuda/ceed-cuda-compile.h"
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Tensor Basis Kernels
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// *INDENT-OFF*
*0d0321e0SJeremy L Thompsonstatic const char *basiskernels = QUOTE(
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Interp
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" __global__ void interp(const CeedInt nelem, const int transpose,
*0d0321e0SJeremy L Thompson                                  const CeedScalar *__restrict__ interp1d,
*0d0321e0SJeremy L Thompson                                  const CeedScalar *__restrict__ u,
*0d0321e0SJeremy L Thompson                                  CeedScalar *__restrict__ v) {
*0d0321e0SJeremy L Thompson  const CeedInt i = threadIdx.x;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  __shared__ CeedScalar s_mem[BASIS_Q1D * BASIS_P1D + 2 * BASIS_BUF_LEN];
*0d0321e0SJeremy L Thompson  CeedScalar *s_interp1d = s_mem;
*0d0321e0SJeremy L Thompson  CeedScalar *s_buf1 = s_mem + BASIS_Q1D * BASIS_P1D;
*0d0321e0SJeremy L Thompson  CeedScalar *s_buf2 = s_buf1 + BASIS_BUF_LEN;
*0d0321e0SJeremy L Thompson  for (CeedInt k = i; k < BASIS_Q1D * BASIS_P1D; k += blockDim.x) {
*0d0321e0SJeremy L Thompson    s_interp1d[k] = interp1d[k];
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedInt P = transpose ? BASIS_Q1D : BASIS_P1D;
*0d0321e0SJeremy L Thompson  const CeedInt Q = transpose ? BASIS_P1D : BASIS_Q1D;
*0d0321e0SJeremy L Thompson  const CeedInt stride0 = transpose ? 1 : BASIS_P1D;
*0d0321e0SJeremy L Thompson  const CeedInt stride1 = transpose ? BASIS_P1D : 1;
*0d0321e0SJeremy L Thompson  const CeedInt u_stride = transpose ? BASIS_NQPT : BASIS_ELEMSIZE;
*0d0321e0SJeremy L Thompson  const CeedInt v_stride = transpose ? BASIS_ELEMSIZE : BASIS_NQPT;
*0d0321e0SJeremy L Thompson  const CeedInt u_comp_stride = nelem * (transpose ? BASIS_NQPT : BASIS_ELEMSIZE);
*0d0321e0SJeremy L Thompson  const CeedInt v_comp_stride = nelem * (transpose ? BASIS_ELEMSIZE : BASIS_NQPT);
*0d0321e0SJeremy L Thompson  const CeedInt u_size = transpose ? BASIS_NQPT : BASIS_ELEMSIZE;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Apply basis element by element
*0d0321e0SJeremy L Thompson  for (CeedInt elem = blockIdx.x; elem < nelem; elem += gridDim.x) {
*0d0321e0SJeremy L Thompson    for (CeedInt comp = 0; comp < BASIS_NCOMP; ++comp) {
*0d0321e0SJeremy L Thompson      const CeedScalar *cur_u = u + elem * u_stride + comp * u_comp_stride;
*0d0321e0SJeremy L Thompson      CeedScalar *cur_v = v + elem * v_stride + comp * v_comp_stride;
*0d0321e0SJeremy L Thompson      for (CeedInt k = i; k < u_size; k += blockDim.x) {
*0d0321e0SJeremy L Thompson        s_buf1[k] = cur_u[k];
*0d0321e0SJeremy L Thompson      }
*0d0321e0SJeremy L Thompson      CeedInt pre = u_size;
*0d0321e0SJeremy L Thompson      CeedInt post = 1;
*0d0321e0SJeremy L Thompson      for (CeedInt d = 0; d < BASIS_DIM; d++) {
*0d0321e0SJeremy L Thompson        __syncthreads();
*0d0321e0SJeremy L Thompson        // Update buffers used
*0d0321e0SJeremy L Thompson        pre /= P;
*0d0321e0SJeremy L Thompson        const CeedScalar *in = d % 2 ? s_buf2 : s_buf1;
*0d0321e0SJeremy L Thompson        CeedScalar *out = d == BASIS_DIM - 1 ? cur_v : (d % 2 ? s_buf1 : s_buf2);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson        // Contract along middle index
*0d0321e0SJeremy L Thompson        const CeedInt writeLen = pre * post * Q;
*0d0321e0SJeremy L Thompson        for (CeedInt k = i; k < writeLen; k += blockDim.x) {
*0d0321e0SJeremy L Thompson          const CeedInt c = k % post;
*0d0321e0SJeremy L Thompson          const CeedInt j = (k / post) % Q;
*0d0321e0SJeremy L Thompson          const CeedInt a = k / (post * Q);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson          CeedScalar vk = 0;
*0d0321e0SJeremy L Thompson          for (CeedInt b = 0; b < P; b++)
*0d0321e0SJeremy L Thompson            vk += s_interp1d[j*stride0 + b*stride1] * in[(a*P + b)*post + c];
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson          out[k] = vk;
*0d0321e0SJeremy L Thompson        }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson        post *= Q;
*0d0321e0SJeremy L Thompson      }
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Grad
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" __global__ void grad(const CeedInt nelem, const int transpose,
*0d0321e0SJeremy L Thompson                                const CeedScalar *__restrict__ interp1d,
*0d0321e0SJeremy L Thompson                                const CeedScalar *__restrict__ grad1d,
*0d0321e0SJeremy L Thompson                                const CeedScalar *__restrict__ u,
*0d0321e0SJeremy L Thompson                                CeedScalar *__restrict__ v) {
*0d0321e0SJeremy L Thompson  const CeedInt i = threadIdx.x;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  __shared__ CeedScalar s_mem[2 * (BASIS_Q1D * BASIS_P1D + BASIS_BUF_LEN)];
*0d0321e0SJeremy L Thompson  CeedScalar *s_interp1d = s_mem;
*0d0321e0SJeremy L Thompson  CeedScalar *s_grad1d = s_interp1d + BASIS_Q1D * BASIS_P1D;
*0d0321e0SJeremy L Thompson  CeedScalar *s_buf1 = s_grad1d + BASIS_Q1D * BASIS_P1D;
*0d0321e0SJeremy L Thompson  CeedScalar *s_buf2 = s_buf1 + BASIS_BUF_LEN;
*0d0321e0SJeremy L Thompson  for (CeedInt k = i; k < BASIS_Q1D * BASIS_P1D; k += blockDim.x) {
*0d0321e0SJeremy L Thompson    s_interp1d[k] = interp1d[k];
*0d0321e0SJeremy L Thompson    s_grad1d[k] = grad1d[k];
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedInt P = transpose ? BASIS_Q1D : BASIS_P1D;
*0d0321e0SJeremy L Thompson  const CeedInt Q = transpose ? BASIS_P1D : BASIS_Q1D;
*0d0321e0SJeremy L Thompson  const CeedInt stride0 = transpose ? 1 : BASIS_P1D;
*0d0321e0SJeremy L Thompson  const CeedInt stride1 = transpose ? BASIS_P1D : 1;
*0d0321e0SJeremy L Thompson  const CeedInt u_stride = transpose ? BASIS_NQPT : BASIS_ELEMSIZE;
*0d0321e0SJeremy L Thompson  const CeedInt v_stride = transpose ? BASIS_ELEMSIZE : BASIS_NQPT;
*0d0321e0SJeremy L Thompson  const CeedInt u_comp_stride = nelem * (transpose ? BASIS_NQPT : BASIS_ELEMSIZE);
*0d0321e0SJeremy L Thompson  const CeedInt v_comp_stride = nelem * (transpose ? BASIS_ELEMSIZE : BASIS_NQPT);
*0d0321e0SJeremy L Thompson  const CeedInt u_dim_stride = transpose ? nelem * BASIS_NQPT * BASIS_NCOMP : 0;
*0d0321e0SJeremy L Thompson  const CeedInt v_dim_stride = transpose ? 0 : nelem * BASIS_NQPT * BASIS_NCOMP;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Apply basis element by element
*0d0321e0SJeremy L Thompson  for (CeedInt elem = blockIdx.x; elem < nelem; elem += gridDim.x) {
*0d0321e0SJeremy L Thompson    for (CeedInt comp = 0; comp < BASIS_NCOMP; ++comp) {
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson      // dim*dim contractions for grad
*0d0321e0SJeremy L Thompson      for (CeedInt dim1 = 0; dim1 < BASIS_DIM; dim1++) {
*0d0321e0SJeremy L Thompson        CeedInt pre = transpose ? BASIS_NQPT : BASIS_ELEMSIZE;
*0d0321e0SJeremy L Thompson        CeedInt post = 1;
*0d0321e0SJeremy L Thompson        const CeedScalar *cur_u = u + elem * u_stride + dim1 * u_dim_stride +
*0d0321e0SJeremy L Thompson                                  comp * u_comp_stride;
*0d0321e0SJeremy L Thompson        CeedScalar *cur_v = v + elem * v_stride + dim1 * v_dim_stride + comp *
*0d0321e0SJeremy L Thompson                            v_comp_stride;
*0d0321e0SJeremy L Thompson        for (CeedInt dim2 = 0; dim2 < BASIS_DIM; dim2++) {
*0d0321e0SJeremy L Thompson          __syncthreads();
*0d0321e0SJeremy L Thompson          // Update buffers used
*0d0321e0SJeremy L Thompson          pre /= P;
*0d0321e0SJeremy L Thompson          const CeedScalar *op = dim1 == dim2 ? s_grad1d : s_interp1d;
*0d0321e0SJeremy L Thompson          const CeedScalar *in = dim2 == 0 ? cur_u : (dim2 % 2 ? s_buf2 : s_buf1);
*0d0321e0SJeremy L Thompson          CeedScalar *out = dim2 == BASIS_DIM - 1 ? cur_v : (dim2 % 2 ? s_buf1 : s_buf2);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson          // Contract along middle index
*0d0321e0SJeremy L Thompson          const CeedInt writeLen = pre * post * Q;
*0d0321e0SJeremy L Thompson          for (CeedInt k = i; k < writeLen; k += blockDim.x) {
*0d0321e0SJeremy L Thompson            const CeedInt c = k % post;
*0d0321e0SJeremy L Thompson            const CeedInt j = (k / post) % Q;
*0d0321e0SJeremy L Thompson            const CeedInt a = k / (post * Q);
*0d0321e0SJeremy L Thompson            CeedScalar vk = 0;
*0d0321e0SJeremy L Thompson            for (CeedInt b = 0; b < P; b++)
*0d0321e0SJeremy L Thompson              vk += op[j * stride0 + b * stride1] * in[(a * P + b) * post + c];
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson            if (transpose && dim2 == BASIS_DIM - 1)
*0d0321e0SJeremy L Thompson              out[k] += vk;
*0d0321e0SJeremy L Thompson            else
*0d0321e0SJeremy L Thompson              out[k] = vk;
*0d0321e0SJeremy L Thompson          }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson          post *= Q;
*0d0321e0SJeremy L Thompson        }
*0d0321e0SJeremy L Thompson      }
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// 1D quadrature weights
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__device__ void weight1d(const CeedInt nelem, const CeedScalar *qweight1d,
*0d0321e0SJeremy L Thompson                         CeedScalar *w) {
*0d0321e0SJeremy L Thompson  const int i = threadIdx.x;
*0d0321e0SJeremy L Thompson  if (i < BASIS_Q1D) {
*0d0321e0SJeremy L Thompson    const size_t elem = blockIdx.x;
*0d0321e0SJeremy L Thompson    if (elem < nelem)
*0d0321e0SJeremy L Thompson      w[elem*BASIS_Q1D + i] = qweight1d[i];
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// 2D quadrature weights
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__device__ void weight2d(const CeedInt nelem, const CeedScalar *qweight1d,
*0d0321e0SJeremy L Thompson                         CeedScalar *w) {
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const int i = threadIdx.x;
*0d0321e0SJeremy L Thompson  const int j = threadIdx.y;
*0d0321e0SJeremy L Thompson  if (i < BASIS_Q1D && j < BASIS_Q1D) {
*0d0321e0SJeremy L Thompson    const size_t elem = blockIdx.x;
*0d0321e0SJeremy L Thompson    if (elem < nelem) {
*0d0321e0SJeremy L Thompson      const size_t ind = (elem * BASIS_Q1D + j) * BASIS_Q1D + i;
*0d0321e0SJeremy L Thompson      w[ind] = qweight1d[i] * qweight1d[j];
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// 3D quadrature weights
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__device__ void weight3d(const CeedInt nelem, const CeedScalar *qweight1d,
*0d0321e0SJeremy L Thompson                         CeedScalar *w) {
*0d0321e0SJeremy L Thompson  const int i = threadIdx.x;
*0d0321e0SJeremy L Thompson  const int j = threadIdx.y;
*0d0321e0SJeremy L Thompson  if (i < BASIS_Q1D && j < BASIS_Q1D) {
*0d0321e0SJeremy L Thompson    const size_t elem = blockIdx.x;
*0d0321e0SJeremy L Thompson    if (elem < nelem) {
*0d0321e0SJeremy L Thompson      for (int k=0; k<BASIS_Q1D; k++) {
*0d0321e0SJeremy L Thompson        const size_t ind = ((elem * BASIS_Q1D + k) * BASIS_Q1D + j) * BASIS_Q1D + i;
*0d0321e0SJeremy L Thompson        w[ind] = qweight1d[i] * qweight1d[j] * qweight1d[k];
*0d0321e0SJeremy L Thompson      }
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Quadrature weights
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" __global__ void weight(const CeedInt nelem,
*0d0321e0SJeremy L Thompson                                  const CeedScalar *__restrict__ qweight1d,
*0d0321e0SJeremy L Thompson                                  CeedScalar *__restrict__ v) {
*0d0321e0SJeremy L Thompson  if (BASIS_DIM==1)
*0d0321e0SJeremy L Thompson    weight1d(nelem, qweight1d, v);
*0d0321e0SJeremy L Thompson  else if (BASIS_DIM==2)
*0d0321e0SJeremy L Thompson    weight2d(nelem, qweight1d, v);
*0d0321e0SJeremy L Thompson  else if (BASIS_DIM==3)
*0d0321e0SJeremy L Thompson    weight3d(nelem, qweight1d, v);
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Non-Tensor Basis Kernels
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonstatic const char *kernelsNonTensorRef = QUOTE(
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Interp
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" __global__ void interp(const CeedInt nelem, const int transpose,
*0d0321e0SJeremy L Thompson                                  const CeedScalar *d_B,
*0d0321e0SJeremy L Thompson                                  const CeedScalar *__restrict__ d_U,
*0d0321e0SJeremy L Thompson                                  CeedScalar *__restrict__ d_V) {
*0d0321e0SJeremy L Thompson  const int tid = threadIdx.x;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedScalar *U;
*0d0321e0SJeremy L Thompson  CeedScalar V;
*0d0321e0SJeremy L Thompson  //TODO load B in shared memory if blockDim.z > 1?
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem;
*0d0321e0SJeremy L Thompson       elem += gridDim.x*blockDim.z) {
*0d0321e0SJeremy L Thompson    for (int comp = 0; comp < BASIS_NCOMP; comp++) {
*0d0321e0SJeremy L Thompson      if (!transpose) { // run with Q threads
*0d0321e0SJeremy L Thompson        U = d_U + elem*P + comp*nelem*P;
*0d0321e0SJeremy L Thompson        V = 0.0;
*0d0321e0SJeremy L Thompson        for (int i = 0; i < P; ++i)
*0d0321e0SJeremy L Thompson          V += d_B[i + tid*P]*U[i];
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson        d_V[elem*Q + comp*nelem*Q + tid] = V;
*0d0321e0SJeremy L Thompson      } else { // run with P threads
*0d0321e0SJeremy L Thompson        U = d_U + elem*Q + comp*nelem*Q;
*0d0321e0SJeremy L Thompson        V = 0.0;
*0d0321e0SJeremy L Thompson        for (int i = 0; i < Q; ++i)
*0d0321e0SJeremy L Thompson          V += d_B[tid + i*P]*U[i];
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson        d_V[elem*P + comp*nelem*P + tid] = V;
*0d0321e0SJeremy L Thompson      }
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Grad
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" __global__ void grad(const CeedInt nelem, const int transpose,
*0d0321e0SJeremy L Thompson                                const CeedScalar *d_G,
*0d0321e0SJeremy L Thompson                                const CeedScalar *__restrict__ d_U,
*0d0321e0SJeremy L Thompson                                CeedScalar *__restrict__ d_V) {
*0d0321e0SJeremy L Thompson  const int tid = threadIdx.x;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedScalar *U;
*0d0321e0SJeremy L Thompson  //TODO load G in shared memory if blockDim.z > 1?
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem;
*0d0321e0SJeremy L Thompson       elem += gridDim.x*blockDim.z) {
*0d0321e0SJeremy L Thompson    for (int comp=0; comp<BASIS_NCOMP; comp++) {
*0d0321e0SJeremy L Thompson      if (!transpose) { // run with Q threads
*0d0321e0SJeremy L Thompson        CeedScalar V[BASIS_DIM];
*0d0321e0SJeremy L Thompson        U = d_U + elem*P + comp*nelem*P;
*0d0321e0SJeremy L Thompson        for (int dim = 0; dim < BASIS_DIM; dim++)
*0d0321e0SJeremy L Thompson          V[dim] = 0.0;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson        for (int i = 0; i < P; ++i) {
*0d0321e0SJeremy L Thompson          const CeedScalar val = U[i];
*0d0321e0SJeremy L Thompson          for(int dim = 0; dim < BASIS_DIM; dim++)
*0d0321e0SJeremy L Thompson            V[dim] += d_G[i + tid*P + dim*P*Q]*val;
*0d0321e0SJeremy L Thompson        }
*0d0321e0SJeremy L Thompson        for (int dim = 0; dim < BASIS_DIM; dim++) {
*0d0321e0SJeremy L Thompson          d_V[elem*Q + comp*nelem*Q + dim*BASIS_NCOMP*nelem*Q + tid] = V[dim];
*0d0321e0SJeremy L Thompson        }
*0d0321e0SJeremy L Thompson      } else { // run with P threads
*0d0321e0SJeremy L Thompson        CeedScalar V = 0.0;
*0d0321e0SJeremy L Thompson        for (int dim = 0; dim < BASIS_DIM; dim++) {
*0d0321e0SJeremy L Thompson          U = d_U + elem*Q + comp*nelem*Q +dim*BASIS_NCOMP*nelem*Q;
*0d0321e0SJeremy L Thompson          for (int i = 0; i < Q; ++i)
*0d0321e0SJeremy L Thompson            V += d_G[tid + i*P + dim*P*Q]*U[i];
*0d0321e0SJeremy L Thompson        }
*0d0321e0SJeremy L Thompson        d_V[elem*P + comp*nelem*P + tid] = V;
*0d0321e0SJeremy L Thompson      }
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Weight
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" __global__ void weight(const CeedInt nelem,
*0d0321e0SJeremy L Thompson                                  const CeedScalar *__restrict__ qweight,
*0d0321e0SJeremy L Thompson                                  CeedScalar *__restrict__ d_V) {
*0d0321e0SJeremy L Thompson  const int tid = threadIdx.x;
*0d0321e0SJeremy L Thompson  //TODO load qweight in shared memory if blockDim.z > 1?
*0d0321e0SJeremy L Thompson  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem;
*0d0321e0SJeremy L Thompson       elem += gridDim.x*blockDim.z) {
*0d0321e0SJeremy L Thompson    d_V[elem*Q + tid] = qweight[tid];
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson);
*0d0321e0SJeremy L Thompson// *INDENT-ON*
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Basis apply - tensor
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonint CeedBasisApply_Cuda(CeedBasis basis, const CeedInt nelem,
*0d0321e0SJeremy L Thompson                        CeedTransposeMode tmode,
*0d0321e0SJeremy L Thompson                        CeedEvalMode emode, CeedVector u, CeedVector v) {
*0d0321e0SJeremy L Thompson  int ierr;
*0d0321e0SJeremy L Thompson  Ceed ceed;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetCeed(basis, &ceed); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  Ceed_Cuda *ceed_Cuda;
*0d0321e0SJeremy L Thompson  ierr = CeedGetData(ceed, &ceed_Cuda); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  CeedBasis_Cuda *data;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetData(basis, &data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  const CeedInt transpose = tmode == CEED_TRANSPOSE;
*0d0321e0SJeremy L Thompson  const int maxblocksize = 32;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Read vectors
*0d0321e0SJeremy L Thompson  const CeedScalar *d_u;
*0d0321e0SJeremy L Thompson  CeedScalar *d_v;
*0d0321e0SJeremy L Thompson  if (emode != CEED_EVAL_WEIGHT) {
*0d0321e0SJeremy L Thompson    ierr = CeedVectorGetArrayRead(u, CEED_MEM_DEVICE, &d_u); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson  ierr = CeedVectorGetArrayWrite(v, CEED_MEM_DEVICE, &d_v); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Clear v for transpose operation
*0d0321e0SJeremy L Thompson  if (tmode == CEED_TRANSPOSE) {
*0d0321e0SJeremy L Thompson    CeedInt length;
*0d0321e0SJeremy L Thompson    ierr = CeedVectorGetLength(v, &length); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson    ierr = cudaMemset(d_v, 0, length * sizeof(CeedScalar));
*0d0321e0SJeremy L Thompson    CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson  CeedInt Q1d, dim;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetNumQuadraturePoints1D(basis, &Q1d); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetDimension(basis, &dim); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Basis action
*0d0321e0SJeremy L Thompson  switch (emode) {
*0d0321e0SJeremy L Thompson  case CEED_EVAL_INTERP: {
*0d0321e0SJeremy L Thompson    void *interpargs[] = {(void *) &nelem, (void *) &transpose,
*0d0321e0SJeremy L Thompson                          &data->d_interp1d, &d_u, &d_v
*0d0321e0SJeremy L Thompson                         };
*0d0321e0SJeremy L Thompson    CeedInt blocksize = CeedIntPow(Q1d, dim);
*0d0321e0SJeremy L Thompson    blocksize = blocksize > maxblocksize ? maxblocksize : blocksize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson    ierr = CeedRunKernelCuda(ceed, data->interp, nelem, blocksize, interpargs);
*0d0321e0SJeremy L Thompson    CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  } break;
*0d0321e0SJeremy L Thompson  case CEED_EVAL_GRAD: {
*0d0321e0SJeremy L Thompson    void *gradargs[] = {(void *) &nelem, (void *) &transpose, &data->d_interp1d,
*0d0321e0SJeremy L Thompson                        &data->d_grad1d, &d_u, &d_v
*0d0321e0SJeremy L Thompson                       };
*0d0321e0SJeremy L Thompson    CeedInt blocksize = maxblocksize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson    ierr = CeedRunKernelCuda(ceed, data->grad, nelem, blocksize, gradargs);
*0d0321e0SJeremy L Thompson    CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  } break;
*0d0321e0SJeremy L Thompson  case CEED_EVAL_WEIGHT: {
*0d0321e0SJeremy L Thompson    void *weightargs[] = {(void *) &nelem, (void *) &data->d_qweight1d, &d_v};
*0d0321e0SJeremy L Thompson    const int gridsize = nelem;
*0d0321e0SJeremy L Thompson    ierr = CeedRunKernelDimCuda(ceed, data->weight, gridsize,
*0d0321e0SJeremy L Thompson                                Q1d, dim >= 2 ? Q1d : 1, 1,
*0d0321e0SJeremy L Thompson                                weightargs); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  } break;
*0d0321e0SJeremy L Thompson  // LCOV_EXCL_START
*0d0321e0SJeremy L Thompson  // Evaluate the divergence to/from the quadrature points
*0d0321e0SJeremy L Thompson  case CEED_EVAL_DIV:
*0d0321e0SJeremy L Thompson    return CeedError(ceed, CEED_ERROR_BACKEND, "CEED_EVAL_DIV not supported");
*0d0321e0SJeremy L Thompson  // Evaluate the curl to/from the quadrature points
*0d0321e0SJeremy L Thompson  case CEED_EVAL_CURL:
*0d0321e0SJeremy L Thompson    return CeedError(ceed, CEED_ERROR_BACKEND, "CEED_EVAL_CURL not supported");
*0d0321e0SJeremy L Thompson  // Take no action, BasisApply should not have been called
*0d0321e0SJeremy L Thompson  case CEED_EVAL_NONE:
*0d0321e0SJeremy L Thompson    return CeedError(ceed, CEED_ERROR_BACKEND,
*0d0321e0SJeremy L Thompson                     "CEED_EVAL_NONE does not make sense in this context");
*0d0321e0SJeremy L Thompson    // LCOV_EXCL_STOP
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Restore vectors
*0d0321e0SJeremy L Thompson  if (emode != CEED_EVAL_WEIGHT) {
*0d0321e0SJeremy L Thompson    ierr = CeedVectorRestoreArrayRead(u, &d_u); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson  ierr = CeedVectorRestoreArray(v, &d_v); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  return CEED_ERROR_SUCCESS;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Basis apply - non-tensor
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonint CeedBasisApplyNonTensor_Cuda(CeedBasis basis, const CeedInt nelem,
*0d0321e0SJeremy L Thompson                                 CeedTransposeMode tmode, CeedEvalMode emode,
*0d0321e0SJeremy L Thompson                                 CeedVector u, CeedVector v) {
*0d0321e0SJeremy L Thompson  int ierr;
*0d0321e0SJeremy L Thompson  Ceed ceed;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetCeed(basis, &ceed); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  Ceed_Cuda *ceed_Cuda;
*0d0321e0SJeremy L Thompson  ierr = CeedGetData(ceed, &ceed_Cuda); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  CeedBasisNonTensor_Cuda *data;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetData(basis, &data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  CeedInt nnodes, nqpt;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetNumQuadraturePoints(basis, &nqpt); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetNumNodes(basis, &nnodes); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  const CeedInt transpose = tmode == CEED_TRANSPOSE;
*0d0321e0SJeremy L Thompson  int elemsPerBlock = 1;
*0d0321e0SJeremy L Thompson  int grid = nelem/elemsPerBlock+((nelem/elemsPerBlock*elemsPerBlock<nelem)?1:0);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Read vectors
*0d0321e0SJeremy L Thompson  const CeedScalar *d_u;
*0d0321e0SJeremy L Thompson  CeedScalar *d_v;
*0d0321e0SJeremy L Thompson  if (emode != CEED_EVAL_WEIGHT) {
*0d0321e0SJeremy L Thompson    ierr = CeedVectorGetArrayRead(u, CEED_MEM_DEVICE, &d_u); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson  ierr = CeedVectorGetArrayWrite(v, CEED_MEM_DEVICE, &d_v); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Clear v for transpose operation
*0d0321e0SJeremy L Thompson  if (tmode == CEED_TRANSPOSE) {
*0d0321e0SJeremy L Thompson    CeedInt length;
*0d0321e0SJeremy L Thompson    ierr = CeedVectorGetLength(v, &length); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson    ierr = cudaMemset(d_v, 0, length * sizeof(CeedScalar));
*0d0321e0SJeremy L Thompson    CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Apply basis operation
*0d0321e0SJeremy L Thompson  switch (emode) {
*0d0321e0SJeremy L Thompson  case CEED_EVAL_INTERP: {
*0d0321e0SJeremy L Thompson    void *interpargs[] = {(void *) &nelem, (void *) &transpose,
*0d0321e0SJeremy L Thompson                          &data->d_interp, &d_u, &d_v
*0d0321e0SJeremy L Thompson                         };
*0d0321e0SJeremy L Thompson    if (!transpose) {
*0d0321e0SJeremy L Thompson      ierr = CeedRunKernelDimCuda(ceed, data->interp, grid, nqpt, 1,
*0d0321e0SJeremy L Thompson                                  elemsPerBlock, interpargs); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson    } else {
*0d0321e0SJeremy L Thompson      ierr = CeedRunKernelDimCuda(ceed, data->interp, grid, nnodes, 1,
*0d0321e0SJeremy L Thompson                                  elemsPerBlock, interpargs); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  } break;
*0d0321e0SJeremy L Thompson  case CEED_EVAL_GRAD: {
*0d0321e0SJeremy L Thompson    void *gradargs[] = {(void *) &nelem, (void *) &transpose, &data->d_grad,
*0d0321e0SJeremy L Thompson                        &d_u, &d_v
*0d0321e0SJeremy L Thompson                       };
*0d0321e0SJeremy L Thompson    if (!transpose) {
*0d0321e0SJeremy L Thompson      ierr = CeedRunKernelDimCuda(ceed, data->grad, grid, nqpt, 1,
*0d0321e0SJeremy L Thompson                                  elemsPerBlock, gradargs); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson    } else {
*0d0321e0SJeremy L Thompson      ierr = CeedRunKernelDimCuda(ceed, data->grad, grid, nnodes, 1,
*0d0321e0SJeremy L Thompson                                  elemsPerBlock, gradargs); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson    }
*0d0321e0SJeremy L Thompson  } break;
*0d0321e0SJeremy L Thompson  case CEED_EVAL_WEIGHT: {
*0d0321e0SJeremy L Thompson    void *weightargs[] = {(void *) &nelem, (void *) &data->d_qweight, &d_v};
*0d0321e0SJeremy L Thompson    ierr = CeedRunKernelDimCuda(ceed, data->weight, grid, nqpt, 1,
*0d0321e0SJeremy L Thompson                                elemsPerBlock, weightargs); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  } break;
*0d0321e0SJeremy L Thompson  // LCOV_EXCL_START
*0d0321e0SJeremy L Thompson  // Evaluate the divergence to/from the quadrature points
*0d0321e0SJeremy L Thompson  case CEED_EVAL_DIV:
*0d0321e0SJeremy L Thompson    return CeedError(ceed, CEED_ERROR_BACKEND, "CEED_EVAL_DIV not supported");
*0d0321e0SJeremy L Thompson  // Evaluate the curl to/from the quadrature points
*0d0321e0SJeremy L Thompson  case CEED_EVAL_CURL:
*0d0321e0SJeremy L Thompson    return CeedError(ceed, CEED_ERROR_BACKEND, "CEED_EVAL_CURL not supported");
*0d0321e0SJeremy L Thompson  // Take no action, BasisApply should not have been called
*0d0321e0SJeremy L Thompson  case CEED_EVAL_NONE:
*0d0321e0SJeremy L Thompson    return CeedError(ceed, CEED_ERROR_BACKEND,
*0d0321e0SJeremy L Thompson                     "CEED_EVAL_NONE does not make sense in this context");
*0d0321e0SJeremy L Thompson    // LCOV_EXCL_STOP
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Restore vectors
*0d0321e0SJeremy L Thompson  if (emode != CEED_EVAL_WEIGHT) {
*0d0321e0SJeremy L Thompson    ierr = CeedVectorRestoreArrayRead(u, &d_u); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  }
*0d0321e0SJeremy L Thompson  ierr = CeedVectorRestoreArray(v, &d_v); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  return CEED_ERROR_SUCCESS;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Destroy tensor basis
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonstatic int CeedBasisDestroy_Cuda(CeedBasis basis) {
*0d0321e0SJeremy L Thompson  int ierr;
*0d0321e0SJeremy L Thompson  Ceed ceed;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetCeed(basis, &ceed); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  CeedBasis_Cuda *data;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetData(basis, &data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  CeedChk_Cu(ceed, cuModuleUnload(data->module));
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = cudaFree(data->d_qweight1d); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaFree(data->d_interp1d); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaFree(data->d_grad1d); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = CeedFree(&data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  return CEED_ERROR_SUCCESS;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Destroy non-tensor basis
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonstatic int CeedBasisDestroyNonTensor_Cuda(CeedBasis basis) {
*0d0321e0SJeremy L Thompson  int ierr;
*0d0321e0SJeremy L Thompson  Ceed ceed;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetCeed(basis, &ceed); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  CeedBasisNonTensor_Cuda *data;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetData(basis, &data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  CeedChk_Cu(ceed, cuModuleUnload(data->module));
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = cudaFree(data->d_qweight); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaFree(data->d_interp); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaFree(data->d_grad); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = CeedFree(&data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  return CEED_ERROR_SUCCESS;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Create tensor
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonint CeedBasisCreateTensorH1_Cuda(CeedInt dim, CeedInt P1d, CeedInt Q1d,
*0d0321e0SJeremy L Thompson                                 const CeedScalar *interp1d,
*0d0321e0SJeremy L Thompson                                 const CeedScalar *grad1d,
*0d0321e0SJeremy L Thompson                                 const CeedScalar *qref1d,
*0d0321e0SJeremy L Thompson                                 const CeedScalar *qweight1d,
*0d0321e0SJeremy L Thompson                                 CeedBasis basis) {
*0d0321e0SJeremy L Thompson  int ierr;
*0d0321e0SJeremy L Thompson  Ceed ceed;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetCeed(basis, &ceed); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  CeedBasis_Cuda *data;
*0d0321e0SJeremy L Thompson  ierr = CeedCalloc(1, &data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Copy data to GPU
*0d0321e0SJeremy L Thompson  const CeedInt qBytes = Q1d * sizeof(CeedScalar);
*0d0321e0SJeremy L Thompson  ierr = cudaMalloc((void **)&data->d_qweight1d, qBytes); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaMemcpy(data->d_qweight1d, qweight1d, qBytes,
*0d0321e0SJeremy L Thompson                    cudaMemcpyHostToDevice); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedInt iBytes = qBytes * P1d;
*0d0321e0SJeremy L Thompson  ierr = cudaMalloc((void **)&data->d_interp1d, iBytes); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaMemcpy(data->d_interp1d, interp1d, iBytes,
*0d0321e0SJeremy L Thompson                    cudaMemcpyHostToDevice); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = cudaMalloc((void **)&data->d_grad1d, iBytes); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaMemcpy(data->d_grad1d, grad1d, iBytes,
*0d0321e0SJeremy L Thompson                    cudaMemcpyHostToDevice); CeedChk_Cu(ceed,ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Complie basis kernels
*0d0321e0SJeremy L Thompson  CeedInt ncomp;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetNumComponents(basis, &ncomp); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedCompileCuda(ceed, basiskernels, &data->module, 7,
*0d0321e0SJeremy L Thompson                         "BASIS_Q1D", Q1d,
*0d0321e0SJeremy L Thompson                         "BASIS_P1D", P1d,
*0d0321e0SJeremy L Thompson                         "BASIS_BUF_LEN", ncomp * CeedIntPow(Q1d > P1d ?
*0d0321e0SJeremy L Thompson                             Q1d : P1d, dim),
*0d0321e0SJeremy L Thompson                         "BASIS_DIM", dim,
*0d0321e0SJeremy L Thompson                         "BASIS_NCOMP", ncomp,
*0d0321e0SJeremy L Thompson                         "BASIS_ELEMSIZE", CeedIntPow(P1d, dim),
*0d0321e0SJeremy L Thompson                         "BASIS_NQPT", CeedIntPow(Q1d, dim)
*0d0321e0SJeremy L Thompson                        ); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedGetKernelCuda(ceed, data->module, "interp", &data->interp);
*0d0321e0SJeremy L Thompson  CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedGetKernelCuda(ceed, data->module, "grad", &data->grad);
*0d0321e0SJeremy L Thompson  CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedGetKernelCuda(ceed, data->module, "weight", &data->weight);
*0d0321e0SJeremy L Thompson  CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedBasisSetData(basis, data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = CeedSetBackendFunction(ceed, "Basis", basis, "Apply",
*0d0321e0SJeremy L Thompson                                CeedBasisApply_Cuda); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedSetBackendFunction(ceed, "Basis", basis, "Destroy",
*0d0321e0SJeremy L Thompson                                CeedBasisDestroy_Cuda); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  return CEED_ERROR_SUCCESS;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Create non-tensor
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonint CeedBasisCreateH1_Cuda(CeedElemTopology topo, CeedInt dim, CeedInt nnodes,
*0d0321e0SJeremy L Thompson                           CeedInt nqpts, const CeedScalar *interp,
*0d0321e0SJeremy L Thompson                           const CeedScalar *grad, const CeedScalar *qref,
*0d0321e0SJeremy L Thompson                           const CeedScalar *qweight, CeedBasis basis) {
*0d0321e0SJeremy L Thompson  int ierr;
*0d0321e0SJeremy L Thompson  Ceed ceed;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetCeed(basis, &ceed); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  CeedBasisNonTensor_Cuda *data;
*0d0321e0SJeremy L Thompson  ierr = CeedCalloc(1, &data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Copy basis data to GPU
*0d0321e0SJeremy L Thompson  const CeedInt qBytes = nqpts * sizeof(CeedScalar);
*0d0321e0SJeremy L Thompson  ierr = cudaMalloc((void **)&data->d_qweight, qBytes); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaMemcpy(data->d_qweight, qweight, qBytes,
*0d0321e0SJeremy L Thompson                    cudaMemcpyHostToDevice); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedInt iBytes = qBytes * nnodes;
*0d0321e0SJeremy L Thompson  ierr = cudaMalloc((void **)&data->d_interp, iBytes); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaMemcpy(data->d_interp, interp, iBytes,
*0d0321e0SJeremy L Thompson                    cudaMemcpyHostToDevice); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  const CeedInt gBytes = qBytes * nnodes * dim;
*0d0321e0SJeremy L Thompson  ierr = cudaMalloc((void **)&data->d_grad, gBytes); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = cudaMemcpy(data->d_grad, grad, gBytes,
*0d0321e0SJeremy L Thompson                    cudaMemcpyHostToDevice); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Compile basis kernels
*0d0321e0SJeremy L Thompson  CeedInt ncomp;
*0d0321e0SJeremy L Thompson  ierr = CeedBasisGetNumComponents(basis, &ncomp); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedCompileCuda(ceed, kernelsNonTensorRef, &data->module, 4,
*0d0321e0SJeremy L Thompson                         "Q", nqpts,
*0d0321e0SJeremy L Thompson                         "P", nnodes,
*0d0321e0SJeremy L Thompson                         "BASIS_DIM", dim,
*0d0321e0SJeremy L Thompson                         "BASIS_NCOMP", ncomp
*0d0321e0SJeremy L Thompson                        ); CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedGetKernelCuda(ceed, data->module, "interp", &data->interp);
*0d0321e0SJeremy L Thompson  CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedGetKernelCuda(ceed, data->module, "grad", &data->grad);
*0d0321e0SJeremy L Thompson  CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedGetKernelCuda(ceed, data->module, "weight", &data->weight);
*0d0321e0SJeremy L Thompson  CeedChk_Cu(ceed, ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  ierr = CeedBasisSetData(basis, data); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  // Register backend functions
*0d0321e0SJeremy L Thompson  ierr = CeedSetBackendFunction(ceed, "Basis", basis, "Apply",
*0d0321e0SJeremy L Thompson                                CeedBasisApplyNonTensor_Cuda); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  ierr = CeedSetBackendFunction(ceed, "Basis", basis, "Destroy",
*0d0321e0SJeremy L Thompson                                CeedBasisDestroyNonTensor_Cuda); CeedChkBackend(ierr);
*0d0321e0SJeremy L Thompson  return CEED_ERROR_SUCCESS;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------