backends/hip-shared/ceed-hip-shared-basis.c

7d8d0e25Snbeams// Copyright (c) 2017-2018, Lawrence Livermore National Security, LLC.
7d8d0e25Snbeams// Produced at the Lawrence Livermore National Laboratory. LLNL-CODE-734707.
7d8d0e25Snbeams// All Rights reserved. See files LICENSE and NOTICE for details.
7d8d0e25Snbeams//
7d8d0e25Snbeams// This file is part of CEED, a collection of benchmarks, miniapps, software
7d8d0e25Snbeams// libraries and APIs for efficient high-order finite element and spectral
7d8d0e25Snbeams// element discretizations for exascale applications. For more information and
7d8d0e25Snbeams// source code availability see http://github.com/ceed.
7d8d0e25Snbeams//
7d8d0e25Snbeams// The CEED research is supported by the Exascale Computing Project 17-SC-20-SC,
7d8d0e25Snbeams// a collaborative effort of two U.S. Department of Energy organizations (Office
7d8d0e25Snbeams// of Science and the National Nuclear Security Administration) responsible for
7d8d0e25Snbeams// the planning and preparation of a capable exascale ecosystem, including
7d8d0e25Snbeams// software, applications, hardware, advanced system engineering and early
7d8d0e25Snbeams// testbed platforms, in support of the nation's exascale computing imperative.
7d8d0e25Snbeams
7d8d0e25Snbeams#include "ceed-hip-shared.h"
7d8d0e25Snbeams#include "../hip/ceed-hip-compile.h"
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Shared mem kernels
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// *INDENT-OFF*
7d8d0e25Snbeamsstatic const char *kernelsShared = QUOTE(
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Sum input into output
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void add(CeedScalar *r_V, const CeedScalar *r_U) {
7d8d0e25Snbeams  for (int i = 0; i < P1D; i++)
7d8d0e25Snbeams    r_V[i] += r_U[i];
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 1D
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Read DoFs
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void readDofs1d(const int elem, const int tidx,
7d8d0e25Snbeams                                  const int tidy, const int tidz,const int comp,
7d8d0e25Snbeams                                  const int nelem, const CeedScalar *d_U,
7d8d0e25Snbeams                                  CeedScalar *slice) {
7d8d0e25Snbeams  for (int i = 0; i < P1D; i++)
7d8d0e25Snbeams    slice[i + tidz*T1D] = d_U[i + elem*P1D + comp*P1D*nelem];
7d8d0e25Snbeams  for (int i = P1D; i < Q1D; i++)
7d8d0e25Snbeams    slice[i + tidz*T1D] = 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Write DoFs
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void writeDofs1d(const int elem, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int comp,
7d8d0e25Snbeams                                   const int nelem, const CeedScalar &r_V,
7d8d0e25Snbeams                                   CeedScalar *d_V) {
7d8d0e25Snbeams  if (tidx<P1D)
7d8d0e25Snbeams    d_V[tidx + elem*P1D + comp*P1D*nelem] = r_V;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Read quadrature point data
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void readQuads1d(const int elem, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz, const int comp,
7d8d0e25Snbeams                                   const int dim, const int nelem,
7d8d0e25Snbeams                                   const CeedScalar *d_U, CeedScalar *slice) {
7d8d0e25Snbeams  for (int i = 0; i < Q1D; i++)
7d8d0e25Snbeams    slice[i + tidz*T1D] = d_U[i + elem*Q1D + comp*Q1D*nelem +
7d8d0e25Snbeams                            dim*BASIS_NCOMP*nelem*Q1D];
7d8d0e25Snbeams  for (int i = Q1D; i < P1D; i++)
7d8d0e25Snbeams    slice[i + tidz*T1D] = 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Write quadrature point data
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void writeQuads1d(const int elem, const int tidx,
7d8d0e25Snbeams                                    const int tidy, const int comp,
7d8d0e25Snbeams                                    const int dim, const int nelem,
7d8d0e25Snbeams                                    const CeedScalar &r_V, CeedScalar *d_V) {
7d8d0e25Snbeams  if (tidx<Q1D)
7d8d0e25Snbeams    d_V[tidx + elem*Q1D + comp*Q1D*nelem + dim*BASIS_NCOMP*nelem*Q1D] = r_V;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 1D tensor contraction
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractX1d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz,
7d8d0e25Snbeams                                   const CeedScalar &U, const CeedScalar *B,
7d8d0e25Snbeams                                   CeedScalar &V) {
7d8d0e25Snbeams  V = 0.0;
7d8d0e25Snbeams  for (int i = 0; i < P1D; ++i)
7d8d0e25Snbeams    V += B[i + tidx*P1D] * slice[i + tidz*T1D]; // Contract x direction
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 1D transpose tensor contraction
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractTransposeX1d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams    const int tidy, const int tidz,
7d8d0e25Snbeams    const CeedScalar &U, const CeedScalar *B, CeedScalar &V) {
7d8d0e25Snbeams  V = 0.0;
7d8d0e25Snbeams  for (int i = 0; i < Q1D; ++i)
7d8d0e25Snbeams    V += B[tidx + i*P1D] * slice[i + tidz*T1D]; // Contract x direction
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 1D interpolate to quadrature points
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void interp1d(const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                                const CeedScalar *c_B,
7d8d0e25Snbeams                                const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                                CeedScalar *__restrict__ d_V,
7d8d0e25Snbeams                                CeedScalar *slice) {
7d8d0e25Snbeams  CeedScalar r_V;
7d8d0e25Snbeams  CeedScalar r_t;
7d8d0e25Snbeams
7d8d0e25Snbeams  const int tidx = threadIdx.x;
7d8d0e25Snbeams  const int tidy = threadIdx.y;
7d8d0e25Snbeams  const int tidz = threadIdx.z;
7d8d0e25Snbeams
7d8d0e25Snbeams
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*blockDim.z) {
7d8d0e25Snbeams    for (int comp = 0; comp < BASIS_NCOMP; comp++) {
7d8d0e25Snbeams      if (!transpose) {
7d8d0e25Snbeams        readDofs1d(elem, tidx, tidy, tidz, comp, nelem, d_U, slice);
7d8d0e25Snbeams        ContractX1d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams        writeQuads1d(elem, tidx, tidy, comp, 0, nelem, r_V, d_V);
7d8d0e25Snbeams      } else {
7d8d0e25Snbeams        readQuads1d(elem, tidx, tidy, tidz, comp, 0, nelem, d_U, slice);
7d8d0e25Snbeams        ContractTransposeX1d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams        writeDofs1d(elem, tidx, tidy, comp, nelem, r_V, d_V);
7d8d0e25Snbeams      }
7d8d0e25Snbeams    }
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 1D derivatives at quadrature points
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void grad1d(const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                              const CeedScalar *c_B, const CeedScalar *c_G,
7d8d0e25Snbeams                              const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                              CeedScalar *__restrict__ d_V,
7d8d0e25Snbeams                              CeedScalar *slice) {
7d8d0e25Snbeams  CeedScalar r_U;
7d8d0e25Snbeams  CeedScalar r_V;
7d8d0e25Snbeams
7d8d0e25Snbeams  const int tidx = threadIdx.x;
7d8d0e25Snbeams  const int tidy = threadIdx.y;
7d8d0e25Snbeams  const int tidz = threadIdx.z;
7d8d0e25Snbeams  int dim;
7d8d0e25Snbeams
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*blockDim.z) {
7d8d0e25Snbeams    for(int comp = 0; comp < BASIS_NCOMP; comp++) {
7d8d0e25Snbeams      if (!transpose) {
7d8d0e25Snbeams        readDofs1d(elem, tidx, tidy, tidz, comp, nelem, d_U, slice);
7d8d0e25Snbeams        ContractX1d(slice, tidx, tidy, tidz, r_U, c_G, r_V);
7d8d0e25Snbeams        dim = 0;
7d8d0e25Snbeams        writeQuads1d(elem, tidx, tidy, comp, dim, nelem, r_V, d_V);
7d8d0e25Snbeams      } else {
7d8d0e25Snbeams        dim = 0;
7d8d0e25Snbeams        readQuads1d(elem, tidx, tidy, tidz, comp, dim, nelem, d_U, slice);
7d8d0e25Snbeams        ContractTransposeX1d(slice, tidx, tidy, tidz, r_U, c_G, r_V);
7d8d0e25Snbeams        writeDofs1d(elem, tidx, tidy, comp, nelem, r_V, d_V);
7d8d0e25Snbeams      }
7d8d0e25Snbeams    }
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 1D Quadrature weights
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams__device__ void weight1d(const CeedInt nelem, const CeedScalar *qweight1d,
7d8d0e25Snbeams                         CeedScalar *w) {
7d8d0e25Snbeams  const int tid = threadIdx.x;
7d8d0e25Snbeams  const CeedScalar weight = qweight1d[tid];
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*blockDim.y + threadIdx.y; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*blockDim.y) {
7d8d0e25Snbeams    const int ind = elem*Q1D + tid;
7d8d0e25Snbeams    w[ind] = weight;
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Read DoFs
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void readDofs2d(const int elem, const int tidx,
7d8d0e25Snbeams                                  const int tidy, const int comp,
7d8d0e25Snbeams                                  const int nelem, const CeedScalar *d_U,
7d8d0e25Snbeams                                  CeedScalar &U) {
7d8d0e25Snbeams  U = (tidx<P1D && tidy<P1D) ?
7d8d0e25Snbeams      d_U[tidx + tidy*P1D + elem*P1D*P1D + comp*P1D*P1D*nelem] : 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Write DoFs
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void writeDofs2d(const int elem, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int comp,
7d8d0e25Snbeams                                   const int nelem, const CeedScalar &r_V,
7d8d0e25Snbeams                                   CeedScalar *d_V) {
7d8d0e25Snbeams  if (tidx<P1D && tidy<P1D)
7d8d0e25Snbeams    d_V[tidx + tidy*P1D + elem*P1D*P1D + comp*P1D*P1D*nelem] = r_V;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Read quadrature point data
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void readQuads2d(const int elem, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int comp,
7d8d0e25Snbeams                                   const int dim, const int nelem,
7d8d0e25Snbeams                                   const CeedScalar *d_U, CeedScalar &U ) {
7d8d0e25Snbeams  U = (tidx<Q1D && tidy<Q1D) ?
7d8d0e25Snbeams      d_U[tidx + tidy*Q1D + elem*Q1D*Q1D + comp*Q1D*Q1D*nelem +
7d8d0e25Snbeams      dim*BASIS_NCOMP*nelem*Q1D*Q1D] : 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Write quadrature point data
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void writeQuads2d(const int elem, const int tidx,
7d8d0e25Snbeams                                    const int tidy, const int comp,
7d8d0e25Snbeams                                    const int dim, const int nelem,
7d8d0e25Snbeams                                    const CeedScalar &r_V, CeedScalar *d_V) {
7d8d0e25Snbeams  if (tidx<Q1D && tidy<Q1D)
7d8d0e25Snbeams    d_V[tidx + tidy*Q1D + elem*Q1D*Q1D + comp*Q1D*Q1D*nelem +
7d8d0e25Snbeams    dim*BASIS_NCOMP*nelem*Q1D*Q1D] = r_V;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D tensor contraction x
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractX2d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz,
7d8d0e25Snbeams                                   const CeedScalar &U, const CeedScalar *B,
7d8d0e25Snbeams                                   CeedScalar &V) {
7d8d0e25Snbeams  slice[tidx + tidy*T1D + tidz*T1D*T1D] = U;
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams  V = 0.0;
7d8d0e25Snbeams  if (tidx < Q1D)
7d8d0e25Snbeams    for (int i = 0; i < P1D; ++i)
7d8d0e25Snbeams      V += B[i + tidx*P1D] * slice[i + tidy*T1D + tidz*T1D*T1D]; // Contract x direction
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D tensor contraction y
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractY2d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz,
7d8d0e25Snbeams                                   const CeedScalar &U, const CeedScalar *B,
7d8d0e25Snbeams                                   CeedScalar &V) {
7d8d0e25Snbeams  slice[tidx + tidy*T1D + tidz*T1D*T1D] = U;
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams  V = 0.0;
7d8d0e25Snbeams  if (tidy < Q1D)
7d8d0e25Snbeams    for (int i = 0; i < P1D; ++i)
7d8d0e25Snbeams      V += B[i + tidy*P1D] * slice[tidx + i*T1D + tidz*T1D*T1D]; // Contract y direction
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D transpose tensor contraction y
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractTransposeY2d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams    const int tidy, const int tidz,
7d8d0e25Snbeams    const CeedScalar &U, const CeedScalar *B, CeedScalar &V) {
7d8d0e25Snbeams  slice[tidx + tidy*T1D + tidz*T1D*T1D] = U;
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams  V = 0.0;
7d8d0e25Snbeams  if (tidy < P1D)
7d8d0e25Snbeams    for (int i = 0; i < Q1D; ++i)
7d8d0e25Snbeams      V += B[tidy + i*P1D] * slice[tidx + i*T1D + tidz*T1D*T1D]; // Contract y direction
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D transpose tensor contraction x
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractTransposeX2d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams    const int tidy, const int tidz,
7d8d0e25Snbeams    const CeedScalar &U, const CeedScalar *B, CeedScalar &V) {
7d8d0e25Snbeams  slice[tidx + tidy*T1D + tidz*T1D*T1D] = U;
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams  V = 0.0;
7d8d0e25Snbeams  if (tidx < P1D)
7d8d0e25Snbeams    for (int i = 0; i < Q1D; ++i)
7d8d0e25Snbeams      V += B[tidx + i*P1D] * slice[i + tidy*T1D + tidz*T1D*T1D]; // Contract x direction
7d8d0e25Snbeams  __syncthreads();
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D interpolate to quadrature points
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void interp2d(const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                                const CeedScalar *c_B,
7d8d0e25Snbeams                                const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                                CeedScalar *__restrict__ d_V,
7d8d0e25Snbeams                                CeedScalar *slice) {
7d8d0e25Snbeams  CeedScalar r_V;
7d8d0e25Snbeams  CeedScalar r_t;
7d8d0e25Snbeams
7d8d0e25Snbeams  const int tidx = threadIdx.x;
7d8d0e25Snbeams  const int tidy = threadIdx.y;
7d8d0e25Snbeams  const int tidz = threadIdx.z;
7d8d0e25Snbeams  const int blockElem = tidz/BASIS_NCOMP;
7d8d0e25Snbeams  const int elemsPerBlock = blockDim.z/BASIS_NCOMP;
7d8d0e25Snbeams  const int comp = tidz%BASIS_NCOMP;
7d8d0e25Snbeams
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*elemsPerBlock + blockElem; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*elemsPerBlock) {
7d8d0e25Snbeams    const int comp = tidz%BASIS_NCOMP;
7d8d0e25Snbeams    r_V = 0.0;
7d8d0e25Snbeams    r_t = 0.0;
7d8d0e25Snbeams    if (!transpose) {
7d8d0e25Snbeams      readDofs2d(elem, tidx, tidy, comp, nelem, d_U, r_V);
7d8d0e25Snbeams      ContractX2d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      ContractY2d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      writeQuads2d(elem, tidx, tidy, comp, 0, nelem, r_V, d_V);
7d8d0e25Snbeams    } else {
7d8d0e25Snbeams      readQuads2d(elem, tidx, tidy, comp, 0, nelem, d_U, r_V);
7d8d0e25Snbeams      ContractTransposeY2d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      ContractTransposeX2d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      writeDofs2d(elem, tidx, tidy, comp, nelem, r_V, d_V);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D derivatives at quadrature points
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void grad2d(const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                              const CeedScalar *c_B, const CeedScalar *c_G,
7d8d0e25Snbeams                              const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                              CeedScalar *__restrict__ d_V, CeedScalar *slice) {
7d8d0e25Snbeams  CeedScalar r_U;
7d8d0e25Snbeams  CeedScalar r_V;
7d8d0e25Snbeams  CeedScalar r_t;
7d8d0e25Snbeams
7d8d0e25Snbeams  const int tidx = threadIdx.x;
7d8d0e25Snbeams  const int tidy = threadIdx.y;
7d8d0e25Snbeams  const int tidz = threadIdx.z;
7d8d0e25Snbeams  const int blockElem = tidz/BASIS_NCOMP;
7d8d0e25Snbeams  const int elemsPerBlock = blockDim.z/BASIS_NCOMP;
7d8d0e25Snbeams  const int comp = tidz%BASIS_NCOMP;
7d8d0e25Snbeams  int dim;
7d8d0e25Snbeams
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*elemsPerBlock + blockElem; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*elemsPerBlock) {
7d8d0e25Snbeams    if (!transpose) {
7d8d0e25Snbeams      readDofs2d(elem, tidx, tidy, comp, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractX2d(slice, tidx, tidy, tidz, r_U, c_G, r_t);
7d8d0e25Snbeams      ContractY2d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      dim = 0;
7d8d0e25Snbeams      writeQuads2d(elem, tidx, tidy, comp, dim, nelem, r_V, d_V);
7d8d0e25Snbeams      ContractX2d(slice, tidx, tidy, tidz, r_U, c_B, r_t);
7d8d0e25Snbeams      ContractY2d(slice, tidx, tidy, tidz, r_t, c_G, r_V);
7d8d0e25Snbeams      dim = 1;
7d8d0e25Snbeams      writeQuads2d(elem, tidx, tidy, comp, dim, nelem, r_V, d_V);
7d8d0e25Snbeams    } else {
7d8d0e25Snbeams      dim = 0;
7d8d0e25Snbeams      readQuads2d(elem, tidx, tidy, comp, dim, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractTransposeY2d(slice, tidx, tidy, tidz, r_U, c_B, r_t);
7d8d0e25Snbeams      ContractTransposeX2d(slice, tidx, tidy, tidz, r_t, c_G, r_V);
7d8d0e25Snbeams      dim = 1;
7d8d0e25Snbeams      readQuads2d(elem, tidx, tidy, comp, dim, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractTransposeY2d(slice, tidx, tidy, tidz, r_U, c_G, r_t);
7d8d0e25Snbeams      ContractTransposeX2d(slice, tidx, tidy, tidz, r_t, c_B, r_U);
7d8d0e25Snbeams      r_V += r_U;
7d8d0e25Snbeams      writeDofs2d(elem, tidx, tidy, comp, nelem, r_V, d_V);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 2D quadrature weights
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams__device__ void weight2d(const CeedInt nelem, const CeedScalar *qweight1d,
7d8d0e25Snbeams                         CeedScalar *w) {
7d8d0e25Snbeams  const int i = threadIdx.x;
7d8d0e25Snbeams  const int j = threadIdx.y;
7d8d0e25Snbeams  const CeedScalar weight = qweight1d[i]*qweight1d[j];
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*blockDim.z) {
7d8d0e25Snbeams    const int ind = elem*Q1D*Q1D + i + j*Q1D;
7d8d0e25Snbeams    w[ind] = weight;
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Read DoFs
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void readDofs3d(const int elem, const int tidx,
7d8d0e25Snbeams                                  const int tidy, const int comp,
7d8d0e25Snbeams                                  const int nelem, const CeedScalar *d_U,
7d8d0e25Snbeams                                  CeedScalar *r_U) {
7d8d0e25Snbeams  for (int i = 0; i < P1D; i++)
7d8d0e25Snbeams    r_U[i] = (tidx < P1D && tidy < P1D) ?
7d8d0e25Snbeams              d_U[tidx + tidy*P1D + i*P1D*P1D + elem*P1D*P1D*P1D +
7d8d0e25Snbeams                  comp*P1D*P1D*P1D*nelem] : 0.0;
7d8d0e25Snbeams  for (int i = P1D; i < Q1D; i++)
7d8d0e25Snbeams    r_U[i] = 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Write DoFs
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void writeDofs3d(const int elem, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int comp,
7d8d0e25Snbeams                                   const int nelem, const CeedScalar *r_V,
7d8d0e25Snbeams                                   CeedScalar *d_V) {
7d8d0e25Snbeams  if (tidx < P1D && tidy < P1D) {
7d8d0e25Snbeams    for (int i = 0; i < P1D; i++)
7d8d0e25Snbeams      d_V[tidx + tidy*P1D + i*P1D*P1D + elem*P1D*P1D*P1D +
7d8d0e25Snbeams          comp*P1D*P1D*P1D*nelem] = r_V[i];
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Read quadrature point data
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void readQuads3d(const int elem, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int comp,
7d8d0e25Snbeams                                   const int dim, const int nelem,
7d8d0e25Snbeams                                   const CeedScalar *d_U, CeedScalar *r_U) {
7d8d0e25Snbeams  for (int i = 0; i < Q1D; i++)
7d8d0e25Snbeams    r_U[i] = (tidx < Q1D && tidy < Q1D) ?
7d8d0e25Snbeams              d_U[tidx + tidy*Q1D + i*Q1D*Q1D + elem*Q1D*Q1D*Q1D +
7d8d0e25Snbeams              comp*Q1D*Q1D*Q1D*nelem + dim*BASIS_NCOMP*nelem*Q1D*Q1D*Q1D] : 0.0;
7d8d0e25Snbeams  for (int i = Q1D; i < P1D; i++)
7d8d0e25Snbeams    r_U[i] = 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Write quadrature point data
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void writeQuads3d(const int elem, const int tidx,
7d8d0e25Snbeams                                    const int tidy, const int comp,
7d8d0e25Snbeams                                    const int dim, const int nelem,
7d8d0e25Snbeams                                    const CeedScalar *r_V, CeedScalar *d_V) {
7d8d0e25Snbeams  if (tidx < Q1D && tidy < Q1D) {
7d8d0e25Snbeams    for (int i = 0; i < Q1D; i++)
7d8d0e25Snbeams      d_V[tidx + tidy*Q1D + i*Q1D*Q1D + elem*Q1D*Q1D*Q1D + comp*Q1D*Q1D*Q1D*nelem +
7d8d0e25Snbeams          dim*BASIS_NCOMP*nelem*Q1D*Q1D*Q1D] = r_V[i];
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D tensor contract x
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractX3d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz,
7d8d0e25Snbeams                                   const CeedScalar *U,
7d8d0e25Snbeams                                   const CeedScalar *B,
7d8d0e25Snbeams                                   CeedScalar *V) {
7d8d0e25Snbeams  for (int k = 0; k < P1D; ++k) {
7d8d0e25Snbeams    slice[tidx + tidy*T1D + tidz*T1D*T1D] = U[k];
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams    if (tidx < Q1D && tidy < P1D)
7d8d0e25Snbeams      for (int i = 0; i < P1D; ++i)
7d8d0e25Snbeams        V[k] += B[i + tidx*P1D] * slice[i + tidy*T1D + tidz*T1D*T1D]; // Contract x direction
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D tensor contract y
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractY3d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz,
7d8d0e25Snbeams                                   const CeedScalar *U,
7d8d0e25Snbeams                                   const CeedScalar *B,
7d8d0e25Snbeams                                   CeedScalar *V) {
7d8d0e25Snbeams  for (int k = 0; k < P1D; ++k) {
7d8d0e25Snbeams    slice[tidx + tidy*T1D + tidz*T1D*T1D] = U[k];
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams    if (tidx < Q1D && tidy < Q1D)
7d8d0e25Snbeams      for (int i = 0; i < P1D; ++i)
7d8d0e25Snbeams        V[k] += B[i + tidy*P1D] * slice[tidx + i*T1D + tidz*T1D*T1D]; // Contract y direction
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D tensor contract z
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractZ3d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                   const int tidy, const int tidz,
7d8d0e25Snbeams                                   const CeedScalar *U,
7d8d0e25Snbeams                                   const CeedScalar *B,
7d8d0e25Snbeams                                   CeedScalar *V) {
7d8d0e25Snbeams  for (int k = 0; k < Q1D; ++k) {
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams    if (tidx < Q1D && tidy < Q1D)
7d8d0e25Snbeams      for (int i = 0; i < P1D; ++i)
7d8d0e25Snbeams        V[k] += B[i + k*P1D] * U[i]; // Contract z direction
7d8d0e25Snbeams  }
7d8d0e25Snbeams  for (int k = Q1D; k < P1D; ++k)
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D transpose tensor contract z
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractTransposeZ3d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                            const int tidy, const int tidz,
7d8d0e25Snbeams                                            const CeedScalar *U,
7d8d0e25Snbeams                                            const CeedScalar *B,
7d8d0e25Snbeams                                            CeedScalar *V) {
7d8d0e25Snbeams  for (int k = 0; k < P1D; ++k) {
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams    if (tidx < Q1D && tidy < Q1D)
7d8d0e25Snbeams      for (int i = 0; i < Q1D; ++i)
7d8d0e25Snbeams        V[k] += B[k + i*P1D] * U[i]; // Contract z direction
7d8d0e25Snbeams  }
7d8d0e25Snbeams  for (int k = P1D; k < Q1D; ++k)
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D transpose tensor contract y
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractTransposeY3d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                            const int tidy, const int tidz,
7d8d0e25Snbeams                                            const CeedScalar *U,
7d8d0e25Snbeams                                            const CeedScalar *B,
7d8d0e25Snbeams                                            CeedScalar *V) {
7d8d0e25Snbeams  for (int k = 0; k < P1D; ++k) {
7d8d0e25Snbeams    slice[tidx + tidy*T1D + tidz*T1D*T1D] = U[k];
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams    if (tidx < Q1D && tidy < P1D)
7d8d0e25Snbeams      for (int i = 0; i < Q1D; ++i)
7d8d0e25Snbeams        V[k] += B[tidy + i*P1D] * slice[tidx + i*T1D + tidz*T1D*T1D]; // Contract y direction
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D transpose tensor contract x
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void ContractTransposeX3d(CeedScalar *slice, const int tidx,
7d8d0e25Snbeams                                            const int tidy, const int tidz,
7d8d0e25Snbeams                                            const CeedScalar *U,
7d8d0e25Snbeams                                            const CeedScalar *B,
7d8d0e25Snbeams                                            CeedScalar *V) {
7d8d0e25Snbeams  for (int k = 0; k < P1D; ++k) {
7d8d0e25Snbeams    slice[tidx + tidy*T1D + tidz*T1D*T1D] = U[k];
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams    V[k] = 0.0;
7d8d0e25Snbeams    if (tidx < P1D && tidy < P1D)
7d8d0e25Snbeams      for (int i = 0; i < Q1D; ++i)
7d8d0e25Snbeams        V[k] += B[tidx + i*P1D] * slice[i + tidy*T1D + tidz*T1D*T1D]; // Contract x direction
7d8d0e25Snbeams    __syncthreads();
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D interpolate to quadrature points
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void interp3d(const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                                const CeedScalar *c_B,
7d8d0e25Snbeams                                const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                                CeedScalar *__restrict__ d_V,
7d8d0e25Snbeams                                CeedScalar *slice) {
7d8d0e25Snbeams  CeedScalar r_V[T1D];
7d8d0e25Snbeams  CeedScalar r_t[T1D];
7d8d0e25Snbeams
7d8d0e25Snbeams  const int tidx = threadIdx.x;
7d8d0e25Snbeams  const int tidy = threadIdx.y;
7d8d0e25Snbeams  const int tidz = threadIdx.z;
7d8d0e25Snbeams  const int blockElem = tidz/BASIS_NCOMP;
7d8d0e25Snbeams  const int elemsPerBlock = blockDim.z/BASIS_NCOMP;
7d8d0e25Snbeams  const int comp = tidz%BASIS_NCOMP;
7d8d0e25Snbeams
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*elemsPerBlock + blockElem; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*elemsPerBlock) {
7d8d0e25Snbeams    for (int i = 0; i < T1D; ++i) {
7d8d0e25Snbeams      r_V[i] = 0.0;
7d8d0e25Snbeams      r_t[i] = 0.0;
7d8d0e25Snbeams    }
7d8d0e25Snbeams    if (!transpose) {
7d8d0e25Snbeams      readDofs3d(elem, tidx, tidy, comp, nelem, d_U, r_V);
7d8d0e25Snbeams      ContractX3d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      ContractY3d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      ContractZ3d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      writeQuads3d(elem, tidx, tidy, comp, 0, nelem, r_t, d_V);
7d8d0e25Snbeams    } else {
7d8d0e25Snbeams      readQuads3d(elem, tidx, tidy, comp, 0, nelem, d_U, r_V);
7d8d0e25Snbeams      ContractTransposeZ3d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      ContractTransposeY3d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      ContractTransposeX3d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      writeDofs3d(elem, tidx, tidy, comp, nelem, r_t, d_V);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D derivatives at quadrature points
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsinline __device__ void grad3d(const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                              const CeedScalar *c_B, const CeedScalar *c_G,
7d8d0e25Snbeams                              const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                              CeedScalar *__restrict__ d_V,
7d8d0e25Snbeams                              CeedScalar *slice) {
7d8d0e25Snbeams  // Use P1D for one of these
7d8d0e25Snbeams  CeedScalar r_U[T1D];
7d8d0e25Snbeams  CeedScalar r_V[T1D];
7d8d0e25Snbeams  CeedScalar r_t[T1D];
7d8d0e25Snbeams
7d8d0e25Snbeams  const int tidx = threadIdx.x;
7d8d0e25Snbeams  const int tidy = threadIdx.y;
7d8d0e25Snbeams  const int tidz = threadIdx.z;
7d8d0e25Snbeams  const int blockElem = tidz/BASIS_NCOMP;
7d8d0e25Snbeams  const int elemsPerBlock = blockDim.z/BASIS_NCOMP;
7d8d0e25Snbeams  const int comp = tidz%BASIS_NCOMP;
7d8d0e25Snbeams  int dim;
7d8d0e25Snbeams
7d8d0e25Snbeams  for (CeedInt elem = blockIdx.x*elemsPerBlock + blockElem; elem < nelem;
7d8d0e25Snbeams       elem += gridDim.x*elemsPerBlock) {
7d8d0e25Snbeams    for (int i = 0; i < T1D; ++i) {
7d8d0e25Snbeams      r_U[i] = 0.0;
7d8d0e25Snbeams      r_V[i] = 0.0;
7d8d0e25Snbeams      r_t[i] = 0.0;
7d8d0e25Snbeams    }
7d8d0e25Snbeams    if (!transpose) {
7d8d0e25Snbeams      readDofs3d(elem, tidx, tidy, comp, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractX3d(slice, tidx, tidy, tidz, r_U, c_G, r_V);
7d8d0e25Snbeams      ContractY3d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      ContractZ3d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      dim = 0;
7d8d0e25Snbeams      writeQuads3d(elem, tidx, tidy, comp, dim, nelem, r_V, d_V);
7d8d0e25Snbeams      ContractX3d(slice, tidx, tidy, tidz, r_U, c_B, r_V);
7d8d0e25Snbeams      ContractY3d(slice, tidx, tidy, tidz, r_V, c_G, r_t);
7d8d0e25Snbeams      ContractZ3d(slice, tidx, tidy, tidz, r_t, c_B, r_V);
7d8d0e25Snbeams      dim = 1;
7d8d0e25Snbeams      writeQuads3d(elem, tidx, tidy, comp, dim, nelem, r_V, d_V);
7d8d0e25Snbeams      ContractX3d(slice, tidx, tidy, tidz, r_U, c_B, r_V);
7d8d0e25Snbeams      ContractY3d(slice, tidx, tidy, tidz, r_V, c_B, r_t);
7d8d0e25Snbeams      ContractZ3d(slice, tidx, tidy, tidz, r_t, c_G, r_V);
7d8d0e25Snbeams      dim = 2;
7d8d0e25Snbeams      writeQuads3d(elem, tidx, tidy, comp, dim, nelem, r_V, d_V);
7d8d0e25Snbeams    } else {
7d8d0e25Snbeams      dim = 0;
7d8d0e25Snbeams      readQuads3d(elem, tidx, tidy, comp, dim, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractTransposeZ3d(slice, tidx, tidy, tidz, r_U, c_B, r_t);
7d8d0e25Snbeams      ContractTransposeY3d(slice, tidx, tidy, tidz, r_t, c_B, r_U);
7d8d0e25Snbeams      ContractTransposeX3d(slice, tidx, tidy, tidz, r_U, c_G, r_V);
7d8d0e25Snbeams      dim = 1;
7d8d0e25Snbeams      readQuads3d(elem, tidx, tidy, comp, dim, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractTransposeZ3d(slice, tidx, tidy, tidz, r_U, c_B, r_t);
7d8d0e25Snbeams      ContractTransposeY3d(slice, tidx, tidy, tidz, r_t, c_G, r_U);
7d8d0e25Snbeams      ContractTransposeX3d(slice, tidx, tidy, tidz, r_U, c_B, r_t);
7d8d0e25Snbeams      add(r_V, r_t);
7d8d0e25Snbeams      dim = 2;
7d8d0e25Snbeams      readQuads3d(elem, tidx, tidy, comp, dim, nelem, d_U, r_U);
7d8d0e25Snbeams      ContractTransposeZ3d(slice, tidx, tidy, tidz, r_U, c_G, r_t);
7d8d0e25Snbeams      ContractTransposeY3d(slice, tidx, tidy, tidz, r_t, c_B, r_U);
7d8d0e25Snbeams      ContractTransposeX3d(slice, tidx, tidy, tidz, r_U, c_B, r_t);
7d8d0e25Snbeams      add(r_V, r_t);
7d8d0e25Snbeams      writeDofs3d(elem, tidx, tidy, comp, nelem, r_V, d_V);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// 3D quadrature weights
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams__device__ void weight3d(const CeedInt nelem, const CeedScalar *qweight1d,
7d8d0e25Snbeams                         CeedScalar *w) {
7d8d0e25Snbeams  const int i = threadIdx.x;
7d8d0e25Snbeams  const int j = threadIdx.y;
7d8d0e25Snbeams  const int k = threadIdx.z;
7d8d0e25Snbeams  const CeedScalar weight = qweight1d[i]*qweight1d[j]*qweight1d[k];
7d8d0e25Snbeams  for (int e = blockIdx.x; e < nelem; e += gridDim.x) {
7d8d0e25Snbeams    const int ind = e*Q1D*Q1D*Q1D + i + j*Q1D + k*Q1D*Q1D;
7d8d0e25Snbeams    w[ind] = weight;
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Basis kernels
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Interp kernel by dim
7d8d0e25Snbeams//------------------------------------------------------------------------------
*9e31c45bSnbeamsextern "C" __launch_bounds__(INTERP_BLKSIZE) __global__ void interp(
*9e31c45bSnbeams                                  const CeedInt nelem, const int transpose,
7d8d0e25Snbeams                                  const CeedScalar *c_B,
7d8d0e25Snbeams                                  const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                                  CeedScalar *__restrict__ d_V) {
7d8d0e25Snbeams  HIP_DYNAMIC_SHARED( double, slice)
7d8d0e25Snbeams  if (BASIS_DIM == 1) {
7d8d0e25Snbeams    interp1d(nelem, transpose, c_B, d_U, d_V, slice);
7d8d0e25Snbeams  } else if (BASIS_DIM == 2) {
7d8d0e25Snbeams    interp2d(nelem, transpose, c_B, d_U, d_V, slice);
7d8d0e25Snbeams  } else if (BASIS_DIM == 3) {
7d8d0e25Snbeams    interp3d(nelem, transpose, c_B, d_U, d_V, slice);
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Grad kernel by dim
7d8d0e25Snbeams//------------------------------------------------------------------------------
*9e31c45bSnbeamsextern "C" __launch_bounds__(GRAD_BLKSIZE) __global__ void grad(const CeedInt nelem,
*9e31c45bSnbeams                                const int transpose,
7d8d0e25Snbeams                                const CeedScalar *c_B, const CeedScalar *c_G,
7d8d0e25Snbeams                                const CeedScalar *__restrict__ d_U,
7d8d0e25Snbeams                                CeedScalar *__restrict__ d_V) {
7d8d0e25Snbeams  HIP_DYNAMIC_SHARED( double, slice)
7d8d0e25Snbeams  if (BASIS_DIM == 1) {
7d8d0e25Snbeams    grad1d(nelem, transpose, c_B, c_G, d_U, d_V, slice);
7d8d0e25Snbeams  } else if (BASIS_DIM == 2) {
7d8d0e25Snbeams    grad2d(nelem, transpose, c_B, c_G, d_U, d_V, slice);
7d8d0e25Snbeams  } else if (BASIS_DIM == 3) {
7d8d0e25Snbeams    grad3d(nelem, transpose, c_B, c_G, d_U, d_V, slice);
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Weight kernels by dim
7d8d0e25Snbeams//------------------------------------------------------------------------------
*9e31c45bSnbeamsextern "C" __launch_bounds__(WEIGHT_BLKSIZE) __global__ void weight(const CeedInt nelem,
7d8d0e25Snbeams                                  const CeedScalar *__restrict__ qweight1d,
7d8d0e25Snbeams                                  CeedScalar *__restrict__ v) {
7d8d0e25Snbeams  if (BASIS_DIM == 1) {
7d8d0e25Snbeams    weight1d(nelem, qweight1d, v);
7d8d0e25Snbeams  } else if (BASIS_DIM == 2) {
7d8d0e25Snbeams    weight2d(nelem, qweight1d, v);
7d8d0e25Snbeams  } else if (BASIS_DIM == 3) {
7d8d0e25Snbeams    weight3d(nelem, qweight1d, v);
7d8d0e25Snbeams  }
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams);
7d8d0e25Snbeams// *INDENT-ON*
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
*9e31c45bSnbeams// Compute a block size based on required minimum threads
*9e31c45bSnbeams//------------------------------------------------------------------------------
*9e31c45bSnbeamsstatic CeedInt ComputeBlockSizeFromRequirement(const CeedInt required) {
*9e31c45bSnbeams  CeedInt maxSize = 1024;    // Max total threads per block
*9e31c45bSnbeams  CeedInt currentSize = 64;  // Start with one group
*9e31c45bSnbeams
*9e31c45bSnbeams  while(currentSize < maxSize) {
*9e31c45bSnbeams    if (currentSize > required)
*9e31c45bSnbeams      break;
*9e31c45bSnbeams    else
*9e31c45bSnbeams      currentSize = currentSize * 2;
*9e31c45bSnbeams  }
*9e31c45bSnbeams  return currentSize;
*9e31c45bSnbeams}
*9e31c45bSnbeams
*9e31c45bSnbeams//------------------------------------------------------------------------------
*9e31c45bSnbeams// Compute required thread block sizes for basis kernels given P, Q, dim, and
*9e31c45bSnbeams// ncomp
*9e31c45bSnbeams//------------------------------------------------------------------------------
*9e31c45bSnbeamsstatic int ComputeBasisThreadBlockSizes(const CeedInt dim, const CeedInt P1d,
*9e31c45bSnbeams                                        const CeedInt Q1d,
*9e31c45bSnbeams                                        const CeedInt ncomp, CeedInt *blksizes) {
*9e31c45bSnbeams
*9e31c45bSnbeams  // Note that this will use the same block sizes for all dimensions when compiling,
*9e31c45bSnbeams  // but as each basis object is defined for a particular dimension, we will never
*9e31c45bSnbeams  // call any kernels except the ones for the dimension for which we have computed the
*9e31c45bSnbeams  // block sizes.
*9e31c45bSnbeams  const CeedInt thread1d = CeedIntMax(P1d, Q1d);
*9e31c45bSnbeams  switch (dim) {
*9e31c45bSnbeams  case 1: {
*9e31c45bSnbeams    // Interp kernels:
*9e31c45bSnbeams    blksizes[0] = 256;
*9e31c45bSnbeams
*9e31c45bSnbeams    // Grad kernels:
*9e31c45bSnbeams    blksizes[1] = 256;
*9e31c45bSnbeams
*9e31c45bSnbeams    // Weight kernels:
*9e31c45bSnbeams    blksizes[2] = 256;
*9e31c45bSnbeams
*9e31c45bSnbeams  } break;
*9e31c45bSnbeams  case 2: {
*9e31c45bSnbeams    // Interp kernels:
*9e31c45bSnbeams    CeedInt required = thread1d * thread1d * ncomp;
*9e31c45bSnbeams    blksizes[0]  = ComputeBlockSizeFromRequirement(required);
*9e31c45bSnbeams
*9e31c45bSnbeams    // Grad kernels: currently use same required minimum threads
*9e31c45bSnbeams    blksizes[1]  = ComputeBlockSizeFromRequirement(required);
*9e31c45bSnbeams
*9e31c45bSnbeams    // Weight kernels:
*9e31c45bSnbeams    required = CeedIntMax(64, Q1d * Q1d);
*9e31c45bSnbeams    blksizes[2]  = ComputeBlockSizeFromRequirement(required);
*9e31c45bSnbeams
*9e31c45bSnbeams  } break;
*9e31c45bSnbeams  case 3: {
*9e31c45bSnbeams    // Interp kernels:
*9e31c45bSnbeams    CeedInt required = thread1d * thread1d * ncomp;
*9e31c45bSnbeams    blksizes[0]  = ComputeBlockSizeFromRequirement(required);
*9e31c45bSnbeams
*9e31c45bSnbeams    // Grad kernels: currently use same required minimum threads
*9e31c45bSnbeams    blksizes[1]  = ComputeBlockSizeFromRequirement(required);
*9e31c45bSnbeams
*9e31c45bSnbeams    // Weight kernels:
*9e31c45bSnbeams    required = Q1d * Q1d * Q1d;
*9e31c45bSnbeams    blksizes[2]  = ComputeBlockSizeFromRequirement(required);
*9e31c45bSnbeams  }
*9e31c45bSnbeams  }
*9e31c45bSnbeams
*9e31c45bSnbeams  return 0;
*9e31c45bSnbeams}
*9e31c45bSnbeams
*9e31c45bSnbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Device initalization
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsint CeedHipInitInterp(CeedScalar *d_B, CeedInt P1d, CeedInt Q1d,
7d8d0e25Snbeams                      CeedScalar **c_B);
7d8d0e25Snbeamsint CeedHipInitInterpGrad(CeedScalar *d_B, CeedScalar *d_G, CeedInt P1d,
7d8d0e25Snbeams                          CeedInt Q1d, CeedScalar **c_B_ptr,
7d8d0e25Snbeams                          CeedScalar **c_G_ptr);
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Apply basis
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsint CeedBasisApplyTensor_Hip_shared(CeedBasis basis, const CeedInt nelem,
7d8d0e25Snbeams                                    CeedTransposeMode tmode,
7d8d0e25Snbeams                                    CeedEvalMode emode, CeedVector u,
7d8d0e25Snbeams                                    CeedVector v) {
7d8d0e25Snbeams  int ierr;
7d8d0e25Snbeams  Ceed ceed;
7d8d0e25Snbeams  ierr = CeedBasisGetCeed(basis, &ceed); CeedChk(ierr);
7d8d0e25Snbeams  Ceed_Hip_shared *ceed_Hip;
7d8d0e25Snbeams  CeedGetData(ceed, &ceed_Hip); CeedChk(ierr);
7d8d0e25Snbeams  CeedBasis_Hip_shared *data;
7d8d0e25Snbeams  CeedBasisGetData(basis, &data); CeedChk(ierr);
7d8d0e25Snbeams  const CeedInt transpose = tmode == CEED_TRANSPOSE;
7d8d0e25Snbeams  CeedInt dim, ncomp;
7d8d0e25Snbeams  ierr = CeedBasisGetDimension(basis, &dim); CeedChk(ierr);
7d8d0e25Snbeams  ierr = CeedBasisGetNumComponents(basis, &ncomp); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  // Read vectors
7d8d0e25Snbeams  const CeedScalar *d_u;
7d8d0e25Snbeams  CeedScalar *d_v;
7d8d0e25Snbeams  if (emode != CEED_EVAL_WEIGHT) {
7d8d0e25Snbeams    ierr = CeedVectorGetArrayRead(u, CEED_MEM_DEVICE, &d_u); CeedChk(ierr);
7d8d0e25Snbeams  }
7d8d0e25Snbeams  ierr = CeedVectorGetArray(v, CEED_MEM_DEVICE, &d_v); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  // Clear v for transpose mode
7d8d0e25Snbeams  if (tmode == CEED_TRANSPOSE) {
7d8d0e25Snbeams    CeedInt length;
7d8d0e25Snbeams    ierr = CeedVectorGetLength(v, &length); CeedChk(ierr);
7d8d0e25Snbeams    ierr = hipMemset(d_v, 0, length * sizeof(CeedScalar)); CeedChk(ierr);
7d8d0e25Snbeams  }
7d8d0e25Snbeams
7d8d0e25Snbeams  // Apply basis operation
7d8d0e25Snbeams  switch (emode) {
7d8d0e25Snbeams  case CEED_EVAL_INTERP: {
7d8d0e25Snbeams    CeedInt P1d, Q1d;
*9e31c45bSnbeams    CeedInt blksize = data->blksizes[0];
7d8d0e25Snbeams    ierr = CeedBasisGetNumNodes1D(basis, &P1d); CeedChk(ierr);
7d8d0e25Snbeams    ierr = CeedBasisGetNumQuadraturePoints1D(basis, &Q1d); CeedChk(ierr);
7d8d0e25Snbeams    CeedInt thread1d = CeedIntMax(Q1d, P1d);
7d8d0e25Snbeams    ierr = CeedHipInitInterp(data->d_interp1d, P1d, Q1d, &data->c_B);
7d8d0e25Snbeams    CeedChk(ierr);
7d8d0e25Snbeams    void *interpargs[] = {(void *) &nelem, (void *) &transpose, &data->c_B,
7d8d0e25Snbeams                          &d_u, &d_v
7d8d0e25Snbeams                         };
7d8d0e25Snbeams    if (dim == 1) {
e7ea6884Snbeams      CeedInt elemsPerBlock = 64*thread1d > 256? 256/thread1d : 64;
7d8d0e25Snbeams      elemsPerBlock = elemsPerBlock>0?elemsPerBlock:1;
7d8d0e25Snbeams      CeedInt grid = nelem/elemsPerBlock + ( (nelem/elemsPerBlock*elemsPerBlock<nelem)
7d8d0e25Snbeams                                             ? 1 : 0 );
7d8d0e25Snbeams      CeedInt sharedMem = elemsPerBlock*thread1d*sizeof(CeedScalar);
7d8d0e25Snbeams      ierr = CeedRunKernelDimSharedHip(ceed, data->interp, grid, thread1d, 1,
7d8d0e25Snbeams                                       elemsPerBlock, sharedMem,
7d8d0e25Snbeams                                       interpargs); CeedChk(ierr);
7d8d0e25Snbeams    } else if (dim == 2) {
*9e31c45bSnbeams      // Check if required threads is small enough to do multiple elems
*9e31c45bSnbeams      const CeedInt elemsPerBlock = CeedIntMax(blksize/(thread1d*thread1d*ncomp), 1);
7d8d0e25Snbeams      CeedInt grid = nelem/elemsPerBlock + ( (nelem/elemsPerBlock*elemsPerBlock<nelem)
7d8d0e25Snbeams                                             ? 1 : 0 );
7d8d0e25Snbeams      CeedInt sharedMem = ncomp*elemsPerBlock*thread1d*thread1d*sizeof(CeedScalar);
7d8d0e25Snbeams      ierr = CeedRunKernelDimSharedHip(ceed, data->interp, grid, thread1d, thread1d,
7d8d0e25Snbeams                                       ncomp*elemsPerBlock, sharedMem,
7d8d0e25Snbeams                                       interpargs); CeedChk(ierr);
7d8d0e25Snbeams    } else if (dim == 3) {
7d8d0e25Snbeams      CeedInt elemsPerBlock = 1;
7d8d0e25Snbeams      CeedInt grid = nelem/elemsPerBlock + ( (nelem/elemsPerBlock*elemsPerBlock<nelem)
7d8d0e25Snbeams                                             ? 1 : 0 );
7d8d0e25Snbeams      CeedInt sharedMem = ncomp*elemsPerBlock*thread1d*thread1d*sizeof(CeedScalar);
7d8d0e25Snbeams      ierr = CeedRunKernelDimSharedHip(ceed, data->interp, grid, thread1d, thread1d,
7d8d0e25Snbeams                                       ncomp*elemsPerBlock, sharedMem,
7d8d0e25Snbeams                                       interpargs); CeedChk(ierr);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  } break;
7d8d0e25Snbeams  case CEED_EVAL_GRAD: {
7d8d0e25Snbeams    CeedInt P1d, Q1d;
*9e31c45bSnbeams    CeedInt blksize = data->blksizes[1];
7d8d0e25Snbeams    ierr = CeedBasisGetNumNodes1D(basis, &P1d); CeedChk(ierr);
7d8d0e25Snbeams    ierr = CeedBasisGetNumQuadraturePoints1D(basis, &Q1d); CeedChk(ierr);
7d8d0e25Snbeams    CeedInt thread1d = CeedIntMax(Q1d, P1d);
7d8d0e25Snbeams    ierr = CeedHipInitInterpGrad(data->d_interp1d, data->d_grad1d, P1d,
7d8d0e25Snbeams                                 Q1d, &data->c_B, &data->c_G);
7d8d0e25Snbeams    CeedChk(ierr);
7d8d0e25Snbeams    void *gradargs[] = {(void *) &nelem, (void *) &transpose, &data->c_B,
7d8d0e25Snbeams                        &data->c_G, &d_u, &d_v
7d8d0e25Snbeams                       };
7d8d0e25Snbeams    if (dim == 1) {
e7ea6884Snbeams      CeedInt elemsPerBlock = 64*thread1d > 256? 256/thread1d : 64;
7d8d0e25Snbeams      elemsPerBlock = elemsPerBlock>0?elemsPerBlock:1;
7d8d0e25Snbeams      CeedInt grid = nelem/elemsPerBlock + ( (nelem/elemsPerBlock*elemsPerBlock<nelem)
7d8d0e25Snbeams                                             ? 1 : 0 );
7d8d0e25Snbeams      CeedInt sharedMem = elemsPerBlock*thread1d*sizeof(CeedScalar);
7d8d0e25Snbeams      ierr = CeedRunKernelDimSharedHip(ceed, data->grad, grid, thread1d, 1,
7d8d0e25Snbeams                                       elemsPerBlock, sharedMem, gradargs);
7d8d0e25Snbeams      CeedChk(ierr);
7d8d0e25Snbeams    } else if (dim == 2) {
*9e31c45bSnbeams      // Check if required threads is small enough to do multiple elems
*9e31c45bSnbeams      const CeedInt elemsPerBlock = CeedIntMax(blksize/(thread1d*thread1d*ncomp), 1);
7d8d0e25Snbeams      CeedInt grid = nelem/elemsPerBlock + ( (nelem/elemsPerBlock*elemsPerBlock<nelem)
7d8d0e25Snbeams                                             ? 1 : 0 );
7d8d0e25Snbeams      CeedInt sharedMem = ncomp*elemsPerBlock*thread1d*thread1d*sizeof(CeedScalar);
7d8d0e25Snbeams      ierr = CeedRunKernelDimSharedHip(ceed, data->grad, grid, thread1d, thread1d,
7d8d0e25Snbeams                                       ncomp*elemsPerBlock, sharedMem,
7d8d0e25Snbeams                                       gradargs); CeedChk(ierr);
7d8d0e25Snbeams    } else if (dim == 3) {
7d8d0e25Snbeams      CeedInt elemsPerBlock = 1;
7d8d0e25Snbeams      CeedInt grid = nelem/elemsPerBlock + ( (nelem/elemsPerBlock*elemsPerBlock<nelem)
7d8d0e25Snbeams                                             ? 1 : 0 );
7d8d0e25Snbeams      CeedInt sharedMem = ncomp*elemsPerBlock*thread1d*thread1d*sizeof(CeedScalar);
7d8d0e25Snbeams      ierr = CeedRunKernelDimSharedHip(ceed, data->grad, grid, thread1d, thread1d,
7d8d0e25Snbeams                                       ncomp*elemsPerBlock, sharedMem,
7d8d0e25Snbeams                                       gradargs); CeedChk(ierr);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  } break;
7d8d0e25Snbeams  case CEED_EVAL_WEIGHT: {
7d8d0e25Snbeams    CeedInt Q1d;
*9e31c45bSnbeams    CeedInt blksize = data->blksizes[2];
7d8d0e25Snbeams    ierr = CeedBasisGetNumQuadraturePoints1D(basis, &Q1d); CeedChk(ierr);
7d8d0e25Snbeams    void *weightargs[] = {(void *) &nelem, (void *) &data->d_qweight1d, &d_v};
7d8d0e25Snbeams    if (dim == 1) {
*9e31c45bSnbeams      const CeedInt optElems = blksize/Q1d;
7d8d0e25Snbeams      const CeedInt elemsPerBlock = optElems>0?optElems:1;
7d8d0e25Snbeams      const CeedInt gridsize = nelem/elemsPerBlock + ( (
7d8d0e25Snbeams                                 nelem/elemsPerBlock*elemsPerBlock<nelem)? 1 : 0 );
7d8d0e25Snbeams      ierr = CeedRunKernelDimHip(ceed, data->weight, gridsize, Q1d,
7d8d0e25Snbeams                                 elemsPerBlock, 1, weightargs);
7d8d0e25Snbeams      CeedChk(ierr);
7d8d0e25Snbeams    } else if (dim == 2) {
*9e31c45bSnbeams      const CeedInt optElems = blksize/(Q1d*Q1d);
7d8d0e25Snbeams      const CeedInt elemsPerBlock = optElems>0?optElems:1;
7d8d0e25Snbeams      const CeedInt gridsize = nelem/elemsPerBlock + ( (
7d8d0e25Snbeams                                 nelem/elemsPerBlock*elemsPerBlock<nelem)? 1 : 0 );
7d8d0e25Snbeams      ierr = CeedRunKernelDimHip(ceed, data->weight, gridsize, Q1d, Q1d,
7d8d0e25Snbeams                                 elemsPerBlock, weightargs);
7d8d0e25Snbeams      CeedChk(ierr);
7d8d0e25Snbeams    } else if (dim == 3) {
7d8d0e25Snbeams      const CeedInt gridsize = nelem;
7d8d0e25Snbeams      ierr = CeedRunKernelDimHip(ceed, data->weight, gridsize, Q1d, Q1d, Q1d,
7d8d0e25Snbeams                                 weightargs);
7d8d0e25Snbeams      CeedChk(ierr);
7d8d0e25Snbeams    }
7d8d0e25Snbeams  } break;
7d8d0e25Snbeams  // LCOV_EXCL_START
7d8d0e25Snbeams  // Evaluate the divergence to/from the quadrature points
7d8d0e25Snbeams  case CEED_EVAL_DIV:
7d8d0e25Snbeams    return CeedError(ceed, 1, "CEED_EVAL_DIV not supported");
7d8d0e25Snbeams  // Evaluate the curl to/from the quadrature points
7d8d0e25Snbeams  case CEED_EVAL_CURL:
7d8d0e25Snbeams    return CeedError(ceed, 1, "CEED_EVAL_CURL not supported");
7d8d0e25Snbeams  // Take no action, BasisApply should not have been called
7d8d0e25Snbeams  case CEED_EVAL_NONE:
7d8d0e25Snbeams    return CeedError(ceed, 1,
7d8d0e25Snbeams                     "CEED_EVAL_NONE does not make sense in this context");
7d8d0e25Snbeams    // LCOV_EXCL_STOP
7d8d0e25Snbeams  }
7d8d0e25Snbeams
7d8d0e25Snbeams  // Restore vectors
7d8d0e25Snbeams  if (emode != CEED_EVAL_WEIGHT) {
7d8d0e25Snbeams    ierr = CeedVectorRestoreArrayRead(u, &d_u); CeedChk(ierr);
7d8d0e25Snbeams  }
7d8d0e25Snbeams  ierr = CeedVectorRestoreArray(v, &d_v); CeedChk(ierr);
7d8d0e25Snbeams  return 0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Destroy basis
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsstatic int CeedBasisDestroy_Hip_shared(CeedBasis basis) {
7d8d0e25Snbeams  int ierr;
7d8d0e25Snbeams  Ceed ceed;
7d8d0e25Snbeams  ierr = CeedBasisGetCeed(basis, &ceed); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  CeedBasis_Hip_shared *data;
7d8d0e25Snbeams  ierr = CeedBasisGetData(basis, &data); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  CeedChk_Hip(ceed, hipModuleUnload(data->module));
7d8d0e25Snbeams
7d8d0e25Snbeams  ierr = hipFree(data->d_qweight1d); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams  ierr = hipFree(data->d_interp1d); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams  ierr = hipFree(data->d_grad1d); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams  ierr = hipFree(data->d_collograd1d); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  ierr = CeedFree(&data); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  return 0;
7d8d0e25Snbeams}
7d8d0e25Snbeams
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeams// Create tensor basis
7d8d0e25Snbeams//------------------------------------------------------------------------------
7d8d0e25Snbeamsint CeedBasisCreateTensorH1_Hip_shared(CeedInt dim, CeedInt P1d, CeedInt Q1d,
7d8d0e25Snbeams                                       const CeedScalar *interp1d,
7d8d0e25Snbeams                                       const CeedScalar *grad1d,
7d8d0e25Snbeams                                       const CeedScalar *qref1d,
7d8d0e25Snbeams                                       const CeedScalar *qweight1d,
7d8d0e25Snbeams                                       CeedBasis basis) {
7d8d0e25Snbeams  int ierr;
7d8d0e25Snbeams  Ceed ceed;
7d8d0e25Snbeams  ierr = CeedBasisGetCeed(basis, &ceed); CeedChk(ierr);
7d8d0e25Snbeams  CeedBasis_Hip_shared *data;
7d8d0e25Snbeams  ierr = CeedCalloc(1, &data); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  // Copy basis data to GPU
7d8d0e25Snbeams  const CeedInt qBytes = Q1d * sizeof(CeedScalar);
7d8d0e25Snbeams  ierr = hipMalloc((void **)&data->d_qweight1d, qBytes); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams  ierr = hipMemcpy(data->d_qweight1d, qweight1d, qBytes,
7d8d0e25Snbeams                   hipMemcpyHostToDevice); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  const CeedInt iBytes = qBytes * P1d;
7d8d0e25Snbeams  ierr = hipMalloc((void **)&data->d_interp1d, iBytes); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams  ierr = hipMemcpy(data->d_interp1d, interp1d, iBytes,
7d8d0e25Snbeams                   hipMemcpyHostToDevice); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  ierr = hipMalloc((void **)&data->d_grad1d, iBytes); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams  ierr = hipMemcpy(data->d_grad1d, grad1d, iBytes,
7d8d0e25Snbeams                   hipMemcpyHostToDevice); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  // Compute collocated gradient and copy to GPU
7d8d0e25Snbeams  data->d_collograd1d = NULL;
7d8d0e25Snbeams  if (dim == 3 && Q1d >= P1d) {
7d8d0e25Snbeams    CeedScalar *collograd1d;
7d8d0e25Snbeams    ierr = CeedMalloc(Q1d*Q1d, &collograd1d); CeedChk(ierr);
7d8d0e25Snbeams    ierr = CeedBasisGetCollocatedGrad(basis, collograd1d); CeedChk(ierr);
7d8d0e25Snbeams    ierr = hipMalloc((void **)&data->d_collograd1d, qBytes * Q1d);
7d8d0e25Snbeams    CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams    ierr = hipMemcpy(data->d_collograd1d, collograd1d, qBytes * Q1d,
7d8d0e25Snbeams                     hipMemcpyHostToDevice); CeedChk_Hip(ceed, ierr);
7d8d0e25Snbeams    ierr = CeedFree(&collograd1d); CeedChk(ierr);
7d8d0e25Snbeams  }
7d8d0e25Snbeams
*9e31c45bSnbeams  // Set number of threads per block for basis kernels
7d8d0e25Snbeams  CeedInt ncomp;
7d8d0e25Snbeams  ierr = CeedBasisGetNumComponents(basis, &ncomp); CeedChk(ierr);
*9e31c45bSnbeams  ierr = ComputeBasisThreadBlockSizes(dim, P1d, Q1d, ncomp, data->blksizes);
*9e31c45bSnbeams  CeedChk(ierr);
*9e31c45bSnbeams
*9e31c45bSnbeams  // Compile basis kernels
*9e31c45bSnbeams  ierr = CeedCompileHip(ceed, kernelsShared, &data->module, 11,
7d8d0e25Snbeams                        "Q1D", Q1d,
7d8d0e25Snbeams                        "P1D", P1d,
7d8d0e25Snbeams                        "T1D", CeedIntMax(Q1d, P1d),
7d8d0e25Snbeams                        "BASIS_BUF_LEN", ncomp * CeedIntPow(Q1d > P1d ?
7d8d0e25Snbeams                            Q1d : P1d, dim),
7d8d0e25Snbeams                        "BASIS_DIM", dim,
7d8d0e25Snbeams                        "BASIS_NCOMP", ncomp,
7d8d0e25Snbeams                        "BASIS_ELEMSIZE", CeedIntPow(P1d, dim),
*9e31c45bSnbeams                        "BASIS_NQPT", CeedIntPow(Q1d, dim),
*9e31c45bSnbeams                        "INTERP_BLKSIZE", data->blksizes[0],
*9e31c45bSnbeams                        "GRAD_BLKSIZE", data->blksizes[1],
*9e31c45bSnbeams                        "WEIGHT_BLKSIZE", data->blksizes[2]
7d8d0e25Snbeams                       ); CeedChk(ierr);
7d8d0e25Snbeams  ierr = CeedGetKernelHip(ceed, data->module, "interp", &data->interp);
7d8d0e25Snbeams  CeedChk(ierr);
7d8d0e25Snbeams  ierr = CeedGetKernelHip(ceed, data->module, "grad", &data->grad);
7d8d0e25Snbeams  CeedChk(ierr);
7d8d0e25Snbeams  ierr = CeedGetKernelHip(ceed, data->module, "weight", &data->weight);
7d8d0e25Snbeams  CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  ierr = CeedBasisSetData(basis, data); CeedChk(ierr);
7d8d0e25Snbeams
7d8d0e25Snbeams  // Register backend functions
7d8d0e25Snbeams  ierr = CeedSetBackendFunction(ceed, "Basis", basis, "Apply",
7d8d0e25Snbeams                                CeedBasisApplyTensor_Hip_shared);
7d8d0e25Snbeams  CeedChk(ierr);
7d8d0e25Snbeams  ierr = CeedSetBackendFunction(ceed, "Basis", basis, "Destroy",
7d8d0e25Snbeams                                CeedBasisDestroy_Hip_shared); CeedChk(ierr);
7d8d0e25Snbeams  return 0;
7d8d0e25Snbeams}
7d8d0e25Snbeams//------------------------------------------------------------------------------