backends/hip-gen/ceed-hip-gen-operator-build.cpp

*7d8d0e25Snbeams// Copyright (c) 2017-2018, Lawrence Livermore National Security, LLC.
*7d8d0e25Snbeams// Produced at the Lawrence Livermore National Laboratory. LLNL-CODE-734707.
*7d8d0e25Snbeams// All Rights reserved. See files LICENSE and NOTICE for details.
*7d8d0e25Snbeams//
*7d8d0e25Snbeams// This file is part of CEED, a collection of benchmarks, miniapps, software
*7d8d0e25Snbeams// libraries and APIs for efficient high-order finite element and spectral
*7d8d0e25Snbeams// element discretizations for exascale applications. For more information and
*7d8d0e25Snbeams// source code availability see http://github.com/ceed.
*7d8d0e25Snbeams//
*7d8d0e25Snbeams// The CEED research is supported by the Exascale Computing Project 17-SC-20-SC,
*7d8d0e25Snbeams// a collaborative effort of two U.S. Department of Energy organizations (Office
*7d8d0e25Snbeams// of Science and the National Nuclear Security Administration) responsible for
*7d8d0e25Snbeams// the planning and preparation of a capable exascale ecosystem, including
*7d8d0e25Snbeams// software, applications, hardware, advanced system engineering and early
*7d8d0e25Snbeams// testbed platforms, in support of the nation's exascale computing imperative.
*7d8d0e25Snbeams#define CEED_DEBUG_COLOR 12
*7d8d0e25Snbeams
*7d8d0e25Snbeams#include "ceed-hip-gen.h"
*7d8d0e25Snbeams#include <iostream>
*7d8d0e25Snbeams#include <sstream>
*7d8d0e25Snbeams#include "../hip-shared/ceed-hip-shared.h"
*7d8d0e25Snbeams#include "../hip/ceed-hip-compile.h"
*7d8d0e25Snbeams
*7d8d0e25Snbeamsstatic const char *atomicAdd = QUOTE(
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// Atomic add, for older CUDA
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams__device__ double atomicAdd(double *address, double val) {
*7d8d0e25Snbeams  unsigned long long int *address_as_ull = (unsigned long long int *)address;
*7d8d0e25Snbeams  unsigned long long int old = *address_as_ull, assumed;
*7d8d0e25Snbeams  do {
*7d8d0e25Snbeams    assumed = old;
*7d8d0e25Snbeams    old =
*7d8d0e25Snbeams      atomicCAS(address_as_ull, assumed,
*7d8d0e25Snbeams                __double_as_longlong(val +
*7d8d0e25Snbeams                                     __longlong_as_double(assumed)));
*7d8d0e25Snbeams    // Note: uses integer comparison to avoid hang in case of NaN
*7d8d0e25Snbeams    // (since NaN != NaN)
*7d8d0e25Snbeams  } while (assumed != old);
*7d8d0e25Snbeams  return __longlong_as_double(old);
*7d8d0e25Snbeams}
*7d8d0e25Snbeams);
*7d8d0e25Snbeams
*7d8d0e25Snbeamsstatic const char *deviceFunctions = QUOTE(
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// Typedefs
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstypedef struct { const CeedScalar* in[16]; CeedScalar* out[16]; } HipFields;
*7d8d0e25Snbeamstypedef struct { CeedInt* in[16]; CeedInt* out[16]; } HipFieldsInt;
*7d8d0e25Snbeams
*7d8d0e25Snbeamstypedef struct {
*7d8d0e25Snbeams  CeedInt tidx;
*7d8d0e25Snbeams  CeedInt tidy;
*7d8d0e25Snbeams  CeedInt tidz;
*7d8d0e25Snbeams  CeedInt tid;
*7d8d0e25Snbeams  CeedScalar* slice;
*7d8d0e25Snbeams} BackendData;
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// Load matrices for basis actions
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int P, int Q>
*7d8d0e25Snbeamsinline __device__ void loadMatrix(BackendData& data, const CeedScalar* d_B, CeedScalar* B) {
*7d8d0e25Snbeams  for (CeedInt i = data.tid; i < P*Q; i += blockDim.x*blockDim.y*blockDim.z)
*7d8d0e25Snbeams    B[i] = d_B[i];
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// L-vector -> E-vector, offsets provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int P1d>
*7d8d0e25Snbeamsinline __device__ void readDofsOffset1d(BackendData& data, const CeedInt nnodes, const CeedInt elem, const CeedInt* indices, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx;
*7d8d0e25Snbeams    const CeedInt ind = indices[node + elem * P1d];
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      r_u[comp] = d_u[ind + COMPSTRIDE * comp];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// L-vector -> E-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void readDofsStrided1d(BackendData& data, const CeedInt elem, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx;
*7d8d0e25Snbeams    const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      r_u[comp] = d_u[ind + comp * STRIDES_COMP];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> L-vector, offsets provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int P1d>
*7d8d0e25Snbeamsinline __device__ void writeDofsOffset1d(BackendData& data, const CeedInt nnodes, const CeedInt elem, const CeedInt* indices, const CeedScalar* r_v, CeedScalar* d_v) {
*7d8d0e25Snbeams  if (data.tidx < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx;
*7d8d0e25Snbeams    const CeedInt ind = indices[node + elem * P1d];
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      atomicAdd(&d_v[ind + COMPSTRIDE * comp], r_v[comp]);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> L-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void writeDofsStrided1d(BackendData& data, const CeedInt elem, const CeedScalar* r_v, CeedScalar* d_v) {
*7d8d0e25Snbeams  if (data.tidx < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx;
*7d8d0e25Snbeams    const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      d_v[ind + comp * STRIDES_COMP] += r_v[comp];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D tensor contraction x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractX1d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  *V = 0.0;
*7d8d0e25Snbeams  if (data.tidx < Q1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams      *V += B[i + data.tidx*P1d] * data.slice[i]; // Contract x direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D transpose tensor contraction x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractTransposeX1d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  *V = 0.0;
*7d8d0e25Snbeams  if (data.tidx < P1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams      *V += B[data.tidx + i*P1d] * data.slice[i]; // Contract x direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D interpolate to quadrature points
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void interp1d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++)
*7d8d0e25Snbeams    ContractX1d<NCOMP, P1d, Q1d>(data, r_U + comp, c_B, r_V + comp);
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D interpolate transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void interpTranspose1d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  for (CeedInt comp=0; comp<NCOMP; comp++)
*7d8d0e25Snbeams    ContractTransposeX1d<NCOMP, P1d, Q1d>(data, r_U + comp, c_B, r_V + comp);
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D derivatives at quadrature points
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void grad1d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++)
*7d8d0e25Snbeams    ContractX1d<NCOMP, P1d, Q1d>(data, r_U + comp, c_G, r_V + comp);
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D derivatives transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void gradTranspose1d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++)
*7d8d0e25Snbeams    ContractTransposeX1d<NCOMP, P1d, Q1d>(data, r_U + comp, c_G, r_V + comp);
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// L-vector -> E-vector, offsets provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int P1d>
*7d8d0e25Snbeamsinline __device__ void readDofsOffset2d(BackendData& data, const CeedInt nnodes, const CeedInt elem, const CeedInt* indices, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx + data.tidy*P1d;
*7d8d0e25Snbeams    const CeedInt ind = indices[node + elem * P1d*P1d];
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      r_u[comp] = d_u[ind + COMPSTRIDE * comp];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// L-vector -> E-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void readDofsStrided2d(BackendData& data, const CeedInt elem, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx + data.tidy*P1d;
*7d8d0e25Snbeams    const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      r_u[comp] = d_u[ind + comp * STRIDES_COMP];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> L-vector, offsets provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int P1d>
*7d8d0e25Snbeamsinline __device__ void writeDofsOffset2d(BackendData& data, const CeedInt nnodes, const CeedInt elem, const CeedInt* indices, const CeedScalar* r_v, CeedScalar* d_v) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx + data.tidy*P1d;
*7d8d0e25Snbeams    const CeedInt ind = indices[node + elem * P1d*P1d];
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      atomicAdd(&d_v[ind + COMPSTRIDE * comp], r_v[comp]);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> L-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void writeDofsStrided2d(BackendData& data, const CeedInt elem, const CeedScalar* r_v, CeedScalar* d_v) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx + data.tidy*P1d;
*7d8d0e25Snbeams    const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      d_v[ind + comp * STRIDES_COMP] += r_v[comp];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D tensor contraction x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractX2d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx+data.tidy*T1d] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  *V = 0.0;
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams      *V += B[i + data.tidx*P1d] * data.slice[i + data.tidy*T1d]; // Contract x direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D tensor contract y
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractY2d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx+data.tidy*T1d] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  *V = 0.0;
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < Q1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams      *V += B[i + data.tidy*P1d] * data.slice[data.tidx + i*T1d]; // Contract y direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D transpose tensor contract y
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractYTranspose2d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx+data.tidy*T1d] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  *V = 0.0;
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams      *V += B[data.tidy + i*P1d] * data.slice[data.tidx + i*T1d]; // Contract y direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D transpose tensor contract x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractXTranspose2d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx+data.tidy*T1d] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  *V = 0.0;
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams      *V += B[data.tidx + i*P1d] * data.slice[i + data.tidy*T1d]; // Contract x direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D transpose tensor contract and add x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractXTransposeAdd2d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  data.slice[data.tidx+data.tidy*T1d] = *U;
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams      *V += B[data.tidx + i*P1d] * data.slice[i + data.tidy*T1d]; // Contract x direction
*7d8d0e25Snbeams  __syncthreads();
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D interpolate to quadrature points
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void interp2d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t[1];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractX2d<NCOMP, P1d, Q1d>(data, r_U + comp, c_B, r_t);
*7d8d0e25Snbeams    ContractY2d<NCOMP, P1d, Q1d>(data, r_t, c_B, r_V + comp);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D interpolate transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void interpTranspose2d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t[1];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractYTranspose2d<NCOMP, P1d, Q1d>(data, r_U + comp, c_B, r_t);
*7d8d0e25Snbeams    ContractXTranspose2d<NCOMP, P1d, Q1d>(data, r_t, c_B, r_V + comp);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D derivatives at quadrature points
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void grad2d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t[1];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractX2d<NCOMP, P1d, Q1d>(data, r_U + comp, c_G, r_t);
*7d8d0e25Snbeams    ContractY2d<NCOMP, P1d, Q1d>(data, r_t, c_B, r_V + comp + 0*NCOMP);
*7d8d0e25Snbeams    ContractX2d<NCOMP, P1d, Q1d>(data, r_U + comp, c_B, r_t);
*7d8d0e25Snbeams    ContractY2d<NCOMP, P1d, Q1d>(data, r_t, c_G, r_V + comp + 1*NCOMP);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D derivatives transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void gradTranspose2d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t[1];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractYTranspose2d<NCOMP, P1d, Q1d>(data, r_U + comp + 0*NCOMP, c_B, r_t);
*7d8d0e25Snbeams    ContractXTranspose2d<NCOMP, P1d, Q1d>(data, r_t, c_G, r_V + comp);
*7d8d0e25Snbeams    ContractYTranspose2d<NCOMP, P1d, Q1d>(data, r_U + comp + 1*NCOMP, c_G, r_t);
*7d8d0e25Snbeams    ContractXTransposeAdd2d<NCOMP, P1d, Q1d>(data, r_t, c_B, r_V + comp);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// L-vector -> E-vector, offsets provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int P1d>
*7d8d0e25Snbeamsinline __device__ void readDofsOffset3d(BackendData& data, const CeedInt nnodes, const CeedInt elem, const CeedInt* indices, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt z = 0; z < P1d; ++z) {
*7d8d0e25Snbeams      const CeedInt node = data.tidx + data.tidy*P1d + z*P1d*P1d;
*7d8d0e25Snbeams      const CeedInt ind = indices[node + elem * P1d*P1d*P1d];
*7d8d0e25Snbeams      for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams        r_u[z+comp*P1d] = d_u[ind + COMPSTRIDE * comp];
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// L-vector -> E-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void readDofsStrided3d(BackendData& data, const CeedInt elem, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt z = 0; z < P1d; ++z) {
*7d8d0e25Snbeams      const CeedInt node = data.tidx + data.tidy*P1d + z*P1d*P1d;
*7d8d0e25Snbeams      const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams      for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams        r_u[z+comp*P1d] = d_u[ind + comp * STRIDES_COMP];
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> Q-vector, offests provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int Q1d>
*7d8d0e25Snbeamsinline __device__ void readSliceQuadsOffset3d(BackendData& data, const CeedInt nquads, const CeedInt elem, const CeedInt q, const CeedInt* indices, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < Q1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx + data.tidy*Q1d + q*Q1d*Q1d;
*7d8d0e25Snbeams    const CeedInt ind = indices[node + elem * Q1d*Q1d*Q1d];;
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      r_u[comp] = d_u[ind + COMPSTRIDE * comp];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> Q-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int Q1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void readSliceQuadsStrided3d(BackendData& data, const CeedInt elem, const CeedInt q, const CeedScalar* d_u, CeedScalar* r_u) {
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < Q1d) {
*7d8d0e25Snbeams    const CeedInt node = data.tidx + data.tidy*Q1d + q*Q1d*Q1d;
*7d8d0e25Snbeams    const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams      r_u[comp] = d_u[ind + comp * STRIDES_COMP];
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> L-vector, offsets provided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int COMPSTRIDE, int P1d>
*7d8d0e25Snbeamsinline __device__ void writeDofsOffset3d(BackendData& data, const CeedInt nnodes, const CeedInt elem, const CeedInt* indices, const CeedScalar* r_v, CeedScalar* d_v) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt z = 0; z < P1d; ++z) {
*7d8d0e25Snbeams      const CeedInt node = data.tidx + data.tidy*P1d + z*P1d*P1d;
*7d8d0e25Snbeams      const CeedInt ind = indices[node + elem * P1d*P1d*P1d];
*7d8d0e25Snbeams      for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams        atomicAdd(&d_v[ind + COMPSTRIDE * comp], r_v[z+comp*P1d]);
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// E-vector -> L-vector, strided
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int STRIDES_NODE, int STRIDES_COMP, int STRIDES_ELEM>
*7d8d0e25Snbeamsinline __device__ void writeDofsStrided3d(BackendData& data, const CeedInt elem, const CeedScalar* r_v, CeedScalar* d_v) {
*7d8d0e25Snbeams  if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams    for (CeedInt z = 0; z < P1d; ++z) {
*7d8d0e25Snbeams      const CeedInt node = data.tidx + data.tidy*P1d + z*P1d*P1d;
*7d8d0e25Snbeams      const CeedInt ind = node * STRIDES_NODE + elem * STRIDES_ELEM;
*7d8d0e25Snbeams      for (CeedInt comp = 0; comp < NCOMP; ++comp)
*7d8d0e25Snbeams        d_v[ind + comp * STRIDES_COMP] += r_v[z+comp*P1d];
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D tensor contract x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractX3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  CeedScalar r_B[P1d];
*7d8d0e25Snbeams  for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams    r_B[i] = B[i + data.tidx*P1d];
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    data.slice[data.tidx+data.tidy*T1d] = U[k];
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams    V[k] = 0.0;
*7d8d0e25Snbeams    if (data.tidx < Q1d && data.tidy < P1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams        V[k] += r_B[i] * data.slice[i + data.tidy*T1d]; // Contract x direction
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D tensor contract y
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractY3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  CeedScalar r_B[P1d];
*7d8d0e25Snbeams  for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams    r_B[i] = B[i + data.tidy*P1d];
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    data.slice[data.tidx+data.tidy*T1d] = U[k];
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams    V[k] = 0.0;
*7d8d0e25Snbeams    if (data.tidx < Q1d && data.tidy < Q1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams        V[k] += r_B[i] * data.slice[data.tidx + i*T1d]; // Contract y direction
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D tensor contract z
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractZ3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  for (CeedInt k = 0; k < Q1d; ++k) {
*7d8d0e25Snbeams    V[k] = 0.0;
*7d8d0e25Snbeams    if (data.tidx < Q1d && data.tidy < Q1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < P1d; ++i)
*7d8d0e25Snbeams        V[k] += B[i + k*P1d] * U[i]; // Contract z direction
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D transpose tensor contract z
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractTransposeZ3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    V[k] = 0.0;
*7d8d0e25Snbeams    if (data.tidx < Q1d && data.tidy < Q1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        V[k] += B[k + i*P1d] * U[i]; // Contract z direction
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D transpose tensor contract y
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractTransposeY3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  CeedScalar r_B[Q1d];
*7d8d0e25Snbeams  for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams    r_B[i] = B[data.tidy + i*P1d];
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    data.slice[data.tidx+data.tidy*T1d] = U[k];
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams    V[k] = 0.0;
*7d8d0e25Snbeams    if (data.tidx < Q1d && data.tidy < P1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        V[k] += r_B[i] * data.slice[data.tidx + i*T1d]; // Contract y direction
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D transpose tensor contract add y
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractTransposeAddY3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  CeedScalar r_B[Q1d];
*7d8d0e25Snbeams  for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams    r_B[i] = B[data.tidy + i*P1d];
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    data.slice[data.tidx+data.tidy*T1d] = U[k];
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams    if (data.tidx < Q1d && data.tidy < P1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        V[k] += r_B[i] * data.slice[data.tidx + i*T1d]; // Contract y direction
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D transpose tensor contract x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractTransposeX3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  CeedScalar r_B[Q1d];
*7d8d0e25Snbeams  for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams    r_B[i] = B[data.tidx + i*P1d];
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    data.slice[data.tidx+data.tidy*T1d] = U[k];
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams    V[k] = 0.0;
*7d8d0e25Snbeams    if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        V[k] += r_B[i] * data.slice[i + data.tidy*T1d]; // Contract x direction
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D transpose tensor contract add x
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void ContractTransposeAddX3d(BackendData& data, const CeedScalar *U, const CeedScalar *B, CeedScalar *V) {
*7d8d0e25Snbeams  CeedScalar r_B[Q1d];
*7d8d0e25Snbeams  for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams    r_B[i] = B[data.tidx + i*P1d];
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt k = 0; k < P1d; ++k) {
*7d8d0e25Snbeams    data.slice[data.tidx+data.tidy*T1d] = U[k];
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams    if (data.tidx < P1d && data.tidy < P1d)
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        V[k] += r_B[i] * data.slice[i + data.tidy*T1d]; // Contract x direction
*7d8d0e25Snbeams    __syncthreads();
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D interpolate to quadrature points
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void interp3d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t1[T1d];
*7d8d0e25Snbeams  CeedScalar r_t2[T1d];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractX3d<NCOMP, P1d, Q1d>(data, r_U + comp*P1d, c_B, r_t1);
*7d8d0e25Snbeams    ContractY3d<NCOMP, P1d, Q1d>(data, r_t1, c_B, r_t2);
*7d8d0e25Snbeams    ContractZ3d<NCOMP, P1d, Q1d>(data, r_t2, c_B, r_V + comp*Q1d);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D interpolate transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void interpTranspose3d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t1[T1d];
*7d8d0e25Snbeams  CeedScalar r_t2[T1d];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractTransposeZ3d<NCOMP, P1d, Q1d>(data, r_U + comp*Q1d, c_B, r_t1);
*7d8d0e25Snbeams    ContractTransposeY3d<NCOMP, P1d, Q1d>(data, r_t1, c_B, r_t2);
*7d8d0e25Snbeams    ContractTransposeX3d<NCOMP, P1d, Q1d>(data, r_t2, c_B, r_V + comp*P1d);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D derivatives at quadrature points
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void grad3d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t1[T1d];
*7d8d0e25Snbeams  CeedScalar r_t2[T1d];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractX3d<NCOMP, P1d, Q1d>(data, r_U + comp*P1d, c_G, r_t1);
*7d8d0e25Snbeams    ContractY3d<NCOMP, P1d, Q1d>(data, r_t1, c_B, r_t2);
*7d8d0e25Snbeams    ContractZ3d<NCOMP, P1d, Q1d>(data, r_t2, c_B, r_V + comp*Q1d + 0*NCOMP*Q1d);
*7d8d0e25Snbeams    ContractX3d<NCOMP, P1d, Q1d>(data, r_U + comp*P1d, c_B, r_t1);
*7d8d0e25Snbeams    ContractY3d<NCOMP, P1d, Q1d>(data, r_t1, c_G, r_t2);
*7d8d0e25Snbeams    ContractZ3d<NCOMP, P1d, Q1d>(data, r_t2, c_B, r_V + comp*Q1d + 1*NCOMP*Q1d);
*7d8d0e25Snbeams    ContractX3d<NCOMP, P1d, Q1d>(data, r_U + comp*P1d, c_B, r_t1);
*7d8d0e25Snbeams    ContractY3d<NCOMP, P1d, Q1d>(data, r_t1, c_B, r_t2);
*7d8d0e25Snbeams    ContractZ3d<NCOMP, P1d, Q1d>(data, r_t2, c_G, r_V + comp*Q1d + 2*NCOMP*Q1d);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D derivatives transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int P1d, int Q1d>
*7d8d0e25Snbeamsinline __device__ void gradTranspose3d(BackendData& data, const CeedScalar *__restrict__ r_U, const CeedScalar *c_B, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  CeedScalar r_t1[T1d];
*7d8d0e25Snbeams  CeedScalar r_t2[T1d];
*7d8d0e25Snbeams  for (CeedInt comp = 0; comp < NCOMP; comp++) {
*7d8d0e25Snbeams    ContractTransposeZ3d<NCOMP, P1d, Q1d>(data, r_U + comp*Q1d + 0*NCOMP*Q1d, c_B, r_t1);
*7d8d0e25Snbeams    ContractTransposeY3d<NCOMP, P1d, Q1d>(data, r_t1, c_B, r_t2);
*7d8d0e25Snbeams    ContractTransposeX3d<NCOMP, P1d, Q1d>(data, r_t2, c_G, r_V + comp*P1d);
*7d8d0e25Snbeams    ContractTransposeZ3d<NCOMP, P1d, Q1d>(data, r_U + comp*Q1d + 1*NCOMP*Q1d, c_B, r_t1);
*7d8d0e25Snbeams    ContractTransposeY3d<NCOMP, P1d, Q1d>(data, r_t1, c_G, r_t2);
*7d8d0e25Snbeams    ContractTransposeAddX3d<NCOMP,P1d, Q1d>(data, r_t2, c_B, r_V + comp*P1d);
*7d8d0e25Snbeams    ContractTransposeZ3d<NCOMP, P1d, Q1d>(data, r_U + comp*Q1d + 2*NCOMP*Q1d, c_G, r_t1);
*7d8d0e25Snbeams    ContractTransposeY3d<NCOMP, P1d, Q1d>(data, r_t1, c_B, r_t2);
*7d8d0e25Snbeams    ContractTransposeAddX3d<NCOMP, P1d, Q1d>(data, r_t2, c_B, r_V + comp*P1d);
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D collocated derivatives computation
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int Q1d>
*7d8d0e25Snbeamsinline __device__ void gradCollo3d(BackendData& data, const CeedInt q, const CeedScalar *__restrict__ r_U, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < Q1d) {
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp) {
*7d8d0e25Snbeams      data.slice[data.tidx + data.tidy*T1d] = r_U[q + comp*Q1d];
*7d8d0e25Snbeams      __syncthreads();
*7d8d0e25Snbeams      // X derivative
*7d8d0e25Snbeams      r_V[comp+0*NCOMP] = 0.0;
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        r_V[comp+0*NCOMP] += c_G[i + data.tidx*Q1d] * data.slice[i + data.tidy*T1d]; // Contract x direction (X derivative)
*7d8d0e25Snbeams      // Y derivative
*7d8d0e25Snbeams      r_V[comp+1*NCOMP] = 0.0;
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        r_V[comp+1*NCOMP] += c_G[i + data.tidy*Q1d] * data.slice[data.tidx + i*T1d]; // Contract y direction (Y derivative)
*7d8d0e25Snbeams      // Z derivative
*7d8d0e25Snbeams      r_V[comp+2*NCOMP] = 0.0;
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        r_V[comp+2*NCOMP] += c_G[i + q*Q1d] * r_U[i + comp*Q1d]; // Contract z direction (Z derivative)
*7d8d0e25Snbeams      __syncthreads();
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D collocated derivatives transpose
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int NCOMP, int Q1d>
*7d8d0e25Snbeamsinline __device__ void gradColloTranspose3d(BackendData& data, const CeedInt q, const CeedScalar *__restrict__ r_U, const CeedScalar *c_G, CeedScalar *__restrict__ r_V) {
*7d8d0e25Snbeams  if (data.tidx < Q1d && data.tidy < Q1d) {
*7d8d0e25Snbeams    for (CeedInt comp = 0; comp < NCOMP; ++comp) {
*7d8d0e25Snbeams      // X derivative
*7d8d0e25Snbeams      data.slice[data.tidx + data.tidy*T1d] = r_U[comp + 0*NCOMP];
*7d8d0e25Snbeams      __syncthreads();
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        r_V[q+comp*Q1d] += c_G[data.tidx + i*Q1d] * data.slice[i + data.tidy*T1d]; // Contract x direction (X derivative)
*7d8d0e25Snbeams      __syncthreads();
*7d8d0e25Snbeams      // Y derivative
*7d8d0e25Snbeams      data.slice[data.tidx + data.tidy*T1d] = r_U[comp + 1*NCOMP];
*7d8d0e25Snbeams      __syncthreads();
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        r_V[q+comp*Q1d] += c_G[data.tidy + i*Q1d] * data.slice[data.tidx + i*T1d]; // Contract y direction (Y derivative)
*7d8d0e25Snbeams      __syncthreads();
*7d8d0e25Snbeams      // Z derivative
*7d8d0e25Snbeams      for (CeedInt i = 0; i < Q1d; ++i)
*7d8d0e25Snbeams        r_V[i+comp*Q1d] += c_G[i + q*Q1d] * r_U[comp + 2*NCOMP]; // PARTIAL contract z direction (Z derivative)
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 1D quadrature weights
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int Q1d>
*7d8d0e25Snbeamsinline __device__ void weight1d(BackendData& data, const CeedScalar *qweight1d, CeedScalar *w) {
*7d8d0e25Snbeams  *w = (data.tidx < Q1d) ? qweight1d[data.tidx] : 0.0;
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 2D quadrature weights
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int Q1d>
*7d8d0e25Snbeamsinline __device__ void weight2d(BackendData& data, const CeedScalar *qweight1d, CeedScalar *w) {
*7d8d0e25Snbeams  *w = (data.tidx < Q1d && data.tidy < Q1d) ?
*7d8d0e25Snbeams        qweight1d[data.tidx]*qweight1d[data.tidy] : 0.0;
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// 3D quadrature weights
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamstemplate <int Q1d>
*7d8d0e25Snbeamsinline __device__ void weight3d(BackendData& data, const CeedScalar *qweight1d, CeedScalar *w) {
*7d8d0e25Snbeams  const bool quad = (data.tidx < Q1d && data.tidy < Q1d);
*7d8d0e25Snbeams  const CeedScalar pw = quad ? qweight1d[data.tidx]*qweight1d[data.tidy] : 0.0;
*7d8d0e25Snbeams  for (CeedInt z = 0; z < Q1d; ++z)
*7d8d0e25Snbeams    w[z] = quad ? pw*qweight1d[z] : 0.0;
*7d8d0e25Snbeams}
*7d8d0e25Snbeams
*7d8d0e25Snbeams);
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeams// Build singe operator kernel
*7d8d0e25Snbeams//------------------------------------------------------------------------------
*7d8d0e25Snbeamsextern "C" int CeedHipGenOperatorBuild(CeedOperator op) {
*7d8d0e25Snbeams
*7d8d0e25Snbeams  using std::ostringstream;
*7d8d0e25Snbeams  using std::string;
*7d8d0e25Snbeams  int ierr;
*7d8d0e25Snbeams  bool setupdone;
*7d8d0e25Snbeams  ierr = CeedOperatorIsSetupDone(op, &setupdone); CeedChk(ierr);
*7d8d0e25Snbeams  if (setupdone) return 0;
*7d8d0e25Snbeams  Ceed ceed;
*7d8d0e25Snbeams  ierr = CeedOperatorGetCeed(op, &ceed); CeedChk(ierr);
*7d8d0e25Snbeams  CeedOperator_Hip_gen *data;
*7d8d0e25Snbeams  ierr = CeedOperatorGetData(op, &data); CeedChk(ierr);
*7d8d0e25Snbeams  CeedQFunction qf;
*7d8d0e25Snbeams  CeedQFunction_Hip_gen *qf_data;
*7d8d0e25Snbeams  ierr = CeedOperatorGetQFunction(op, &qf); CeedChk(ierr);
*7d8d0e25Snbeams  ierr = CeedQFunctionGetData(qf, &qf_data); CeedChk(ierr);
*7d8d0e25Snbeams  CeedInt Q, P1d, Q1d = 0, numelements, elemsize, numinputfields,
*7d8d0e25Snbeams          numoutputfields, ncomp, dim = 0, lsize;
*7d8d0e25Snbeams  ierr = CeedOperatorGetNumQuadraturePoints(op, &Q); CeedChk(ierr);
*7d8d0e25Snbeams  ierr = CeedOperatorGetNumElements(op, &numelements); CeedChk(ierr);
*7d8d0e25Snbeams  ierr = CeedQFunctionGetNumArgs(qf, &numinputfields, &numoutputfields);
*7d8d0e25Snbeams  CeedChk(ierr);
*7d8d0e25Snbeams  CeedOperatorField *opinputfields, *opoutputfields;
*7d8d0e25Snbeams  ierr = CeedOperatorGetFields(op, &opinputfields, &opoutputfields);
*7d8d0e25Snbeams  CeedChk(ierr);
*7d8d0e25Snbeams  CeedQFunctionField *qfinputfields, *qfoutputfields;
*7d8d0e25Snbeams  ierr = CeedQFunctionGetFields(qf, &qfinputfields, &qfoutputfields);
*7d8d0e25Snbeams  CeedChk(ierr);
*7d8d0e25Snbeams  CeedEvalMode emode;
*7d8d0e25Snbeams  CeedBasis basis;
*7d8d0e25Snbeams  CeedBasis_Hip_shared *basis_data;
*7d8d0e25Snbeams  CeedElemRestriction Erestrict;
*7d8d0e25Snbeams  CeedElemRestriction_Hip *restr_data;
*7d8d0e25Snbeams
*7d8d0e25Snbeams  ostringstream code;
*7d8d0e25Snbeams  string devFunctions(deviceFunctions);
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // Add atomicAdd function for old NVidia architectures
*7d8d0e25Snbeams  struct hipDeviceProp_t prop;
*7d8d0e25Snbeams  Ceed_Hip *ceed_data;
*7d8d0e25Snbeams  ierr = CeedGetData(ceed, &ceed_data); CeedChk(ierr);
*7d8d0e25Snbeams  ierr = hipGetDeviceProperties(&prop, ceed_data->deviceId);
*7d8d0e25Snbeams  if (prop.major<6){
*7d8d0e25Snbeams    code << atomicAdd;
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << devFunctions;
*7d8d0e25Snbeams
*7d8d0e25Snbeams  string qFunction(qf_data->qFunctionSource);
*7d8d0e25Snbeams  string qFunctionName(qf_data->qFunctionName);
*7d8d0e25Snbeams  string oper;
*7d8d0e25Snbeams  oper = "CeedKernel_Hip_gen_" + qFunctionName;
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << "\n#define CEED_QFUNCTION(name) inline __device__ int name\n";
*7d8d0e25Snbeams  code << "\n#define CeedPragmaSIMD\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // Find dim and Q1d
*7d8d0e25Snbeams  bool useCollograd = true;
*7d8d0e25Snbeams  data->maxP1d = 0;
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetBasis(opinputfields[i], &basis); CeedChk(ierr);
*7d8d0e25Snbeams    if (basis != CEED_BASIS_COLLOCATED) {
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      ierr = CeedQFunctionFieldGetEvalMode(qfinputfields[i], &emode);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams      // Check for collocated gradient
*7d8d0e25Snbeams      useCollograd = useCollograd && basis_data->d_collograd1d;
*7d8d0e25Snbeams
*7d8d0e25Snbeams      // Collect dim and Q1d
*7d8d0e25Snbeams      ierr = CeedBasisGetDimension(basis, &dim); CeedChk(ierr);
*7d8d0e25Snbeams      bool isTensor;
*7d8d0e25Snbeams      ierr = CeedBasisIsTensor(basis, &isTensor); CeedChk(ierr);
*7d8d0e25Snbeams      if (isTensor) {
*7d8d0e25Snbeams        ierr = CeedBasisGetNumQuadraturePoints1D(basis, &Q1d); CeedChk(ierr);
*7d8d0e25Snbeams        ierr = CeedBasisGetNumNodes1D(basis, &P1d); CeedChk(ierr);
*7d8d0e25Snbeams        if (P1d>data->maxP1d) data->maxP1d = P1d;
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        // LCOV_EXCL_START
*7d8d0e25Snbeams        return CeedError(ceed, 1, "Backend does not implement operators with non-tensor basis");
*7d8d0e25Snbeams        // LCOV_EXCL_STOP
*7d8d0e25Snbeams        }
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  // Check output bases for Q1d, dim as well
*7d8d0e25Snbeams  //   The only imput basis might be CEED_BASIS_COLLOCATED
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetBasis(opoutputfields[i], &basis); CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams    if (basis != CEED_BASIS_COLLOCATED) {
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      ierr = CeedQFunctionFieldGetEvalMode(qfoutputfields[i], &emode);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams      // Collect dim and Q1d
*7d8d0e25Snbeams      ierr = CeedBasisGetDimension(basis, &dim); CeedChk(ierr);
*7d8d0e25Snbeams      bool isTensor;
*7d8d0e25Snbeams      ierr = CeedBasisIsTensor(basis, &isTensor); CeedChk(ierr);
*7d8d0e25Snbeams      if (isTensor) {
*7d8d0e25Snbeams        ierr = CeedBasisGetNumQuadraturePoints1D(basis, &Q1d); CeedChk(ierr);
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        // LCOV_EXCL_START
*7d8d0e25Snbeams        return CeedError(ceed, 1, "Backend does not implement operators with non-tensor basis");
*7d8d0e25Snbeams        // LCOV_EXCL_STOP
*7d8d0e25Snbeams        }
*7d8d0e25Snbeams
*7d8d0e25Snbeams      // Check for collocated gradient
*7d8d0e25Snbeams      useCollograd = useCollograd && basis_data->d_collograd1d;
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  data->dim = dim;
*7d8d0e25Snbeams  data->Q1d = Q1d;
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // Define CEED_Q_VLA
*7d8d0e25Snbeams  if (dim != 3 || useCollograd) {
*7d8d0e25Snbeams    code << "\n#define CEED_Q_VLA 1\n\n";
*7d8d0e25Snbeams  } else {
*7d8d0e25Snbeams    code << "\n#define CEED_Q_VLA "<<Q1d<<"\n\n";
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << qFunction;
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // Setup
*7d8d0e25Snbeams  code << "\n// -----------------------------------------------------------------------------\n";
*7d8d0e25Snbeams  code << "\nextern \"C\" __global__ void "<<oper<<"(CeedInt nelem, void* ctx, HipFieldsInt indices, HipFields fields, HipFields B, HipFields G, CeedScalar* W) {\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams    ierr = CeedQFunctionFieldGetEvalMode(qfinputfields[i], &emode);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    if (emode != CEED_EVAL_WEIGHT) { // Skip CEED_EVAL_WEIGHT
*7d8d0e25Snbeams      code << "  const CeedScalar* d_u" <<i<<" = fields.in["<<i<<"];\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams    code << "  CeedScalar* d_v"<<i<<" = fields.out["<<i<<"];\n";
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << "  const CeedInt Dim = "<<dim<<";\n";
*7d8d0e25Snbeams  code << "  const CeedInt Q1d = "<<Q1d<<";\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << "  HIP_DYNAMIC_SHARED( CeedScalar, slice)\n";
*7d8d0e25Snbeams  code << "  BackendData data;\n";
*7d8d0e25Snbeams  code << "  data.tidx = threadIdx.x;\n";
*7d8d0e25Snbeams  code << "  data.tidy = threadIdx.y;\n";
*7d8d0e25Snbeams  code << "  data.tidz = threadIdx.z;\n";
*7d8d0e25Snbeams  code << "  data.tid  = threadIdx.x + threadIdx.y*blockDim.x + threadIdx.z*blockDim.y*blockDim.x;\n";
*7d8d0e25Snbeams  code << "  data.slice = slice+data.tidz*T1d"<<(dim>1?"*T1d":"")<<";\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << "\n  // -- Input field constants and basis data --\n";
*7d8d0e25Snbeams  //Initialize constants, and matrices B and G
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams    code << "  // ---- Input field "<<i<<" ----\n";
*7d8d0e25Snbeams    // Get elemsize, emode, ncomp
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetElemRestriction(opinputfields[i], &Erestrict);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetElementSize(Erestrict, &elemsize);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedQFunctionFieldGetEvalMode(qfinputfields[i], &emode);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetNumComponents(Erestrict, &ncomp);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams    // Set field constants
*7d8d0e25Snbeams    if (emode != CEED_EVAL_WEIGHT) {
*7d8d0e25Snbeams      ierr = CeedOperatorFieldGetBasis(opinputfields[i], &basis); CeedChk(ierr);
*7d8d0e25Snbeams      if (basis != CEED_BASIS_COLLOCATED) {
*7d8d0e25Snbeams        ierr = CeedBasisGetNumNodes1D(basis, &P1d); CeedChk(ierr);
*7d8d0e25Snbeams        code << "  const CeedInt P_in_"<<i<<" = "<<P1d<<";\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        code << "  const CeedInt P_in_"<<i<<" = "<<Q1d<<";\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      code << "  const CeedInt ncomp_in_"<<i<<" = "<<ncomp<<";\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams
*7d8d0e25Snbeams    // Load basis data
*7d8d0e25Snbeams    code << "  // EvalMode: "<<CeedEvalModes[emode]<<"\n";
*7d8d0e25Snbeams    switch (emode) {
*7d8d0e25Snbeams    case CEED_EVAL_NONE:
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_INTERP:
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      data->B.in[i] = basis_data->d_interp1d;
*7d8d0e25Snbeams      code << "  __shared__ double s_B_in_"<<i<<"["<<P1d*Q1d<<"];\n";
*7d8d0e25Snbeams      code << "  loadMatrix<P_in_"<<i<<",Q1d>(data, B.in["<<i<<"], s_B_in_"<<i<<");\n";
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_GRAD:
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      data->B.in[i] = basis_data->d_interp1d;
*7d8d0e25Snbeams      code << "  __shared__ double s_B_in_"<<i<<"["<<P1d*Q1d<<"];\n";
*7d8d0e25Snbeams      code << "  loadMatrix<P_in_"<<i<<",Q1d>(data, B.in["<<i<<"], s_B_in_"<<i<<");\n";
*7d8d0e25Snbeams      if (useCollograd) {
*7d8d0e25Snbeams        data->G.in[i] = basis_data->d_collograd1d;
*7d8d0e25Snbeams        code << "  __shared__ double s_G_in_"<<i<<"["<<Q1d*Q1d<<"];\n";
*7d8d0e25Snbeams        code << "  loadMatrix<Q1d,Q1d>(data, G.in["<<i<<"], s_G_in_"<<i<<");\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        data->G.in[i] = basis_data->d_grad1d;
*7d8d0e25Snbeams        code << "  __shared__ double s_G_in_"<<i<<"["<<P1d*Q1d<<"];\n";
*7d8d0e25Snbeams        code << "  loadMatrix<P_in_"<<i<<",Q1d>(data, G.in["<<i<<"], s_G_in_"<<i<<");\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_WEIGHT:
*7d8d0e25Snbeams      break; // No action
*7d8d0e25Snbeams    case CEED_EVAL_DIV:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams    case CEED_EVAL_CURL:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << "\n  // -- Output field constants and basis data --\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams    code << "  // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams    // Get elemsize, emode, ncomp
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetElemRestriction(opoutputfields[i], &Erestrict);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetElementSize(Erestrict, &elemsize);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedQFunctionFieldGetEvalMode(qfoutputfields[i], &emode);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetNumComponents(Erestrict, &ncomp);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams    // Set field constants
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetBasis(opoutputfields[i], &basis); CeedChk(ierr);
*7d8d0e25Snbeams    if (basis != CEED_BASIS_COLLOCATED) {
*7d8d0e25Snbeams      ierr = CeedBasisGetNumNodes1D(basis, &P1d); CeedChk(ierr);
*7d8d0e25Snbeams      code << "  const CeedInt P_out_"<<i<<" = "<<P1d<<";\n";
*7d8d0e25Snbeams    } else {
*7d8d0e25Snbeams      code << "  const CeedInt P_out_"<<i<<" = "<<Q1d<<";\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    code << "  const CeedInt ncomp_out_"<<i<<" = "<<ncomp<<";\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams    // Load basis data
*7d8d0e25Snbeams    code << "  // EvalMode: "<<CeedEvalModes[emode]<<"\n";
*7d8d0e25Snbeams    switch (emode) {
*7d8d0e25Snbeams    case CEED_EVAL_NONE:
*7d8d0e25Snbeams      break; // No action
*7d8d0e25Snbeams    case CEED_EVAL_INTERP:
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      data->B.out[i] = basis_data->d_interp1d;
*7d8d0e25Snbeams      code << "  __shared__ double s_B_out_"<<i<<"["<<P1d*Q1d<<"];\n";
*7d8d0e25Snbeams      code << "  loadMatrix<P_out_"<<i<<",Q1d>(data, B.out["<<i<<"], s_B_out_"<<i<<");\n";
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_GRAD:
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      data->B.out[i] = basis_data->d_interp1d;
*7d8d0e25Snbeams      code << "  __shared__ double s_B_out_"<<i<<"["<<P1d*Q1d<<"];\n";
*7d8d0e25Snbeams      code << "  loadMatrix<P_out_"<<i<<",Q1d>(data, B.out["<<i<<"], s_B_out_"<<i<<");\n";
*7d8d0e25Snbeams      if (useCollograd) {
*7d8d0e25Snbeams        data->G.out[i] = basis_data->d_collograd1d;
*7d8d0e25Snbeams        code << "  __shared__ double s_G_out_"<<i<<"["<<Q1d*Q1d<<"];\n";
*7d8d0e25Snbeams        code << "  loadMatrix<Q1d,Q1d>(data, G.out["<<i<<"], s_G_out_"<<i<<");\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        data->G.out[i] = basis_data->d_grad1d;
*7d8d0e25Snbeams        code << "  __shared__ double s_G_out_"<<i<<"["<<P1d*Q1d<<"];\n";
*7d8d0e25Snbeams        code << "  loadMatrix<P_out_"<<i<<",Q1d>(data, G.out["<<i<<"], s_G_out_"<<i<<");\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    // LCOV_EXCL_START
*7d8d0e25Snbeams    case CEED_EVAL_WEIGHT: {
*7d8d0e25Snbeams      Ceed ceed;
*7d8d0e25Snbeams      ierr = CeedOperatorGetCeed(op, &ceed); CeedChk(ierr);
*7d8d0e25Snbeams      return CeedError(ceed, 1,
*7d8d0e25Snbeams                       "CEED_EVAL_WEIGHT cannot be an output evaluation mode");
*7d8d0e25Snbeams      break; // Should not occur
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    case CEED_EVAL_DIV:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams    case CEED_EVAL_CURL:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams      // LCOV_EXCL_STOP
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  code << "\n  // -- Element loop --\n";
*7d8d0e25Snbeams  code << "  __syncthreads();\n";
*7d8d0e25Snbeams  code << "  for (CeedInt elem = blockIdx.x*blockDim.z + threadIdx.z; elem < nelem; elem += gridDim.x*blockDim.z) {\n";
*7d8d0e25Snbeams  // Input basis apply if needed
*7d8d0e25Snbeams  // Generate the correct eval mode code for each input
*7d8d0e25Snbeams  code << "    // -- Input field restrictions and basis actions --\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams    code << "    // ---- Input field "<<i<<" ----\n";
*7d8d0e25Snbeams    // Get elemsize, emode, ncomp
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetElemRestriction(opinputfields[i], &Erestrict);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetElementSize(Erestrict, &elemsize);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedQFunctionFieldGetEvalMode(qfinputfields[i], &emode);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetNumComponents(Erestrict, &ncomp);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams    // Restriction
*7d8d0e25Snbeams    if (emode != CEED_EVAL_WEIGHT &&
*7d8d0e25Snbeams        !((emode == CEED_EVAL_NONE) && useCollograd)) {
*7d8d0e25Snbeams      code << "    CeedScalar r_u"<<i<<"[ncomp_in_"<<i<<"*P_in_"<<i<<"];\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams      bool isStrided;
*7d8d0e25Snbeams      ierr = CeedElemRestrictionIsStrided(Erestrict, &isStrided); CeedChk(ierr);
*7d8d0e25Snbeams      if (!isStrided) {
*7d8d0e25Snbeams        ierr = CeedElemRestrictionGetLVectorSize(Erestrict, &lsize);
*7d8d0e25Snbeams        CeedChk(ierr);
*7d8d0e25Snbeams        code << "    const CeedInt lsize_in_"<<i<<" = "<<lsize<<";\n";
*7d8d0e25Snbeams        CeedInt compstride;
*7d8d0e25Snbeams        ierr = CeedElemRestrictionGetCompStride(Erestrict, &compstride); CeedChk(ierr);
*7d8d0e25Snbeams        code << "    // CompStride: "<<compstride<<"\n";
*7d8d0e25Snbeams        ierr = CeedElemRestrictionGetData(Erestrict, &restr_data); CeedChk(ierr);
*7d8d0e25Snbeams        data->indices.in[i] = restr_data->d_ind;
*7d8d0e25Snbeams        code << "    readDofsOffset"<<dim<<"d<ncomp_in_"<<i<<", "<<compstride<<", P_in_"<<i<<">(data, lsize_in_"<<i<<", elem, indices.in["<<i<<"], d_u"<<i<<", r_u"<<i<<");\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        bool backendstrides;
*7d8d0e25Snbeams        ierr = CeedElemRestrictionHasBackendStrides(Erestrict, &backendstrides);
*7d8d0e25Snbeams        CeedChk(ierr);
*7d8d0e25Snbeams        CeedInt nelem;
*7d8d0e25Snbeams        ierr = CeedElemRestrictionGetNumElements(Erestrict, &nelem);
*7d8d0e25Snbeams        CeedChk(ierr);
*7d8d0e25Snbeams        CeedInt strides[3] = {1, elemsize*nelem, elemsize};
*7d8d0e25Snbeams        if (!backendstrides) {
*7d8d0e25Snbeams          ierr = CeedElemRestrictionGetStrides(Erestrict, &strides);
*7d8d0e25Snbeams          CeedChk(ierr);
*7d8d0e25Snbeams        }
*7d8d0e25Snbeams        code << "    // Strides: {"<<strides[0]<<", "<<strides[1]<<", "<<strides[2]<<"}\n";
*7d8d0e25Snbeams        code << "    readDofsStrided"<<dim<<"d<ncomp_in_"<<i<<",P_in_"<<i<<","<<strides[0]<<","<<strides[1]<<","<<strides[2]<<">(data, elem, d_u"<<i<<", r_u"<<i<<");\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams
*7d8d0e25Snbeams    // Basis action
*7d8d0e25Snbeams    code << "    // EvalMode: "<<CeedEvalModes[emode]<<"\n";
*7d8d0e25Snbeams    switch (emode) {
*7d8d0e25Snbeams    case CEED_EVAL_NONE:
*7d8d0e25Snbeams      if (!useCollograd) {
*7d8d0e25Snbeams        code << "    CeedScalar* r_t"<<i<<" = r_u"<<i<<";\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_INTERP:
*7d8d0e25Snbeams      code << "    CeedScalar r_t"<<i<<"[ncomp_in_"<<i<<"*Q1d];\n";
*7d8d0e25Snbeams      code << "    interp"<<dim<<"d<ncomp_in_"<<i<<",P_in_"<<i<<",Q1d>(data, r_u"<<i<<", s_B_in_"<<i<<", r_t"<<i<<");\n";
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_GRAD:
*7d8d0e25Snbeams      if (useCollograd) {
*7d8d0e25Snbeams        code << "    CeedScalar r_t"<<i<<"[ncomp_in_"<<i<<"*Q1d];\n";
*7d8d0e25Snbeams        code << "    interp"<<dim<<"d<ncomp_in_"<<i<<",P_in_"<<i<<",Q1d>(data, r_u"<<i<<", s_B_in_"<<i<<", r_t"<<i<<");\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        code << "    CeedScalar r_t"<<i<<"[ncomp_in_"<<i<<"*Dim*Q1d];\n";
*7d8d0e25Snbeams        code << "    grad"<<dim<<"d<ncomp_in_"<<i<<",P_in_"<<i<<",Q1d>(data, r_u"<<i<<", s_B_in_"<<i<<", s_G_in_"<<i<<", r_t"<<i<<");\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_WEIGHT:
*7d8d0e25Snbeams      code << "    CeedScalar r_t"<<i<<"[Q1d];\n";
*7d8d0e25Snbeams      ierr = CeedOperatorFieldGetBasis(opinputfields[i], &basis); CeedChk(ierr);
*7d8d0e25Snbeams      ierr = CeedBasisGetData(basis, &basis_data); CeedChk(ierr);
*7d8d0e25Snbeams      data->W = basis_data->d_qweight1d;
*7d8d0e25Snbeams      code << "    weight"<<dim<<"d<Q1d>(data, W, r_t"<<i<<");\n";
*7d8d0e25Snbeams      break; // No action
*7d8d0e25Snbeams    case CEED_EVAL_DIV:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams    case CEED_EVAL_CURL:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // Q function
*7d8d0e25Snbeams  code << "\n    // -- Output field setup --\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams      code << "\n    // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams    ierr = CeedQFunctionFieldGetEvalMode(qfoutputfields[i], &emode);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    if (emode==CEED_EVAL_GRAD)
*7d8d0e25Snbeams    {
*7d8d0e25Snbeams      if (useCollograd) {
*7d8d0e25Snbeams        //Accumulator for gradient slices
*7d8d0e25Snbeams        code << "    CeedScalar r_tt"<<i<<"[ncomp_out_"<<i<<"*Q1d];\n";
*7d8d0e25Snbeams        code << "    for (CeedInt i = 0; i < ncomp_out_"<<i<<"; ++i) {\n";
*7d8d0e25Snbeams        code << "      for (CeedInt j = 0; j < Q1d; ++j) {\n";
*7d8d0e25Snbeams        code << "        r_tt"<<i<<"[j + i*Q1d] = 0.0;\n";
*7d8d0e25Snbeams        code << "      }\n";
*7d8d0e25Snbeams        code << "    }\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        code << "    CeedScalar r_tt"<<i<<"[ncomp_out_"<<i<<"*Dim*Q1d];\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    if (emode==CEED_EVAL_NONE || emode==CEED_EVAL_INTERP)
*7d8d0e25Snbeams    {
*7d8d0e25Snbeams      code << "    CeedScalar r_tt"<<i<<"[ncomp_out_"<<i<<"*Q1d];\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  // We treat quadrature points per slice in 3d to save registers
*7d8d0e25Snbeams  if (useCollograd) {
*7d8d0e25Snbeams    code << "\n    // Note: Collocated Gradient\n";
*7d8d0e25Snbeams    code << "#pragma unroll\n";
*7d8d0e25Snbeams    code << "    for (CeedInt q=0; q<Q1d; q++) {\n";
*7d8d0e25Snbeams    code << "      // -- Input fields --\n";
*7d8d0e25Snbeams    for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams      code << "      // ---- Input field "<<i<<" ----\n";
*7d8d0e25Snbeams      // Get elemsize, emode, ncomp
*7d8d0e25Snbeams      ierr = CeedQFunctionFieldGetEvalMode(qfinputfields[i], &emode);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams      // Basis action
*7d8d0e25Snbeams      code << "      // EvalMode: "<<CeedEvalModes[emode]<<"\n";
*7d8d0e25Snbeams      switch (emode) {
*7d8d0e25Snbeams      case CEED_EVAL_NONE:
*7d8d0e25Snbeams        code << "      CeedScalar r_q"<<i<<"[ncomp_in_"<<i<<"];\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams        bool isStrided;
*7d8d0e25Snbeams        ierr = CeedOperatorFieldGetElemRestriction(opinputfields[i], &Erestrict); CeedChk(ierr);
*7d8d0e25Snbeams        ierr = CeedElemRestrictionGetElementSize(Erestrict, &elemsize); CeedChk(ierr);
*7d8d0e25Snbeams        ierr = CeedElemRestrictionIsStrided(Erestrict, &isStrided); CeedChk(ierr);
*7d8d0e25Snbeams        if (!isStrided) {
*7d8d0e25Snbeams          ierr = CeedElemRestrictionGetLVectorSize(Erestrict, &lsize);
*7d8d0e25Snbeams          CeedChk(ierr);
*7d8d0e25Snbeams          code << "      const CeedInt lsize_in_"<<i<<" = "<<lsize<<";\n";
*7d8d0e25Snbeams          CeedInt compstride;
*7d8d0e25Snbeams          ierr = CeedElemRestrictionGetCompStride(Erestrict, &compstride); CeedChk(ierr);
*7d8d0e25Snbeams          code << "      // CompStride: "<<compstride<<"\n";
*7d8d0e25Snbeams          ierr = CeedElemRestrictionGetData(Erestrict, &restr_data); CeedChk(ierr);
*7d8d0e25Snbeams          data->indices.in[i] = restr_data->d_ind;
*7d8d0e25Snbeams          code << "      readSliceQuadsOffset"<<"3d<ncomp_in_"<<i<<", "<<compstride<<", Q1d>(data, lsize_in_"<<i<<", elem, q, indices.in["<<i<<"], d_u"<<i<<", r_q"<<i<<");\n";
*7d8d0e25Snbeams        } else {
*7d8d0e25Snbeams          bool backendstrides;
*7d8d0e25Snbeams          ierr = CeedElemRestrictionHasBackendStrides(Erestrict, &backendstrides);
*7d8d0e25Snbeams          CeedChk(ierr);
*7d8d0e25Snbeams          CeedInt nelem;
*7d8d0e25Snbeams          ierr = CeedElemRestrictionGetNumElements(Erestrict, &nelem);
*7d8d0e25Snbeams          CeedChk(ierr);
*7d8d0e25Snbeams          CeedInt strides[3] = {1, elemsize*nelem, elemsize};
*7d8d0e25Snbeams          if (!backendstrides) {
*7d8d0e25Snbeams            ierr = CeedElemRestrictionGetStrides(Erestrict, &strides);
*7d8d0e25Snbeams            CeedChk(ierr);
*7d8d0e25Snbeams          }
*7d8d0e25Snbeams          code << "      // Strides: {"<<strides[0]<<", "<<strides[1]<<", "<<strides[2]<<"}\n";
*7d8d0e25Snbeams          code << "      readSliceQuadsStrided"<<"3d<ncomp_in_"<<i<<",Q1d"","<<strides[0]<<","<<strides[1]<<","<<strides[2]<<">(data, elem, q, d_u"<<i<<", r_q"<<i<<");\n";
*7d8d0e25Snbeams        }
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_INTERP:
*7d8d0e25Snbeams        code << "      CeedScalar r_q"<<i<<"[ncomp_in_"<<i<<"];\n";
*7d8d0e25Snbeams        code << "      for (CeedInt j = 0; j < ncomp_in_"<<i<<" ; ++j) {\n";
*7d8d0e25Snbeams        code << "        r_q"<<i<<"[j] = r_t"<<i<<"[q + j*Q1d];\n";
*7d8d0e25Snbeams        code << "      }\n";
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_GRAD:
*7d8d0e25Snbeams        code << "      CeedScalar r_q"<<i<<"[ncomp_in_"<<i<<"*Dim];\n";
*7d8d0e25Snbeams        code << "      gradCollo3d<ncomp_in_"<<i<<",Q1d>(data, q, r_t"<<i<<", s_G_in_"<<i<<", r_q"<<i<<");\n";
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_WEIGHT:
*7d8d0e25Snbeams        code << "      CeedScalar r_q"<<i<<"[1];\n";
*7d8d0e25Snbeams        code << "      r_q"<<i<<"[0] = r_t"<<i<<"[q];\n";
*7d8d0e25Snbeams        break; // No action
*7d8d0e25Snbeams      case CEED_EVAL_DIV:
*7d8d0e25Snbeams        break; // TODO: Not implemented
*7d8d0e25Snbeams      case CEED_EVAL_CURL:
*7d8d0e25Snbeams        break; // TODO: Not implemented
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    code << "\n      // -- Output fields --\n";
*7d8d0e25Snbeams    for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams      code << "      // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams      ierr = CeedQFunctionFieldGetEvalMode(qfoutputfields[i], &emode);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams      // Basis action
*7d8d0e25Snbeams      switch (emode) {
*7d8d0e25Snbeams      case CEED_EVAL_NONE:
*7d8d0e25Snbeams        code << "      CeedScalar r_qq"<<i<<"[ncomp_out_"<<i<<"];\n";
*7d8d0e25Snbeams        break; // No action
*7d8d0e25Snbeams      case CEED_EVAL_INTERP:
*7d8d0e25Snbeams        code << "      CeedScalar r_qq"<<i<<"[ncomp_out_"<<i<<"];\n";
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_GRAD:
*7d8d0e25Snbeams        code << "      CeedScalar r_qq"<<i<<"[ncomp_out_"<<i<<"*Dim];\n";
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_WEIGHT:
*7d8d0e25Snbeams        break; // Should not occur
*7d8d0e25Snbeams      case CEED_EVAL_DIV:
*7d8d0e25Snbeams        break; // TODO: Not implemented
*7d8d0e25Snbeams      case CEED_EVAL_CURL:
*7d8d0e25Snbeams        break; // TODO: Not implemented
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  } else {
*7d8d0e25Snbeams    code << "\n      // Note: No Collocated Gradient\n";
*7d8d0e25Snbeams    code << "      // -- Input fields --\n";
*7d8d0e25Snbeams    for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams      code << "      // ---- Input field "<<i<<" ----\n";
*7d8d0e25Snbeams      code << "      CeedScalar* r_q"<<i<<" = r_t"<<i<<";\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    code << "      // -- Output fields --\n";
*7d8d0e25Snbeams    for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams      code << "      // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams      code << "      CeedScalar* r_qq"<<i<<" = r_tt"<<i<<";\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  code << "\n      // -- QFunction Inputs and outputs --\n";
*7d8d0e25Snbeams  code << "      CeedScalar* in["<<numinputfields<<"];\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numinputfields; i++) {
*7d8d0e25Snbeams    code << "      // ---- Input field "<<i<<" ----\n";
*7d8d0e25Snbeams    code << "      in["<<i<<"] = r_q"<<i<<";\n";
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  code << "      CeedScalar* out["<<numoutputfields<<"];\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams    code << "      // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams    code << "      out["<<i<<"] = r_qq"<<i<<";\n";
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  code << "\n      // -- Apply QFunction --\n";
*7d8d0e25Snbeams  code << "      "<<qFunctionName<<"(ctx, ";
*7d8d0e25Snbeams  if (dim != 3 || useCollograd) {
*7d8d0e25Snbeams    code << "1";
*7d8d0e25Snbeams  } else {
*7d8d0e25Snbeams    code << "Q1d";
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams  code << ", in, out);\n";
*7d8d0e25Snbeams  if (useCollograd) {
*7d8d0e25Snbeams    code << "\n      // Note: Collocated Gradient\n";
*7d8d0e25Snbeams    code << "      // -- Output fields --\n";
*7d8d0e25Snbeams    for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams      code << "      // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams      ierr = CeedQFunctionFieldGetEvalMode(qfoutputfields[i], &emode);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams      // Basis action
*7d8d0e25Snbeams      code << "      // EvalMode: "<<CeedEvalModes[emode]<<"\n";
*7d8d0e25Snbeams      switch (emode) {
*7d8d0e25Snbeams      case CEED_EVAL_NONE:
*7d8d0e25Snbeams        code << "      for (CeedInt j = 0; j < ncomp_out_"<<i<<" ; ++j) {\n";
*7d8d0e25Snbeams        code << "        r_tt"<<i<<"[q + j*Q1d] = r_qq"<<i<<"[j];\n";
*7d8d0e25Snbeams        code << "      }\n";
*7d8d0e25Snbeams        break; // No action
*7d8d0e25Snbeams      case CEED_EVAL_INTERP:
*7d8d0e25Snbeams        code << "      for (CeedInt j = 0; j < ncomp_out_"<<i<<" ; ++j) {\n";
*7d8d0e25Snbeams        code << "        r_tt"<<i<<"[q + j*Q1d] = r_qq"<<i<<"[j];\n";
*7d8d0e25Snbeams        code << "      }\n";
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_GRAD:
*7d8d0e25Snbeams        code << "      gradColloTranspose3d<ncomp_out_"<<i<<",Q1d>(data, q, r_qq"<<i<<", s_G_out_"<<i<<", r_tt"<<i<<");\n";
*7d8d0e25Snbeams        break;
*7d8d0e25Snbeams      case CEED_EVAL_WEIGHT:
*7d8d0e25Snbeams        break; // Should not occur
*7d8d0e25Snbeams      case CEED_EVAL_DIV:
*7d8d0e25Snbeams        break; // TODO: Not implemented
*7d8d0e25Snbeams      case CEED_EVAL_CURL:
*7d8d0e25Snbeams        break; // TODO: Not implemented
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    code << "    }\n";
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // Output basis apply if needed
*7d8d0e25Snbeams  // Generate the correct eval mode code for each output
*7d8d0e25Snbeams  code << "\n    // -- Output field basis action and restrictions --\n";
*7d8d0e25Snbeams  for (CeedInt i = 0; i < numoutputfields; i++) {
*7d8d0e25Snbeams    code << "    // ---- Output field "<<i<<" ----\n";
*7d8d0e25Snbeams    // Get elemsize, emode, ncomp
*7d8d0e25Snbeams    ierr = CeedOperatorFieldGetElemRestriction(opoutputfields[i], &Erestrict);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetElementSize(Erestrict, &elemsize);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedQFunctionFieldGetEvalMode(qfoutputfields[i], &emode);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    ierr = CeedElemRestrictionGetNumComponents(Erestrict, &ncomp);
*7d8d0e25Snbeams    CeedChk(ierr);
*7d8d0e25Snbeams    // Basis action
*7d8d0e25Snbeams    code << "    // EvalMode: "<<CeedEvalModes[emode]<<"\n";
*7d8d0e25Snbeams    switch (emode) {
*7d8d0e25Snbeams    case CEED_EVAL_NONE:
*7d8d0e25Snbeams      code << "    CeedScalar* r_v"<<i<<" = r_tt"<<i<<";\n";
*7d8d0e25Snbeams      break; // No action
*7d8d0e25Snbeams    case CEED_EVAL_INTERP:
*7d8d0e25Snbeams      code << "    CeedScalar r_v"<<i<<"[ncomp_out_"<<i<<"*P_out_"<<i<<"];\n";
*7d8d0e25Snbeams      code << "    interpTranspose"<<dim<<"d<ncomp_out_"<<i<<",P_out_"<<i<<",Q1d>(data, r_tt"<<i<<", s_B_out_"<<i<<", r_v"<<i<<");\n";
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    case CEED_EVAL_GRAD:
*7d8d0e25Snbeams      code << "    CeedScalar r_v"<<i<<"[ncomp_out_"<<i<<"*P_out_"<<i<<"];\n";
*7d8d0e25Snbeams      if (useCollograd) {
*7d8d0e25Snbeams        code << "    interpTranspose"<<dim<<"d<ncomp_out_"<<i<<",P_out_"<<i<<",Q1d>(data, r_tt"<<i<<", s_B_out_"<<i<<", r_v"<<i<<");\n";
*7d8d0e25Snbeams      } else {
*7d8d0e25Snbeams        code << "    gradTranspose"<<dim<<"d<ncomp_out_"<<i<<",P_out_"<<i<<",Q1d>(data, r_tt"<<i<<", s_B_out_"<<i<<", s_G_out_"<<i<<", r_v"<<i<<");\n";
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      break;
*7d8d0e25Snbeams    // LCOV_EXCL_START
*7d8d0e25Snbeams    case CEED_EVAL_WEIGHT: {
*7d8d0e25Snbeams      Ceed ceed;
*7d8d0e25Snbeams      ierr = CeedOperatorGetCeed(op, &ceed); CeedChk(ierr);
*7d8d0e25Snbeams      return CeedError(ceed, 1,
*7d8d0e25Snbeams                       "CEED_EVAL_WEIGHT cannot be an output evaluation mode");
*7d8d0e25Snbeams      break; // Should not occur
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    case CEED_EVAL_DIV:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams    case CEED_EVAL_CURL:
*7d8d0e25Snbeams      break; // TODO: Not implemented
*7d8d0e25Snbeams      // LCOV_EXCL_STOP
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams    // Restriction
*7d8d0e25Snbeams      bool isStrided;
*7d8d0e25Snbeams      ierr = CeedElemRestrictionIsStrided(Erestrict, &isStrided); CeedChk(ierr);
*7d8d0e25Snbeams    if (!isStrided) {
*7d8d0e25Snbeams      ierr = CeedElemRestrictionGetLVectorSize(Erestrict, &lsize);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams      code << "    const CeedInt lsize_out_"<<i<<" = "<<lsize<<";\n";
*7d8d0e25Snbeams      CeedInt compstride;
*7d8d0e25Snbeams      ierr = CeedElemRestrictionGetCompStride(Erestrict, &compstride); CeedChk(ierr);
*7d8d0e25Snbeams      code << "    // CompStride: "<<compstride<<"\n";
*7d8d0e25Snbeams      ierr = CeedElemRestrictionGetData(Erestrict, &restr_data); CeedChk(ierr);
*7d8d0e25Snbeams      data->indices.out[i] = restr_data->d_ind;
*7d8d0e25Snbeams      code << "    writeDofsOffset"<<dim<<"d<ncomp_out_"<<i<<", "<<compstride<<", P_out_"<<i<<">(data, lsize_out_"<<i<<", elem, indices.out["<<i<<"], r_v"<<i<<", d_v"<<i<<");\n";
*7d8d0e25Snbeams    } else {
*7d8d0e25Snbeams      bool backendstrides;
*7d8d0e25Snbeams      ierr = CeedElemRestrictionHasBackendStrides(Erestrict, &backendstrides);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams      CeedInt nelem;
*7d8d0e25Snbeams      ierr = CeedElemRestrictionGetNumElements(Erestrict, &nelem);
*7d8d0e25Snbeams      CeedChk(ierr);
*7d8d0e25Snbeams      CeedInt strides[3] = {1, elemsize*nelem, elemsize};
*7d8d0e25Snbeams      if (!backendstrides) {
*7d8d0e25Snbeams        ierr = CeedElemRestrictionGetStrides(Erestrict, &strides);
*7d8d0e25Snbeams        CeedChk(ierr);
*7d8d0e25Snbeams      }
*7d8d0e25Snbeams      code << "    // Strides: {"<<strides[0]<<", "<<strides[1]<<", "<<strides[2]<<"}\n";
*7d8d0e25Snbeams      code << "    writeDofsStrided"<<dim<<"d<ncomp_out_"<<i<<",P_out_"<<i<<","<<strides[0]<<","<<strides[1]<<","<<strides[2]<<">(data, elem, r_v"<<i<<", d_v"<<i<<");\n";
*7d8d0e25Snbeams    }
*7d8d0e25Snbeams  }
*7d8d0e25Snbeams
*7d8d0e25Snbeams  code << "  }\n";
*7d8d0e25Snbeams  code << "}\n";
*7d8d0e25Snbeams  code << "// -----------------------------------------------------------------------------\n\n";
*7d8d0e25Snbeams
*7d8d0e25Snbeams  // View kernel for debugging
*7d8d0e25Snbeams  CeedDebug(code.str().c_str());
*7d8d0e25Snbeams
*7d8d0e25Snbeams  ierr = CeedCompileHip(ceed, code.str().c_str(), &data->module, 1,
*7d8d0e25Snbeams                         "T1d", CeedIntMax(Q1d, data->maxP1d));
*7d8d0e25Snbeams  CeedChk(ierr);
*7d8d0e25Snbeams  ierr = CeedGetKernelHip(ceed, data->module, oper.c_str(), &data->op);
*7d8d0e25Snbeams  CeedChk(ierr);
*7d8d0e25Snbeams
*7d8d0e25Snbeams  ierr = CeedOperatorSetSetupDone(op); CeedChk(ierr);
*7d8d0e25Snbeams  return 0;
*7d8d0e25Snbeams}
*7d8d0e25Snbeams//------------------------------------------------------------------------------