cuda-ref/kernels/cuda-ref-vector.cu

*0d0321e0SJeremy L Thompson// Copyright (c) 2017, Lawrence Livermore National Security, LLC. Produced at
*0d0321e0SJeremy L Thompson// the Lawrence Livermore National Laboratory. LLNL-CODE-734707. All Rights
*0d0321e0SJeremy L Thompson// reserved. See files LICENSE and NOTICE for details.
*0d0321e0SJeremy L Thompson//
*0d0321e0SJeremy L Thompson// This file is part of CEED, a collection of benchmarks, miniapps, software
*0d0321e0SJeremy L Thompson// libraries and APIs for efficient high-order finite element and spectral
*0d0321e0SJeremy L Thompson// element discretizations for exascale applications. For more information and
*0d0321e0SJeremy L Thompson// source code availability see http://github.com/ceed.
*0d0321e0SJeremy L Thompson//
*0d0321e0SJeremy L Thompson// The CEED research is supported by the Exascale Computing Project 17-SC-20-SC,
*0d0321e0SJeremy L Thompson// a collaborative effort of two U.S. Department of Energy organizations (Office
*0d0321e0SJeremy L Thompson// of Science and the National Nuclear Security Administration) responsible for
*0d0321e0SJeremy L Thompson// the planning and preparation of a capable exascale ecosystem, including
*0d0321e0SJeremy L Thompson// software, applications, hardware, advanced system engineering and early
*0d0321e0SJeremy L Thompson// testbed platforms, in support of the nation's exascale computing imperative.
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson#include <ceed/ceed.h>
*0d0321e0SJeremy L Thompson#include <cuda.h>
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Kernel for set value on device
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__global__ static void setValueK(CeedScalar * __restrict__ vec, CeedInt size,
*0d0321e0SJeremy L Thompson                                 CeedScalar val) {
*0d0321e0SJeremy L Thompson  int idx = threadIdx.x + blockDim.x * blockIdx.x;
*0d0321e0SJeremy L Thompson  if (idx >= size)
*0d0321e0SJeremy L Thompson    return;
*0d0321e0SJeremy L Thompson  vec[idx] = val;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Set value on device memory
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" int CeedDeviceSetValue_Cuda(CeedScalar* d_array, CeedInt length,
*0d0321e0SJeremy L Thompson                                       CeedScalar val) {
*0d0321e0SJeremy L Thompson  const int bsize = 512;
*0d0321e0SJeremy L Thompson  const int vecsize = length;
*0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
*0d0321e0SJeremy L Thompson    gridsize += 1;
*0d0321e0SJeremy L Thompson  setValueK<<<gridsize,bsize>>>(d_array, length, val);
*0d0321e0SJeremy L Thompson  return 0;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Kernel for taking reciprocal
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__global__ static void rcpValueK(CeedScalar * __restrict__ vec, CeedInt size) {
*0d0321e0SJeremy L Thompson  int idx = threadIdx.x + blockDim.x * blockIdx.x;
*0d0321e0SJeremy L Thompson  if (idx >= size)
*0d0321e0SJeremy L Thompson    return;
*0d0321e0SJeremy L Thompson  if (fabs(vec[idx]) > 1E-16)
*0d0321e0SJeremy L Thompson    vec[idx] = 1./vec[idx];
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Take vector reciprocal in device memory
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" int CeedDeviceReciprocal_Cuda(CeedScalar* d_array, CeedInt length) {
*0d0321e0SJeremy L Thompson  const int bsize = 512;
*0d0321e0SJeremy L Thompson  const int vecsize = length;
*0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
*0d0321e0SJeremy L Thompson    gridsize += 1;
*0d0321e0SJeremy L Thompson  rcpValueK<<<gridsize,bsize>>>(d_array, length);
*0d0321e0SJeremy L Thompson  return 0;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Kernel for scale
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__global__ static void scaleValueK(CeedScalar * __restrict__ x, CeedScalar alpha,
*0d0321e0SJeremy L Thompson    CeedInt size) {
*0d0321e0SJeremy L Thompson  int idx = threadIdx.x + blockDim.x * blockIdx.x;
*0d0321e0SJeremy L Thompson  if (idx >= size)
*0d0321e0SJeremy L Thompson    return;
*0d0321e0SJeremy L Thompson  x[idx] *= alpha;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Compute x = alpha x on device
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" int CeedDeviceScale_Cuda(CeedScalar *x_array, CeedScalar alpha,
*0d0321e0SJeremy L Thompson    CeedInt length) {
*0d0321e0SJeremy L Thompson  const int bsize = 512;
*0d0321e0SJeremy L Thompson  const int vecsize = length;
*0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
*0d0321e0SJeremy L Thompson    gridsize += 1;
*0d0321e0SJeremy L Thompson  scaleValueK<<<gridsize,bsize>>>(x_array, alpha, length);
*0d0321e0SJeremy L Thompson  return 0;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Kernel for axpy
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__global__ static void axpyValueK(CeedScalar * __restrict__ y, CeedScalar alpha,
*0d0321e0SJeremy L Thompson    CeedScalar * __restrict__ x, CeedInt size) {
*0d0321e0SJeremy L Thompson  int idx = threadIdx.x + blockDim.x * blockIdx.x;
*0d0321e0SJeremy L Thompson  if (idx >= size)
*0d0321e0SJeremy L Thompson    return;
*0d0321e0SJeremy L Thompson  y[idx] += alpha * x[idx];
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Compute y = alpha x + y on device
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" int CeedDeviceAXPY_Cuda(CeedScalar *y_array, CeedScalar alpha,
*0d0321e0SJeremy L Thompson    CeedScalar *x_array, CeedInt length) {
*0d0321e0SJeremy L Thompson  const int bsize = 512;
*0d0321e0SJeremy L Thompson  const int vecsize = length;
*0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
*0d0321e0SJeremy L Thompson    gridsize += 1;
*0d0321e0SJeremy L Thompson  axpyValueK<<<gridsize,bsize>>>(y_array, alpha, x_array, length);
*0d0321e0SJeremy L Thompson  return 0;
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Kernel for pointwise mult
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson__global__ static void pointwiseMultValueK(CeedScalar * __restrict__ w,
*0d0321e0SJeremy L Thompson    CeedScalar * x, CeedScalar * __restrict__ y, CeedInt size) {
*0d0321e0SJeremy L Thompson  int idx = threadIdx.x + blockDim.x * blockIdx.x;
*0d0321e0SJeremy L Thompson  if (idx >= size)
*0d0321e0SJeremy L Thompson    return;
*0d0321e0SJeremy L Thompson  w[idx] = x[idx] * y[idx];
*0d0321e0SJeremy L Thompson}
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompson// Compute the pointwise multiplication w = x .* y on device
*0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*0d0321e0SJeremy L Thompsonextern "C" int CeedDevicePointwiseMult_Cuda(CeedScalar *w_array, CeedScalar *x_array,
*0d0321e0SJeremy L Thompson    CeedScalar *y_array, CeedInt length) {
*0d0321e0SJeremy L Thompson  const int bsize = 512;
*0d0321e0SJeremy L Thompson  const int vecsize = length;
*0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
*0d0321e0SJeremy L Thompson
*0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
*0d0321e0SJeremy L Thompson    gridsize += 1;
*0d0321e0SJeremy L Thompson  pointwiseMultValueK<<<gridsize,bsize>>>(w_array, x_array, y_array, length);
*0d0321e0SJeremy L Thompson  return 0;
*0d0321e0SJeremy L Thompson}