cuda-ref/kernels/cuda-ref-vector.cu

3d8e8822SJeremy L Thompson// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
3d8e8822SJeremy L Thompson// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
0d0321e0SJeremy L Thompson//
3d8e8822SJeremy L Thompson// SPDX-License-Identifier: BSD-2-Clause
0d0321e0SJeremy L Thompson//
3d8e8822SJeremy L Thompson// This file is part of CEED:  http://github.com/ceed
0d0321e0SJeremy L Thompson
49aac155SJeremy L Thompson#include <ceed.h>
0d0321e0SJeremy L Thompson#include <cuda.h>
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Kernel for set value on device
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*f7c1b517Snbeams__global__ static void setValueK(CeedScalar * __restrict__ vec, CeedSize size,
0d0321e0SJeremy L Thompson                                 CeedScalar val) {
*f7c1b517Snbeams  CeedSize idx = threadIdx.x + (CeedSize)blockDim.x * blockIdx.x;
0d0321e0SJeremy L Thompson  if (idx >= size)
0d0321e0SJeremy L Thompson    return;
0d0321e0SJeremy L Thompson  vec[idx] = val;
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Set value on device memory
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*f7c1b517Snbeamsextern "C" int CeedDeviceSetValue_Cuda(CeedScalar* d_array, CeedSize length,
0d0321e0SJeremy L Thompson                                       CeedScalar val) {
0d0321e0SJeremy L Thompson  const int bsize = 512;
*f7c1b517Snbeams  const CeedSize vecsize = length;
0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
0d0321e0SJeremy L Thompson    gridsize += 1;
0d0321e0SJeremy L Thompson  setValueK<<<gridsize,bsize>>>(d_array, length, val);
0d0321e0SJeremy L Thompson  return 0;
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Kernel for taking reciprocal
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*f7c1b517Snbeams__global__ static void rcpValueK(CeedScalar * __restrict__ vec, CeedSize size) {
*f7c1b517Snbeams  CeedSize idx = threadIdx.x + (CeedSize)blockDim.x * blockIdx.x;
0d0321e0SJeremy L Thompson  if (idx >= size)
0d0321e0SJeremy L Thompson    return;
0d0321e0SJeremy L Thompson  if (fabs(vec[idx]) > 1E-16)
0d0321e0SJeremy L Thompson    vec[idx] = 1./vec[idx];
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Take vector reciprocal in device memory
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
*f7c1b517Snbeamsextern "C" int CeedDeviceReciprocal_Cuda(CeedScalar* d_array, CeedSize length) {
0d0321e0SJeremy L Thompson  const int bsize = 512;
*f7c1b517Snbeams  const CeedSize vecsize = length;
0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
0d0321e0SJeremy L Thompson    gridsize += 1;
0d0321e0SJeremy L Thompson  rcpValueK<<<gridsize,bsize>>>(d_array, length);
0d0321e0SJeremy L Thompson  return 0;
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Kernel for scale
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson__global__ static void scaleValueK(CeedScalar * __restrict__ x, CeedScalar alpha,
*f7c1b517Snbeams    CeedSize size) {
*f7c1b517Snbeams  CeedSize idx = threadIdx.x + (CeedSize)blockDim.x * blockIdx.x;
0d0321e0SJeremy L Thompson  if (idx >= size)
0d0321e0SJeremy L Thompson    return;
0d0321e0SJeremy L Thompson  x[idx] *= alpha;
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Compute x = alpha x on device
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompsonextern "C" int CeedDeviceScale_Cuda(CeedScalar *x_array, CeedScalar alpha,
*f7c1b517Snbeams    CeedSize length) {
0d0321e0SJeremy L Thompson  const int bsize = 512;
*f7c1b517Snbeams  const CeedSize vecsize = length;
0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
0d0321e0SJeremy L Thompson    gridsize += 1;
0d0321e0SJeremy L Thompson  scaleValueK<<<gridsize,bsize>>>(x_array, alpha, length);
0d0321e0SJeremy L Thompson  return 0;
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Kernel for axpy
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson__global__ static void axpyValueK(CeedScalar * __restrict__ y, CeedScalar alpha,
*f7c1b517Snbeams    CeedScalar * __restrict__ x, CeedSize size) {
*f7c1b517Snbeams  CeedSize idx = threadIdx.x + (CeedSize)blockDim.x * blockIdx.x;
0d0321e0SJeremy L Thompson  if (idx >= size)
0d0321e0SJeremy L Thompson    return;
0d0321e0SJeremy L Thompson  y[idx] += alpha * x[idx];
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Compute y = alpha x + y on device
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompsonextern "C" int CeedDeviceAXPY_Cuda(CeedScalar *y_array, CeedScalar alpha,
*f7c1b517Snbeams    CeedScalar *x_array, CeedSize length) {
0d0321e0SJeremy L Thompson  const int bsize = 512;
*f7c1b517Snbeams  const CeedSize vecsize = length;
0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
0d0321e0SJeremy L Thompson    gridsize += 1;
0d0321e0SJeremy L Thompson  axpyValueK<<<gridsize,bsize>>>(y_array, alpha, x_array, length);
0d0321e0SJeremy L Thompson  return 0;
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
5fb68f37SKaren (Ren) Stengel// Kernel for axpby
5fb68f37SKaren (Ren) Stengel//------------------------------------------------------------------------------
5fb68f37SKaren (Ren) Stengel__global__ static void axpbyValueK(CeedScalar * __restrict__ y, CeedScalar alpha, CeedScalar beta,
*f7c1b517Snbeams    CeedScalar * __restrict__ x, CeedSize size) {
*f7c1b517Snbeams  CeedSize idx = threadIdx.x + (CeedSize)blockDim.x * blockIdx.x;
5fb68f37SKaren (Ren) Stengel  if (idx >= size)
5fb68f37SKaren (Ren) Stengel    return;
5fb68f37SKaren (Ren) Stengel  y[idx] = beta * y[idx];
5fb68f37SKaren (Ren) Stengel  y[idx] += alpha * x[idx];
5fb68f37SKaren (Ren) Stengel}
5fb68f37SKaren (Ren) Stengel
5fb68f37SKaren (Ren) Stengel//------------------------------------------------------------------------------
5fb68f37SKaren (Ren) Stengel// Compute y = alpha x + beta y on device
5fb68f37SKaren (Ren) Stengel//------------------------------------------------------------------------------
5fb68f37SKaren (Ren) Stengelextern "C" int CeedDeviceAXPBY_Cuda(CeedScalar *y_array, CeedScalar alpha, CeedScalar beta,
*f7c1b517Snbeams    CeedScalar *x_array, CeedSize length) {
5fb68f37SKaren (Ren) Stengel  const int bsize = 512;
*f7c1b517Snbeams  const CeedSize vecsize = length;
5fb68f37SKaren (Ren) Stengel  int gridsize = vecsize / bsize;
5fb68f37SKaren (Ren) Stengel
5fb68f37SKaren (Ren) Stengel  if (bsize * gridsize < vecsize)
5fb68f37SKaren (Ren) Stengel    gridsize += 1;
5fb68f37SKaren (Ren) Stengel  axpbyValueK<<<gridsize,bsize>>>(y_array, alpha, beta, x_array, length);
5fb68f37SKaren (Ren) Stengel  return 0;
5fb68f37SKaren (Ren) Stengel}
5fb68f37SKaren (Ren) Stengel
5fb68f37SKaren (Ren) Stengel//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Kernel for pointwise mult
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson__global__ static void pointwiseMultValueK(CeedScalar * __restrict__ w,
*f7c1b517Snbeams    CeedScalar * x, CeedScalar * __restrict__ y, CeedSize size) {
*f7c1b517Snbeams  CeedSize idx = threadIdx.x + (CeedSize)blockDim.x * blockIdx.x;
0d0321e0SJeremy L Thompson  if (idx >= size)
0d0321e0SJeremy L Thompson    return;
0d0321e0SJeremy L Thompson  w[idx] = x[idx] * y[idx];
0d0321e0SJeremy L Thompson}
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompson// Compute the pointwise multiplication w = x .* y on device
0d0321e0SJeremy L Thompson//------------------------------------------------------------------------------
0d0321e0SJeremy L Thompsonextern "C" int CeedDevicePointwiseMult_Cuda(CeedScalar *w_array, CeedScalar *x_array,
*f7c1b517Snbeams    CeedScalar *y_array, CeedSize length) {
0d0321e0SJeremy L Thompson  const int bsize = 512;
*f7c1b517Snbeams  const CeedSize vecsize = length;
0d0321e0SJeremy L Thompson  int gridsize = vecsize / bsize;
0d0321e0SJeremy L Thompson
0d0321e0SJeremy L Thompson  if (bsize * gridsize < vecsize)
0d0321e0SJeremy L Thompson    gridsize += 1;
0d0321e0SJeremy L Thompson  pointwiseMultValueK<<<gridsize,bsize>>>(w_array, x_array, y_array, length);
0d0321e0SJeremy L Thompson  return 0;
0d0321e0SJeremy L Thompson}
2a86cc9dSSebastian Grimberg
2a86cc9dSSebastian Grimberg//------------------------------------------------------------------------------