seq/seqhip/sellhip.hip.cxx

*d52a580bSJunchao Zhang#include "hip/hip_runtime.h"
*d52a580bSJunchao Zhang#include <hip/hip_runtime.h>
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang#include <petscdevice_hip.h>
*d52a580bSJunchao Zhang#include <petsc/private/cupmatomics.hpp>
*d52a580bSJunchao Zhang#include <../src/mat/impls/sell/seq/sell.h> /*I   "petscmat.h"  I*/
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang#define WARP_SIZE 64
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangtypedef struct {
*d52a580bSJunchao Zhang  PetscInt   maxallocmat;
*d52a580bSJunchao Zhang  PetscInt   totalentries;
*d52a580bSJunchao Zhang  PetscInt  *colidx; /* column index array, device pointer */
*d52a580bSJunchao Zhang  MatScalar *val;    /* value array, device pointer */
*d52a580bSJunchao Zhang  PetscInt   totalslices;
*d52a580bSJunchao Zhang  PetscInt  *sliidx; /* slice index array, device pointer */
*d52a580bSJunchao Zhang  PetscInt   nonzerostate;
*d52a580bSJunchao Zhang  PetscInt   kernelchoice;
*d52a580bSJunchao Zhang  PetscInt   blocky;
*d52a580bSJunchao Zhang  PetscInt   chunksperblock;
*d52a580bSJunchao Zhang  PetscInt   totalchunks;
*d52a580bSJunchao Zhang  PetscInt  *chunk_slice_map; /* starting slice for each chunk, device pointer */
*d52a580bSJunchao Zhang} Mat_SeqSELLHIP;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatSeqSELLHIP_Destroy(Mat_SeqSELLHIP **hipstruct)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  if (*hipstruct) {
*d52a580bSJunchao Zhang    if ((*hipstruct)->colidx) PetscCallHIP(hipFree((*hipstruct)->colidx));
*d52a580bSJunchao Zhang    if ((*hipstruct)->val) PetscCallHIP(hipFree((*hipstruct)->val));
*d52a580bSJunchao Zhang    if ((*hipstruct)->sliidx) PetscCallHIP(hipFree((*hipstruct)->sliidx));
*d52a580bSJunchao Zhang    if ((*hipstruct)->chunk_slice_map) PetscCallHIP(hipFree((*hipstruct)->chunk_slice_map));
*d52a580bSJunchao Zhang    PetscCall(PetscFree(*hipstruct));
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatSeqSELLHIPCopyToGPU(Mat A)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  Mat_SeqSELLHIP *hipstruct = (Mat_SeqSELLHIP *)A->spptr;
*d52a580bSJunchao Zhang  Mat_SeqSELL    *a         = (Mat_SeqSELL *)A->data;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  if (A->offloadmask == PETSC_OFFLOAD_UNALLOCATED || A->offloadmask == PETSC_OFFLOAD_CPU) {
*d52a580bSJunchao Zhang    PetscCall(PetscLogEventBegin(MAT_HIPCopyToGPU, A, 0, 0, 0));
*d52a580bSJunchao Zhang    if (A->assembled && A->nonzerostate == hipstruct->nonzerostate) {
*d52a580bSJunchao Zhang      /* copy values only */
*d52a580bSJunchao Zhang      PetscCallHIP(hipMemcpy(hipstruct->val, a->val, a->sliidx[a->totalslices] * sizeof(MatScalar), hipMemcpyHostToDevice));
*d52a580bSJunchao Zhang      PetscCall(PetscLogCpuToGpu(a->sliidx[a->totalslices] * (sizeof(MatScalar))));
*d52a580bSJunchao Zhang    } else {
*d52a580bSJunchao Zhang      if (hipstruct->colidx) PetscCallHIP(hipFree(hipstruct->colidx));
*d52a580bSJunchao Zhang      if (hipstruct->val) PetscCallHIP(hipFree(hipstruct->val));
*d52a580bSJunchao Zhang      if (hipstruct->sliidx) PetscCallHIP(hipFree(hipstruct->sliidx));
*d52a580bSJunchao Zhang      if (hipstruct->chunk_slice_map) PetscCallHIP(hipFree(hipstruct->chunk_slice_map));
*d52a580bSJunchao Zhang      hipstruct->maxallocmat  = a->maxallocmat;
*d52a580bSJunchao Zhang      hipstruct->totalentries = a->sliidx[a->totalslices];
*d52a580bSJunchao Zhang      hipstruct->totalslices  = a->totalslices;
*d52a580bSJunchao Zhang      hipstruct->totalchunks  = a->totalchunks;
*d52a580bSJunchao Zhang      PetscCallHIP(hipMalloc((void **)&hipstruct->colidx, a->maxallocmat * sizeof(*hipstruct->colidx)));
*d52a580bSJunchao Zhang      PetscCallHIP(hipMalloc((void **)&hipstruct->val, a->maxallocmat * sizeof(*hipstruct->val)));
*d52a580bSJunchao Zhang      /* copy values, nz or maxallocmat? */
*d52a580bSJunchao Zhang      PetscCallHIP(hipMemcpy(hipstruct->colidx, a->colidx, a->sliidx[a->totalslices] * sizeof(*a->colidx), hipMemcpyHostToDevice));
*d52a580bSJunchao Zhang      PetscCallHIP(hipMemcpy(hipstruct->val, a->val, a->sliidx[a->totalslices] * sizeof(*a->val), hipMemcpyHostToDevice));
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang      PetscCallHIP(hipMalloc((void **)&hipstruct->sliidx, (a->totalslices + 1) * sizeof(*hipstruct->sliidx)));
*d52a580bSJunchao Zhang      PetscCallHIP(hipMemcpy(hipstruct->sliidx, a->sliidx, (a->totalslices + 1) * sizeof(*a->sliidx), hipMemcpyHostToDevice));
*d52a580bSJunchao Zhang      PetscCallHIP(hipMalloc((void **)&hipstruct->chunk_slice_map, a->totalchunks * sizeof(*hipstruct->chunk_slice_map)));
*d52a580bSJunchao Zhang      PetscCallHIP(hipMemcpy(hipstruct->chunk_slice_map, a->chunk_slice_map, a->totalchunks * sizeof(*a->chunk_slice_map), hipMemcpyHostToDevice));
*d52a580bSJunchao Zhang      PetscCall(PetscLogCpuToGpu(a->sliidx[a->totalslices] * (sizeof(MatScalar) + sizeof(PetscInt)) + (a->totalslices + 1 + a->totalchunks) * sizeof(PetscInt)));
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang    PetscCallHIP(WaitForHIP());
*d52a580bSJunchao Zhang    PetscCall(PetscLogEventEnd(MAT_HIPCopyToGPU, A, 0, 0, 0));
*d52a580bSJunchao Zhang    A->offloadmask = PETSC_OFFLOAD_BOTH;
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_basic_kernel(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscInt  i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  MatScalar sum;
*d52a580bSJunchao Zhang  /* one thread per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang    sum          = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice; i < sliidx[slice_id + 1]; i += sliceheight) sum += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    y[row] = sum;
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_basic_kernel(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscInt  i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  MatScalar sum;
*d52a580bSJunchao Zhang  /* one thread per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang    sum          = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice; i < sliidx[slice_id + 1]; i += sliceheight) sum += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    z[row] = y[row] + sum;
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao ZhangPETSC_PRAGMA_DIAGNOSTIC_IGNORED_BEGIN("-Wpass-failed")
*d52a580bSJunchao Zhang/* use 1 block per slice, suitable for large slice width */
*d52a580bSJunchao Zhangtemplate <int BLOCKY>
*d52a580bSJunchao Zhang__global__ void matmult_seqsell_tiled_kernel9(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[WARP_SIZE][BLOCKY];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id = blockIdx.x;
*d52a580bSJunchao Zhang  int                  tid = threadIdx.x + threadIdx.y * WARP_SIZE;
*d52a580bSJunchao Zhang  /* transposed index */
*d52a580bSJunchao Zhang  int         tidx = tid % BLOCKY;
*d52a580bSJunchao Zhang  int         tidy = tid / BLOCKY;
*d52a580bSJunchao Zhang  PetscScalar t    = 0.0;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  row = slice_id * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + threadIdx.x + WARP_SIZE * threadIdx.y; i < sliidx[slice_id + 1]; i += WARP_SIZE * BLOCKY) t += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int offset = WARP_SIZE / 2; offset >= sliceheight; offset /= 2) t += __shfl_down(t, offset);
*d52a580bSJunchao Zhang  /* transpose layout to reduce each row using warp shfl */
*d52a580bSJunchao Zhang  if (threadIdx.x < sliceheight) shared[threadIdx.x][threadIdx.y] = t;
*d52a580bSJunchao Zhang  __syncthreads();
*d52a580bSJunchao Zhang  if (tidy < sliceheight) t = shared[tidy][tidx];
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int offset = BLOCKY / 2; offset > 0; offset /= 2) t += __shfl_down(t, offset, BLOCKY);
*d52a580bSJunchao Zhang  if (tidx == 0 && tidy < sliceheight) shared[0][tidy] = t;
*d52a580bSJunchao Zhang  __syncthreads();
*d52a580bSJunchao Zhang  if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) y[row] = shared[0][threadIdx.x];
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/* use 1 block per slice, suitable for large slice width */
*d52a580bSJunchao Zhangtemplate <int BLOCKY>
*d52a580bSJunchao Zhang__global__ void matmultadd_seqsell_tiled_kernel9(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[WARP_SIZE][BLOCKY];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id = blockIdx.x;
*d52a580bSJunchao Zhang  int                  tid = threadIdx.x + threadIdx.y * WARP_SIZE;
*d52a580bSJunchao Zhang  /* transposed index */
*d52a580bSJunchao Zhang  int         tidx = tid % BLOCKY;
*d52a580bSJunchao Zhang  int         tidy = tid / BLOCKY;
*d52a580bSJunchao Zhang  PetscScalar t    = 0.0;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  row = slice_id * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + threadIdx.x + WARP_SIZE * threadIdx.y; i < sliidx[slice_id + 1]; i += WARP_SIZE * BLOCKY) t += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int offset = WARP_SIZE / 2; offset >= sliceheight; offset /= 2) t += __shfl_down(t, offset);
*d52a580bSJunchao Zhang  /* transpose layout to reduce each row using warp shfl */
*d52a580bSJunchao Zhang  if (threadIdx.x < sliceheight) shared[threadIdx.x][threadIdx.y] = t;
*d52a580bSJunchao Zhang  __syncthreads();
*d52a580bSJunchao Zhang  if (tidy < sliceheight) t = shared[tidy][tidx];
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int offset = BLOCKY / 2; offset > 0; offset /= 2) t += __shfl_down(t, offset, BLOCKY);
*d52a580bSJunchao Zhang  if (tidx == 0 && tidy < sliceheight) shared[0][tidy] = t;
*d52a580bSJunchao Zhang  __syncthreads();
*d52a580bSJunchao Zhang  if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) z[row] = y[row] + shared[0][threadIdx.x];
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangtemplate <int BLOCKY>
*d52a580bSJunchao Zhang__device__ __forceinline__ static bool segment_scan(PetscInt flag[], MatScalar shared[], PetscScalar *val)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  bool head = true;
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int i = 1; i < BLOCKY * 2; i <<= 1) {
*d52a580bSJunchao Zhang    int halfwarpid                                = threadIdx.y * 2 + threadIdx.x / (WARP_SIZE / 2);
*d52a580bSJunchao Zhang    shared[threadIdx.x + threadIdx.y * WARP_SIZE] = 0;
*d52a580bSJunchao Zhang    if (halfwarpid >= i && flag[halfwarpid - i] == flag[halfwarpid]) {
*d52a580bSJunchao Zhang      shared[threadIdx.x + threadIdx.y * WARP_SIZE] = *val;
*d52a580bSJunchao Zhang      if (i == 1) head = false;
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (halfwarpid < BLOCKY * 2 - i) *val += shared[threadIdx.x + threadIdx.y * WARP_SIZE + i * WARP_SIZE];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  return head;
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/* load-balancing version. Chunksize is equal to the number of threads per block */
*d52a580bSJunchao Zhangtemplate <int BLOCKY>
*d52a580bSJunchao Zhang__global__ void matmult_seqsell_tiled_kernel8(PetscInt nrows, PetscInt sliceheight, PetscInt chunksperblock, PetscInt totalchunks, const PetscInt *chunk_slice_map, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[BLOCKY * WARP_SIZE];
*d52a580bSJunchao Zhang  PetscInt             gid, row, start_slice, cid;
*d52a580bSJunchao Zhang  PetscScalar          t = 0.0;
*d52a580bSJunchao Zhang  AtomicAdd<MatScalar> atomAdd;
*d52a580bSJunchao Zhang  /* zero out y */
*d52a580bSJunchao Zhang  for (int iter = 0; iter < 1 + (nrows - 1) / (gridDim.x * WARP_SIZE * BLOCKY); iter++) {
*d52a580bSJunchao Zhang    gid = gridDim.x * WARP_SIZE * BLOCKY * iter + blockIdx.x * BLOCKY * WARP_SIZE + threadIdx.y * WARP_SIZE + threadIdx.x;
*d52a580bSJunchao Zhang    if (gid < nrows) y[gid] = 0.0;
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  for (int iter = 0; iter < chunksperblock; iter++) {
*d52a580bSJunchao Zhang    cid = blockIdx.x * chunksperblock + iter; /* chunk id */
*d52a580bSJunchao Zhang    if (cid < totalchunks) {
*d52a580bSJunchao Zhang      start_slice = chunk_slice_map[cid]; /* starting slice at each iteration */
*d52a580bSJunchao Zhang      gid         = cid * BLOCKY * WARP_SIZE + threadIdx.y * WARP_SIZE + threadIdx.x;
*d52a580bSJunchao Zhang      if ((cid + 1) * BLOCKY * WARP_SIZE > sliidx[start_slice + 1]) { /* this iteration covers more than one slice */
*d52a580bSJunchao Zhang        __shared__ PetscInt flag[BLOCKY * 2];
*d52a580bSJunchao Zhang        bool                write;
*d52a580bSJunchao Zhang        PetscInt            slice_id = start_slice, totalslices = PetscCeilIntMacro(nrows, sliceheight), totalentries = sliidx[totalslices];
*d52a580bSJunchao Zhang        /* find out the slice that this element belongs to */
*d52a580bSJunchao Zhang        while (gid < totalentries && gid >= sliidx[slice_id + 1]) slice_id++;
*d52a580bSJunchao Zhang        if (threadIdx.x % (WARP_SIZE / 2) == 0) flag[threadIdx.y * 2 + threadIdx.x / (WARP_SIZE / 2)] = slice_id;
*d52a580bSJunchao Zhang        row = slice_id * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang        if (row < nrows && gid < totalentries) t = aval[gid] * x[acolidx[gid]];
*d52a580bSJunchao Zhang        __syncthreads();
*d52a580bSJunchao Zhang        write = segment_scan<BLOCKY>(flag, shared, &t);
*d52a580bSJunchao Zhang        if (row < nrows && gid < totalentries && write) atomAdd(y[row], t);
*d52a580bSJunchao Zhang        t = 0.0;
*d52a580bSJunchao Zhang      } else { /* this iteration covers only one slice */
*d52a580bSJunchao Zhang        row = start_slice * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang        if (row < nrows) t += aval[gid] * x[acolidx[gid]];
*d52a580bSJunchao Zhang        if (iter == chunksperblock - 1 || (cid + 2) * BLOCKY * WARP_SIZE > sliidx[start_slice + 1]) { /* last iteration or next iteration covers more than one slice */
*d52a580bSJunchao Zhang          int tid = threadIdx.x + threadIdx.y * WARP_SIZE, tidx = tid % BLOCKY, tidy = tid / BLOCKY;
*d52a580bSJunchao Zhang  /* reduction and write to output vector */
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang          for (int offset = WARP_SIZE / 2; offset >= sliceheight; offset /= 2) t += __shfl_down(t, offset);
*d52a580bSJunchao Zhang          /* transpose layout to reduce each row using warp shfl */
*d52a580bSJunchao Zhang          if (threadIdx.x < sliceheight) shared[threadIdx.x * BLOCKY + threadIdx.y] = t; /* shared[threadIdx.x][threadIdx.y] = t */
*d52a580bSJunchao Zhang          __syncthreads();
*d52a580bSJunchao Zhang          if (tidy < sliceheight) t = shared[tidy * BLOCKY + tidx]; /* shared[tidy][tidx] */
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang          for (int offset = BLOCKY / 2; offset > 0; offset /= 2) t += __shfl_down(t, offset, BLOCKY);
*d52a580bSJunchao Zhang          if (tidx == 0 && tidy < sliceheight) shared[tidy] = t; /* shared[0][tidy] = t */
*d52a580bSJunchao Zhang          __syncthreads();
*d52a580bSJunchao Zhang          if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) atomAdd(y[row], shared[threadIdx.x]); /* shared[0][threadIdx.x] */
*d52a580bSJunchao Zhang          t = 0.0;
*d52a580bSJunchao Zhang        }
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/* load-balancing version. Chunksize is equal to the number of threads per block */
*d52a580bSJunchao Zhangtemplate <int BLOCKY>
*d52a580bSJunchao Zhang__global__ void matmultadd_seqsell_tiled_kernel8(PetscInt nrows, PetscInt sliceheight, PetscInt chunksperblock, PetscInt totalchunks, const PetscInt *chunk_slice_map, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[BLOCKY * WARP_SIZE];
*d52a580bSJunchao Zhang  PetscInt             gid, row, start_slice, cid;
*d52a580bSJunchao Zhang  PetscScalar          t = 0.0;
*d52a580bSJunchao Zhang  AtomicAdd<MatScalar> atomAdd;
*d52a580bSJunchao Zhang  /* copy y to z */
*d52a580bSJunchao Zhang  for (int iter = 0; iter < 1 + (nrows - 1) / (gridDim.x * WARP_SIZE * BLOCKY); iter++) {
*d52a580bSJunchao Zhang    gid = gridDim.x * WARP_SIZE * BLOCKY * iter + blockIdx.x * BLOCKY * WARP_SIZE + threadIdx.y * WARP_SIZE + threadIdx.x;
*d52a580bSJunchao Zhang    if (gid < nrows) z[gid] = y[gid];
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  for (int iter = 0; iter < chunksperblock; iter++) {
*d52a580bSJunchao Zhang    cid = blockIdx.x * chunksperblock + iter; /* chunk id */
*d52a580bSJunchao Zhang    if (cid < totalchunks) {
*d52a580bSJunchao Zhang      start_slice = chunk_slice_map[cid]; /* starting slice at each iteration */
*d52a580bSJunchao Zhang      gid         = cid * BLOCKY * WARP_SIZE + threadIdx.y * WARP_SIZE + threadIdx.x;
*d52a580bSJunchao Zhang      if ((cid + 1) * BLOCKY * WARP_SIZE > sliidx[start_slice + 1]) { /* this iteration covers more than one slice */
*d52a580bSJunchao Zhang        __shared__ PetscInt flag[BLOCKY * 2];
*d52a580bSJunchao Zhang        bool                write;
*d52a580bSJunchao Zhang        PetscInt            slice_id = start_slice, totalslices = PetscCeilIntMacro(nrows, sliceheight), totalentries = sliidx[totalslices];
*d52a580bSJunchao Zhang        /* find out the slice that this element belongs to */
*d52a580bSJunchao Zhang        while (gid < totalentries && gid >= sliidx[slice_id + 1]) slice_id++;
*d52a580bSJunchao Zhang        if (threadIdx.x % (WARP_SIZE / 2) == 0) flag[threadIdx.y * 2 + threadIdx.x / (WARP_SIZE / 2)] = slice_id;
*d52a580bSJunchao Zhang        row = slice_id * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang        if (row < nrows && gid < totalentries) t = aval[gid] * x[acolidx[gid]];
*d52a580bSJunchao Zhang        __syncthreads();
*d52a580bSJunchao Zhang        write = segment_scan<BLOCKY>(flag, shared, &t);
*d52a580bSJunchao Zhang        if (row < nrows && gid < totalentries && write) atomAdd(z[row], t);
*d52a580bSJunchao Zhang        t = 0.0;
*d52a580bSJunchao Zhang      } else { /* this iteration covers only one slice */
*d52a580bSJunchao Zhang        row = start_slice * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang        if (row < nrows) t += aval[gid] * x[acolidx[gid]];
*d52a580bSJunchao Zhang        if (iter == chunksperblock - 1 || (cid + 2) * BLOCKY * WARP_SIZE > sliidx[start_slice + 1]) { /* last iteration or next iteration covers more than one slice */
*d52a580bSJunchao Zhang          int tid = threadIdx.x + threadIdx.y * WARP_SIZE, tidx = tid % BLOCKY, tidy = tid / BLOCKY;
*d52a580bSJunchao Zhang  /* reduction and write to output vector */
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang          for (int offset = WARP_SIZE / 2; offset >= sliceheight; offset /= 2) t += __shfl_down(t, offset);
*d52a580bSJunchao Zhang          /* transpose layout to reduce each row using warp shfl */
*d52a580bSJunchao Zhang          if (threadIdx.x < sliceheight) shared[threadIdx.x * BLOCKY + threadIdx.y] = t; /* shared[threadIdx.x][threadIdx.y] = t */
*d52a580bSJunchao Zhang          __syncthreads();
*d52a580bSJunchao Zhang          if (tidy < sliceheight) t = shared[tidy * BLOCKY + tidx]; /* shared[tidy][tidx] */
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang          for (int offset = BLOCKY / 2; offset > 0; offset /= 2) t += __shfl_down(t, offset, BLOCKY);
*d52a580bSJunchao Zhang          if (tidx == 0 && tidy < sliceheight) shared[tidy] = t; /* shared[0][tidy] = t */
*d52a580bSJunchao Zhang          __syncthreads();
*d52a580bSJunchao Zhang          if (row < nrows && threadIdx.y == 0 && threadIdx.x < sliceheight) atomAdd(z[row], shared[threadIdx.x]); /* shared[0][threadIdx.x] */
*d52a580bSJunchao Zhang          t = 0.0;
*d52a580bSJunchao Zhang        }
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/* use 1 warp per slice, suitable for small slice width */
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_tiled_kernel7(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscInt i, row, slice_id;
*d52a580bSJunchao Zhang  slice_id = blockIdx.x * blockDim.y + threadIdx.y;
*d52a580bSJunchao Zhang  row      = slice_id * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang  double t = 0.0;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + threadIdx.x; i < sliidx[slice_id + 1]; i += WARP_SIZE) t += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int offset = WARP_SIZE / 2; offset >= sliceheight; offset /= 2) t += __shfl_down(t, offset);
*d52a580bSJunchao Zhang  if (row < nrows && threadIdx.x < sliceheight) y[row] = t;
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/* use 1 warp per slice, suitable for small slice width */
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_tiled_kernel7(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscInt i, row, slice_id;
*d52a580bSJunchao Zhang  slice_id = blockIdx.x * blockDim.y + threadIdx.y;
*d52a580bSJunchao Zhang  row      = slice_id * sliceheight + threadIdx.x % sliceheight;
*d52a580bSJunchao Zhang  double t = 0.0;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + threadIdx.x; i < sliidx[slice_id + 1]; i += WARP_SIZE) t += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  #pragma unroll
*d52a580bSJunchao Zhang  for (int offset = WARP_SIZE / 2; offset >= sliceheight; offset /= 2) t += __shfl_down(t, offset);
*d52a580bSJunchao Zhang  if (row < nrows && threadIdx.x < sliceheight) z[row] = y[row] + t;
*d52a580bSJunchao Zhang}
*d52a580bSJunchao ZhangPETSC_PRAGMA_DIAGNOSTIC_IGNORED_END()
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/***********  Kernel 2-6 require a slice height smaller than 512, 256, 128, 64, 32, espectively. They are kept only for performance comparison  **********/
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_tiled_kernel6(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 16) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 16) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 8) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 4) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      y[row] = shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_tiled_kernel5(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 8) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 4) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      y[row] = shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_tiled_kernel4(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 4) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      y[row] = shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_tiled_kernel3(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      y[row] = shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmult_seqsell_tiled_kernel2(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, PetscScalar *y)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      y[row] = shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_tiled_kernel6(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 16) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 16) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 8) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 4) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      z[row] = y[row] + shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_tiled_kernel5(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 8) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 8) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 4) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      z[row] = y[row] + shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_tiled_kernel4(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 4) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 4) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      z[row] = y[row] + shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_tiled_kernel3(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 2) shared[threadIdx.y * blockDim.x + threadIdx.x] += shared[(threadIdx.y + 2) * blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      z[row] = y[row] + shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic __global__ void matmultadd_seqsell_tiled_kernel2(PetscInt nrows, PetscInt sliceheight, const PetscInt *acolidx, const MatScalar *aval, const PetscInt *sliidx, const PetscScalar *x, const PetscScalar *y, PetscScalar *z)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  __shared__ MatScalar shared[32 * 16];
*d52a580bSJunchao Zhang  PetscInt             i, row, slice_id, row_in_slice;
*d52a580bSJunchao Zhang  /* multiple threads per row. */
*d52a580bSJunchao Zhang  row = blockIdx.x * blockDim.x + threadIdx.x;
*d52a580bSJunchao Zhang  if (row < nrows) {
*d52a580bSJunchao Zhang    slice_id     = row / sliceheight;
*d52a580bSJunchao Zhang    row_in_slice = row % sliceheight;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    shared[threadIdx.y * blockDim.x + threadIdx.x] = 0.0;
*d52a580bSJunchao Zhang    for (i = sliidx[slice_id] + row_in_slice + sliceheight * threadIdx.y; i < sliidx[slice_id + 1]; i += sliceheight * blockDim.y) shared[threadIdx.y * blockDim.x + threadIdx.x] += aval[i] * x[acolidx[i]];
*d52a580bSJunchao Zhang    __syncthreads();
*d52a580bSJunchao Zhang    if (threadIdx.y < 1) {
*d52a580bSJunchao Zhang      shared[threadIdx.x] += shared[blockDim.x + threadIdx.x];
*d52a580bSJunchao Zhang      z[row] = y[row] + shared[threadIdx.x];
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatMult_SeqSELLHIP(Mat A, Vec xx, Vec yy)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  Mat_SeqSELL       *a         = (Mat_SeqSELL *)A->data;
*d52a580bSJunchao Zhang  Mat_SeqSELLHIP    *hipstruct = (Mat_SeqSELLHIP *)A->spptr;
*d52a580bSJunchao Zhang  PetscScalar       *y;
*d52a580bSJunchao Zhang  const PetscScalar *x;
*d52a580bSJunchao Zhang  PetscInt           nrows = A->rmap->n, sliceheight = a->sliceheight;
*d52a580bSJunchao Zhang  MatScalar         *aval;
*d52a580bSJunchao Zhang  PetscInt          *acolidx;
*d52a580bSJunchao Zhang  PetscInt          *sliidx;
*d52a580bSJunchao Zhang  PetscInt           nblocks, blocksize = 512; /* blocksize is fixed to be 512 */
*d52a580bSJunchao Zhang  dim3               block2(256, 2), block4(128, 4), block8(64, 8), block16(32, 16), block32(16, 32);
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao Zhang  PetscInt  chunksperblock, nchunks, *chunk_slice_map;
*d52a580bSJunchao Zhang  PetscReal maxoveravg;
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCheck(WARP_SIZE % sliceheight == 0, PETSC_COMM_SELF, PETSC_ERR_SUP, "The kernel requires a slice height be a divisor of WARP_SIZE, but the input matrix has a slice height of %" PetscInt_FMT, sliceheight);
*d52a580bSJunchao Zhang  PetscCheck(!(hipstruct->kernelchoice >= 2 && hipstruct->kernelchoice <= 6 && sliceheight > 32), PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Kernel choices {2-6} requires the slice height of the matrix be less than 32, but the current slice height is %" PetscInt_FMT, sliceheight);
*d52a580bSJunchao Zhang  PetscCall(MatSeqSELLHIPCopyToGPU(A));
*d52a580bSJunchao Zhang  /* hipstruct may not be available until MatSeqSELLHIPCopyToGPU() is called */
*d52a580bSJunchao Zhang  aval    = hipstruct->val;
*d52a580bSJunchao Zhang  acolidx = hipstruct->colidx;
*d52a580bSJunchao Zhang  sliidx  = hipstruct->sliidx;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscCall(VecHIPGetArrayRead(xx, &x));
*d52a580bSJunchao Zhang  PetscCall(VecHIPGetArrayWrite(yy, &y));
*d52a580bSJunchao Zhang  PetscCall(PetscLogGpuTimeBegin());
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  switch (hipstruct->kernelchoice) {
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao Zhang  case 9: /* 1 slice per block */
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang    if (hipstruct->blocky == 2) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel9<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else if (hipstruct->blocky == 4) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel9<4><<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else if (hipstruct->blocky == 8) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel9<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else if (hipstruct->blocky == 16) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel9<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel9<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang  case 7: /* each block handles blocky slices */
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / (hipstruct->blocky * sliceheight);
*d52a580bSJunchao Zhang    if (hipstruct->blocky == 2) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else if (hipstruct->blocky == 4) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else if (hipstruct->blocky == 8) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else if (hipstruct->blocky == 16) {
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    } else {
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (2 * sliceheight);
*d52a580bSJunchao Zhang      matmult_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang  case 6:
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 32); /* 1 slice per block if sliceheight=32 */
*d52a580bSJunchao Zhang    matmult_seqsell_tiled_kernel6<<<nblocks, block32>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang  case 5:
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 16); /* 2 slices per block if sliceheight=32*/
*d52a580bSJunchao Zhang    matmult_seqsell_tiled_kernel5<<<nblocks, block16>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang  case 4:
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 8); /* 4 slices per block if sliceheight=32 */
*d52a580bSJunchao Zhang    matmult_seqsell_tiled_kernel4<<<nblocks, block8>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang  case 3:
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 4); /* 8 slices per block if sliceheight=32 */
*d52a580bSJunchao Zhang    matmult_seqsell_tiled_kernel3<<<nblocks, block4>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang  case 2: /* 16 slices per block if sliceheight=32 */
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / (blocksize / 2);
*d52a580bSJunchao Zhang    matmult_seqsell_tiled_kernel2<<<nblocks, block2>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang  case 1: /* 32 slices per block if sliceheight=32 */
*d52a580bSJunchao Zhang    nblocks = 1 + (nrows - 1) / blocksize;
*d52a580bSJunchao Zhang    matmult_seqsell_basic_kernel<<<nblocks, blocksize>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao Zhang  case 0:
*d52a580bSJunchao Zhang    maxoveravg = a->maxslicewidth / a->avgslicewidth;
*d52a580bSJunchao Zhang    if (maxoveravg > 12.0 && maxoveravg / nrows > 0.001) { /* important threshold */
*d52a580bSJunchao Zhang      /* each block handles approximately one slice */
*d52a580bSJunchao Zhang      PetscInt blocky = a->chunksize / 32;
*d52a580bSJunchao Zhang      nchunks         = hipstruct->totalchunks;
*d52a580bSJunchao Zhang      chunksperblock  = hipstruct->chunksperblock ? hipstruct->chunksperblock : 1 + (hipstruct->totalentries / hipstruct->totalslices - 1) / a->chunksize;
*d52a580bSJunchao Zhang      nblocks         = 1 + (nchunks - 1) / chunksperblock;
*d52a580bSJunchao Zhang      chunk_slice_map = hipstruct->chunk_slice_map;
*d52a580bSJunchao Zhang      if (blocky == 2) {
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel8<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      } else if (blocky == 4) {
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel8<4><<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      } else if (blocky == 8) {
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel8<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      } else if (blocky == 16) {
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel8<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      } else {
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel8<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang    } else {
*d52a580bSJunchao Zhang      PetscInt avgslicesize = sliceheight * a->avgslicewidth;
*d52a580bSJunchao Zhang      if (avgslicesize <= 432) {
*d52a580bSJunchao Zhang        if (sliceheight * a->maxslicewidth < 2048 && nrows > 100000) {
*d52a580bSJunchao Zhang          nblocks = 1 + (nrows - 1) / (2 * sliceheight); /* two slices per block */
*d52a580bSJunchao Zhang          matmult_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang        } else {
*d52a580bSJunchao Zhang          nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang          matmult_seqsell_tiled_kernel9<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang        }
*d52a580bSJunchao Zhang      } else if (avgslicesize <= 2400) {
*d52a580bSJunchao Zhang        nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel9<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      } else {
*d52a580bSJunchao Zhang        nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang        matmult_seqsell_tiled_kernel9<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y);
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang    break;
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang  default:
*d52a580bSJunchao Zhang    SETERRQ(PETSC_COMM_SELF, PETSC_ERR_SUP, "unsupported kernel choice %" PetscInt_FMT " for MatMult_SeqSELLHIP.", hipstruct->kernelchoice);
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscCall(PetscLogGpuTimeEnd());
*d52a580bSJunchao Zhang  PetscCall(VecHIPRestoreArrayRead(xx, &x));
*d52a580bSJunchao Zhang  PetscCall(VecHIPRestoreArrayWrite(yy, &y));
*d52a580bSJunchao Zhang  PetscCall(PetscLogGpuFlops(2.0 * a->nz - a->nonzerorowcnt));
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatMultAdd_SeqSELLHIP(Mat A, Vec xx, Vec yy, Vec zz)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  Mat_SeqSELL       *a         = (Mat_SeqSELL *)A->data;
*d52a580bSJunchao Zhang  Mat_SeqSELLHIP    *hipstruct = (Mat_SeqSELLHIP *)A->spptr;
*d52a580bSJunchao Zhang  PetscScalar       *z;
*d52a580bSJunchao Zhang  const PetscScalar *y, *x;
*d52a580bSJunchao Zhang  PetscInt           nrows = A->rmap->n, sliceheight = a->sliceheight;
*d52a580bSJunchao Zhang  MatScalar         *aval    = hipstruct->val;
*d52a580bSJunchao Zhang  PetscInt          *acolidx = hipstruct->colidx;
*d52a580bSJunchao Zhang  PetscInt          *sliidx  = hipstruct->sliidx;
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao Zhang  PetscReal maxoveravg;
*d52a580bSJunchao Zhang  PetscInt  chunksperblock, nchunks, *chunk_slice_map;
*d52a580bSJunchao Zhang  PetscInt  blocky = hipstruct->blocky;
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCheck(WARP_SIZE % sliceheight == 0, PETSC_COMM_SELF, PETSC_ERR_SUP, "The kernel requires a slice height be a divisor of WARP_SIZE, but the input matrix has a slice height of %" PetscInt_FMT, sliceheight);
*d52a580bSJunchao Zhang  PetscCheck(!(hipstruct->kernelchoice >= 2 && hipstruct->kernelchoice <= 6 && sliceheight != sliceheight), PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Kernel choices {2-6} requires the slice height of the matrix be 16, but the current slice height is %" PetscInt_FMT, sliceheight);
*d52a580bSJunchao Zhang  PetscCall(MatSeqSELLHIPCopyToGPU(A));
*d52a580bSJunchao Zhang  if (a->nz) {
*d52a580bSJunchao Zhang    PetscInt nblocks, blocksize = 512;
*d52a580bSJunchao Zhang    dim3     block2(256, 2), block4(128, 4), block8(64, 8), block16(32, 16), block32(16, 32);
*d52a580bSJunchao Zhang    PetscCall(VecHIPGetArrayRead(xx, &x));
*d52a580bSJunchao Zhang    PetscCall(VecHIPGetArrayRead(yy, &y));
*d52a580bSJunchao Zhang    PetscCall(VecHIPGetArrayWrite(zz, &z));
*d52a580bSJunchao Zhang    PetscCall(PetscLogGpuTimeBegin());
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang    switch (hipstruct->kernelchoice) {
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao Zhang    case 9:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang      if (blocky == 2) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel9<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 4) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel9<4><<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 8) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel9<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 16) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel9<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel9<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 8:
*d52a580bSJunchao Zhang      /* each block handles approximately one slice */
*d52a580bSJunchao Zhang      nchunks         = hipstruct->totalchunks;
*d52a580bSJunchao Zhang      blocky          = a->chunksize / 32;
*d52a580bSJunchao Zhang      chunksperblock  = hipstruct->chunksperblock ? hipstruct->chunksperblock : 1 + (hipstruct->totalentries / hipstruct->totalslices - 1) / a->chunksize;
*d52a580bSJunchao Zhang      nblocks         = 1 + (nchunks - 1) / chunksperblock;
*d52a580bSJunchao Zhang      chunk_slice_map = hipstruct->chunk_slice_map;
*d52a580bSJunchao Zhang      if (blocky == 2) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 4) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel8<4><<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 8) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel8<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 16) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel8<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 7:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (blocky * sliceheight);
*d52a580bSJunchao Zhang      if (blocky == 2) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 4) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 8) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else if (blocky == 16) {
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      } else {
*d52a580bSJunchao Zhang        nblocks = 1 + (nrows - 1) / (2 * sliceheight);
*d52a580bSJunchao Zhang        matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang    case 6:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 32);
*d52a580bSJunchao Zhang      matmultadd_seqsell_tiled_kernel6<<<nblocks, block32>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 5:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 16);
*d52a580bSJunchao Zhang      matmultadd_seqsell_tiled_kernel5<<<nblocks, block16>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 4:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 8);
*d52a580bSJunchao Zhang      matmultadd_seqsell_tiled_kernel4<<<nblocks, block8>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 3:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 4);
*d52a580bSJunchao Zhang      matmultadd_seqsell_tiled_kernel3<<<nblocks, block4>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 2:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / (blocksize / 2);
*d52a580bSJunchao Zhang      matmultadd_seqsell_tiled_kernel2<<<nblocks, block2>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang    case 1:
*d52a580bSJunchao Zhang      nblocks = 1 + (nrows - 1) / blocksize;
*d52a580bSJunchao Zhang      matmultadd_seqsell_basic_kernel<<<nblocks, blocksize>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang#if !defined(PETSC_USE_COMPLEX)
*d52a580bSJunchao Zhang    case 0:
*d52a580bSJunchao Zhang      maxoveravg = a->maxslicewidth / a->avgslicewidth;
*d52a580bSJunchao Zhang      if (maxoveravg > 12.0 && maxoveravg / nrows > 0.001) { /* important threshold */
*d52a580bSJunchao Zhang        /* each block handles approximately one slice */
*d52a580bSJunchao Zhang        nchunks         = hipstruct->totalchunks;
*d52a580bSJunchao Zhang        blocky          = a->chunksize / 32;
*d52a580bSJunchao Zhang        chunksperblock  = hipstruct->chunksperblock ? hipstruct->chunksperblock : 1 + (hipstruct->totalentries / hipstruct->totalslices - 1) / a->chunksize;
*d52a580bSJunchao Zhang        nblocks         = 1 + (nchunks - 1) / chunksperblock;
*d52a580bSJunchao Zhang        chunk_slice_map = hipstruct->chunk_slice_map;
*d52a580bSJunchao Zhang        if (blocky == 2) {
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        } else if (blocky == 4) {
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel8<4><<<nblocks, dim3(WARP_SIZE, 4)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        } else if (blocky == 8) {
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel8<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        } else if (blocky == 16) {
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel8<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        } else {
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel8<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, chunksperblock, nchunks, chunk_slice_map, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        }
*d52a580bSJunchao Zhang      } else {
*d52a580bSJunchao Zhang        PetscInt avgslicesize = sliceheight * a->avgslicewidth;
*d52a580bSJunchao Zhang        if (avgslicesize <= 432) {
*d52a580bSJunchao Zhang          if (sliceheight * a->maxslicewidth < 2048 && nrows > 100000) {
*d52a580bSJunchao Zhang            nblocks = 1 + (nrows - 1) / (2 * sliceheight); /* two slices per block */
*d52a580bSJunchao Zhang            matmultadd_seqsell_tiled_kernel7<<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang          } else {
*d52a580bSJunchao Zhang            nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang            matmultadd_seqsell_tiled_kernel9<2><<<nblocks, dim3(WARP_SIZE, 2)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang          }
*d52a580bSJunchao Zhang        } else if (avgslicesize <= 2400) {
*d52a580bSJunchao Zhang          nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel9<8><<<nblocks, dim3(WARP_SIZE, 8)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        } else {
*d52a580bSJunchao Zhang          nblocks = 1 + (nrows - 1) / sliceheight;
*d52a580bSJunchao Zhang          matmultadd_seqsell_tiled_kernel9<16><<<nblocks, dim3(WARP_SIZE, 16)>>>(nrows, sliceheight, acolidx, aval, sliidx, x, y, z);
*d52a580bSJunchao Zhang        }
*d52a580bSJunchao Zhang      }
*d52a580bSJunchao Zhang      break;
*d52a580bSJunchao Zhang#endif
*d52a580bSJunchao Zhang    default:
*d52a580bSJunchao Zhang      SETERRQ(PETSC_COMM_SELF, PETSC_ERR_SUP, "unsupported kernel choice %" PetscInt_FMT " for MatMult_SeqSELLHIP.", hipstruct->kernelchoice);
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang    PetscCall(PetscLogGpuTimeEnd());
*d52a580bSJunchao Zhang    PetscCall(VecHIPRestoreArrayRead(xx, &x));
*d52a580bSJunchao Zhang    PetscCall(VecHIPRestoreArrayRead(yy, &y));
*d52a580bSJunchao Zhang    PetscCall(VecHIPRestoreArrayWrite(zz, &z));
*d52a580bSJunchao Zhang    PetscCall(PetscLogGpuFlops(2.0 * a->nz));
*d52a580bSJunchao Zhang  } else {
*d52a580bSJunchao Zhang    PetscCall(VecCopy(yy, zz));
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatSetFromOptions_SeqSELLHIP(Mat A, PetscOptionItems PetscOptionsObject)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  Mat_SeqSELLHIP *hipstruct = (Mat_SeqSELLHIP *)A->spptr;
*d52a580bSJunchao Zhang  PetscInt        kernel, blocky;
*d52a580bSJunchao Zhang  PetscBool       flg;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscOptionsHeadBegin(PetscOptionsObject, "SeqSELLHIP options");
*d52a580bSJunchao Zhang  PetscCall(PetscOptionsGetInt(NULL, NULL, "-mat_sell_spmv_hip_blocky", &blocky, &flg));
*d52a580bSJunchao Zhang  if (flg) {
*d52a580bSJunchao Zhang    PetscCheck(blocky == 2 || blocky == 4 || blocky == 8 || blocky == 16 || blocky == 32, PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Unsupported blocky: %" PetscInt_FMT " it should be in {2,4,8,16,32}", blocky);
*d52a580bSJunchao Zhang    hipstruct->blocky = blocky;
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscCall(PetscOptionsGetInt(NULL, NULL, "-mat_sell_spmv_hip_kernel", &kernel, &flg));
*d52a580bSJunchao Zhang  if (flg) {
*d52a580bSJunchao Zhang    PetscCheck(kernel >= 0 && kernel <= 9, PETSC_COMM_SELF, PETSC_ERR_ARG_OUTOFRANGE, "Wrong kernel choice: %" PetscInt_FMT " it should be in [0,9]", kernel);
*d52a580bSJunchao Zhang    hipstruct->kernelchoice = kernel;
*d52a580bSJunchao Zhang    if (kernel == 8) PetscCall(PetscOptionsGetInt(NULL, NULL, "-mat_sell_spmv_hip_chunksperblock", &hipstruct->chunksperblock, &flg));
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscOptionsHeadEnd();
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao ZhangPETSC_INTERN PetscErrorCode MatAssemblyEnd_SpMV_Preprocessing_Private(Mat A)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  Mat_SeqSELL *a = (Mat_SeqSELL *)A->data;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCall(MatSeqSELLGetAvgSliceWidth(A, &a->avgslicewidth));
*d52a580bSJunchao Zhang  PetscCall(MatSeqSELLGetMaxSliceWidth(A, &a->maxslicewidth));
*d52a580bSJunchao Zhang  PetscCall(MatSeqSELLGetFillRatio(A, &a->fillratio));
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatAssemblyEnd_SeqSELLHIP(Mat A, MatAssemblyType mode)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCall(MatAssemblyEnd_SeqSELL(A, mode));
*d52a580bSJunchao Zhang  PetscCall(MatAssemblyEnd_SpMV_Preprocessing_Private(A));
*d52a580bSJunchao Zhang  if (mode == MAT_FLUSH_ASSEMBLY) PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang  if (A->factortype == MAT_FACTOR_NONE) PetscCall(MatSeqSELLHIPCopyToGPU(A));
*d52a580bSJunchao Zhang  A->ops->mult    = MatMult_SeqSELLHIP;
*d52a580bSJunchao Zhang  A->ops->multadd = MatMultAdd_SeqSELLHIP;
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatZeroEntries_SeqSELLHIP(Mat A)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscBool    both = PETSC_FALSE;
*d52a580bSJunchao Zhang  Mat_SeqSELL *a    = (Mat_SeqSELL *)A->data;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  if (A->factortype == MAT_FACTOR_NONE) {
*d52a580bSJunchao Zhang    Mat_SeqSELLHIP *hipstruct = (Mat_SeqSELLHIP *)A->spptr;
*d52a580bSJunchao Zhang    if (hipstruct->val) {
*d52a580bSJunchao Zhang      both = PETSC_TRUE;
*d52a580bSJunchao Zhang      PetscCallHIP(hipMemset(hipstruct->val, 0, a->sliidx[a->totalslices] * sizeof(*hipstruct->val)));
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang  PetscCall(PetscArrayzero(a->val, a->sliidx[a->totalslices]));
*d52a580bSJunchao Zhang  if (both) A->offloadmask = PETSC_OFFLOAD_BOTH;
*d52a580bSJunchao Zhang  else A->offloadmask = PETSC_OFFLOAD_CPU;
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhangstatic PetscErrorCode MatDestroy_SeqSELLHIP(Mat A)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  if (A->factortype == MAT_FACTOR_NONE && A->offloadmask != PETSC_OFFLOAD_UNALLOCATED) PetscCall(MatSeqSELLHIP_Destroy((Mat_SeqSELLHIP **)&A->spptr));
*d52a580bSJunchao Zhang  PetscCall(MatDestroy_SeqSELL(A));
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao ZhangPETSC_INTERN PetscErrorCode MatConvert_SeqSELL_SeqSELLHIP(Mat);
*d52a580bSJunchao Zhangstatic PetscErrorCode       MatDuplicate_SeqSELLHIP(Mat A, MatDuplicateOption cpvalues, Mat *B)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCall(MatDuplicate_SeqSELL(A, cpvalues, B));
*d52a580bSJunchao Zhang  PetscCall(MatConvert_SeqSELL_SeqSELLHIP(*B));
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao ZhangPETSC_INTERN PetscErrorCode MatConvert_SeqSELL_SeqSELLHIP(Mat B)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  Mat_SeqSELLHIP *hipstruct;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCall(PetscFree(B->defaultvectype));
*d52a580bSJunchao Zhang  PetscCall(PetscStrallocpy(VECHIP, &B->defaultvectype));
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  if (!B->spptr) {
*d52a580bSJunchao Zhang    if (B->factortype == MAT_FACTOR_NONE) {
*d52a580bSJunchao Zhang      PetscCall(PetscNew(&hipstruct));
*d52a580bSJunchao Zhang      B->spptr = hipstruct;
*d52a580bSJunchao Zhang    }
*d52a580bSJunchao Zhang  }
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  B->ops->assemblyend    = MatAssemblyEnd_SeqSELLHIP;
*d52a580bSJunchao Zhang  B->ops->destroy        = MatDestroy_SeqSELLHIP;
*d52a580bSJunchao Zhang  B->ops->setfromoptions = MatSetFromOptions_SeqSELLHIP;
*d52a580bSJunchao Zhang  B->ops->mult           = MatMult_SeqSELLHIP;
*d52a580bSJunchao Zhang  B->ops->multadd        = MatMultAdd_SeqSELLHIP;
*d52a580bSJunchao Zhang  B->ops->duplicate      = MatDuplicate_SeqSELLHIP;
*d52a580bSJunchao Zhang  B->ops->zeroentries    = MatZeroEntries_SeqSELLHIP;
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  /* No need to assemble SeqSELL, but need to do the preprocessing for SpMV */
*d52a580bSJunchao Zhang  PetscCall(MatAssemblyEnd_SpMV_Preprocessing_Private(B));
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  PetscCall(PetscObjectChangeTypeName((PetscObject)B, MATSEQSELLHIP));
*d52a580bSJunchao Zhang  B->offloadmask = PETSC_OFFLOAD_UNALLOCATED;
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang/*MC
*d52a580bSJunchao Zhang  MATSEQSELLHIP - MATSELLHIP = "(seq)sellhip" - A matrix type to be used for sparse matrices on AMD GPUs.
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  Options Database Keys:
*d52a580bSJunchao Zhang+  -mat_type seqsellhip - sets the matrix type to "seqsellhip" during a call to `MatSetFromOptions()`
*d52a580bSJunchao Zhang.  -mat_sell_spmv_hip_kernel - selects a spmv kernel for MatSELLHIP
*d52a580bSJunchao Zhang-  -mat_sell_spmv_hip_blocky - sets the y dimension of the block size of the spmv kernels. These kernels use a 2D block with the x dimension equal to the wrap size (normally 64 for AMD GPUs)
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang  Level: beginner
*d52a580bSJunchao Zhang
*d52a580bSJunchao Zhang.seealso: [](ch_matrices), `Mat`, `MATSELLHIP`
*d52a580bSJunchao ZhangM*/
*d52a580bSJunchao Zhang
*d52a580bSJunchao ZhangPETSC_EXTERN PetscErrorCode MatCreate_SeqSELLHIP(Mat B)
*d52a580bSJunchao Zhang{
*d52a580bSJunchao Zhang  PetscFunctionBegin;
*d52a580bSJunchao Zhang  PetscCall(MatCreate_SeqSELL(B));
*d52a580bSJunchao Zhang  PetscCall(MatConvert_SeqSELL_SeqSELLHIP(B));
*d52a580bSJunchao Zhang  PetscCall(MatSetFromOptions(B));
*d52a580bSJunchao Zhang  PetscFunctionReturn(PETSC_SUCCESS);
*d52a580bSJunchao Zhang}