ceed-cuda-shared-basis.c - OpenGrok cross reference for /libCEED/backends/cuda-shared/ceed-cuda-shared-basis.c

Lines Matching refs:grid
63         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyTensorCore_Cuda_shared()  local
67 …_Cuda(ceed, apply_add ? data->InterpTransposeAdd : data->InterpTranspose, NULL, grid, thread_1d, 1,  in CeedBasisApplyTensorCore_Cuda_shared()
70 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Interp, NULL, grid, thread_1d, 1, elems_pe…  in CeedBasisApplyTensorCore_Cuda_shared()
76         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyTensorCore_Cuda_shared()  local
80 …red_Cuda(ceed, apply_add ? data->InterpTransposeAdd : data->InterpTranspose, NULL, grid, thread_1d,  in CeedBasisApplyTensorCore_Cuda_shared()
83 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Interp, NULL, grid, thread_1d, thread_1d, …  in CeedBasisApplyTensorCore_Cuda_shared()
88         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyTensorCore_Cuda_shared()  local
92 …red_Cuda(ceed, apply_add ? data->InterpTransposeAdd : data->InterpTranspose, NULL, grid, thread_1d,  in CeedBasisApplyTensorCore_Cuda_shared()
95 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Interp, NULL, grid, thread_1d, thread_1d, …  in CeedBasisApplyTensorCore_Cuda_shared()
117         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyTensorCore_Cuda_shared()  local
121 …ared_Cuda(ceed, apply_add ? data->GradTransposeAdd : data->GradTranspose, NULL, grid, thread_1d, 1,  in CeedBasisApplyTensorCore_Cuda_shared()
124 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Grad, NULL, grid, thread_1d, 1, elems_per_…  in CeedBasisApplyTensorCore_Cuda_shared()
130         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyTensorCore_Cuda_shared()  local
134 …mShared_Cuda(ceed, apply_add ? data->GradTransposeAdd : data->GradTranspose, NULL, grid, thread_1d,  in CeedBasisApplyTensorCore_Cuda_shared()
137 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Grad, NULL, grid, thread_1d, thread_1d, el…  in CeedBasisApplyTensorCore_Cuda_shared()
141         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyTensorCore_Cuda_shared()  local
145 …mShared_Cuda(ceed, apply_add ? data->GradTransposeAdd : data->GradTranspose, NULL, grid, thread_1d,  in CeedBasisApplyTensorCore_Cuda_shared()
148 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Grad, NULL, grid, thread_1d, thread_1d, el…  in CeedBasisApplyTensorCore_Cuda_shared()
327         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyAtPointsCore_Cuda_shared()  local
331 …uda(ceed, apply_add ? data->InterpTransposeAddAtPoints : data->InterpTransposeAtPoints, NULL, grid,  in CeedBasisApplyAtPointsCore_Cuda_shared()
334 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->InterpAtPoints, NULL, grid, thread_1d, 1, …  in CeedBasisApplyAtPointsCore_Cuda_shared()
341         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyAtPointsCore_Cuda_shared()  local
345 …uda(ceed, apply_add ? data->InterpTransposeAddAtPoints : data->InterpTransposeAtPoints, NULL, grid,  in CeedBasisApplyAtPointsCore_Cuda_shared()
348 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->InterpAtPoints, NULL, grid, thread_1d, thr…  in CeedBasisApplyAtPointsCore_Cuda_shared()
353         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyAtPointsCore_Cuda_shared()  local
357 …uda(ceed, apply_add ? data->InterpTransposeAddAtPoints : data->InterpTransposeAtPoints, NULL, grid,  in CeedBasisApplyAtPointsCore_Cuda_shared()
360 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->InterpAtPoints, NULL, grid, thread_1d, thr…  in CeedBasisApplyAtPointsCore_Cuda_shared()
377         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyAtPointsCore_Cuda_shared()  local
381 …ed_Cuda(ceed, apply_add ? data->GradTransposeAddAtPoints : data->GradTransposeAtPoints, NULL, grid,  in CeedBasisApplyAtPointsCore_Cuda_shared()
384 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->GradAtPoints, NULL, grid, thread_1d, 1, el…  in CeedBasisApplyAtPointsCore_Cuda_shared()
390         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyAtPointsCore_Cuda_shared()  local
394 …ed_Cuda(ceed, apply_add ? data->GradTransposeAddAtPoints : data->GradTransposeAtPoints, NULL, grid,  in CeedBasisApplyAtPointsCore_Cuda_shared()
397 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->GradAtPoints, NULL, grid, thread_1d, threa…  in CeedBasisApplyAtPointsCore_Cuda_shared()
402         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyAtPointsCore_Cuda_shared()  local
406 …ed_Cuda(ceed, apply_add ? data->GradTransposeAddAtPoints : data->GradTransposeAtPoints, NULL, grid,  in CeedBasisApplyAtPointsCore_Cuda_shared()
409 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->GradAtPoints, NULL, grid, thread_1d, threa…  in CeedBasisApplyAtPointsCore_Cuda_shared()
486         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyNonTensorCore_Cuda_shared()  local
490 …red_Cuda(ceed, apply_add ? data->InterpTransposeAdd : data->InterpTranspose, NULL, grid, thread, 1,  in CeedBasisApplyNonTensorCore_Cuda_shared()
493 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Interp, NULL, grid, thread, 1, elems_per_b…  in CeedBasisApplyNonTensorCore_Cuda_shared()
510         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyNonTensorCore_Cuda_shared()  local
514 …mShared_Cuda(ceed, apply_add ? data->GradTransposeAdd : data->GradTranspose, NULL, grid, thread, 1,  in CeedBasisApplyNonTensorCore_Cuda_shared()
517 …CeedCallBackend(CeedRunKernelDimShared_Cuda(ceed, data->Grad, NULL, grid, thread, 1, elems_per_blo…  in CeedBasisApplyNonTensorCore_Cuda_shared()
534         CeedInt grid            = num_elem / elems_per_block + (num_elem % elems_per_block > 0);  in CeedBasisApplyNonTensorCore_Cuda_shared()  local
536 …CeedCallBackend(CeedRunKernelDim_Cuda(ceed, data->Weight, grid, thread, elems_per_block, 1, weight…  in CeedBasisApplyNonTensorCore_Cuda_shared()