backends/avx/ceed-avx-tensor.c

*c8a55531SSebastian Grimberg// Copyright (c) 2017-2022, Lawrence Livermore National Security, LLC and other CEED contributors.
*c8a55531SSebastian Grimberg// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*c8a55531SSebastian Grimberg//
*c8a55531SSebastian Grimberg// SPDX-License-Identifier: BSD-2-Clause
*c8a55531SSebastian Grimberg//
*c8a55531SSebastian Grimberg// This file is part of CEED:  http://github.com/ceed
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg#include <ceed.h>
*c8a55531SSebastian Grimberg#include <ceed/backend.h>
*c8a55531SSebastian Grimberg#include <immintrin.h>
*c8a55531SSebastian Grimberg#include <stdbool.h>
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg#ifdef _ceed_f64_h
*c8a55531SSebastian Grimberg#define rtype __m256d
*c8a55531SSebastian Grimberg#define loadu _mm256_loadu_pd
*c8a55531SSebastian Grimberg#define storeu _mm256_storeu_pd
*c8a55531SSebastian Grimberg#define set _mm256_set_pd
*c8a55531SSebastian Grimberg#define set1 _mm256_set1_pd
*c8a55531SSebastian Grimberg// c += a * b
*c8a55531SSebastian Grimberg#ifdef __FMA__
*c8a55531SSebastian Grimberg#define fmadd(c, a, b) (c) = _mm256_fmadd_pd((a), (b), (c))
*c8a55531SSebastian Grimberg#else
*c8a55531SSebastian Grimberg#define fmadd(c, a, b) (c) += _mm256_mul_pd((a), (b))
*c8a55531SSebastian Grimberg#endif
*c8a55531SSebastian Grimberg#else
*c8a55531SSebastian Grimberg#define rtype __m128
*c8a55531SSebastian Grimberg#define loadu _mm_loadu_ps
*c8a55531SSebastian Grimberg#define storeu _mm_storeu_ps
*c8a55531SSebastian Grimberg#define set _mm_set_ps
*c8a55531SSebastian Grimberg#define set1 _mm_set1_ps
*c8a55531SSebastian Grimberg// c += a * b
*c8a55531SSebastian Grimberg#ifdef __FMA__
*c8a55531SSebastian Grimberg#define fmadd(c, a, b) (c) = _mm_fmadd_ps((a), (b), (c))
*c8a55531SSebastian Grimberg#else
*c8a55531SSebastian Grimberg#define fmadd(c, a, b) (c) += _mm_mul_ps((a), (b))
*c8a55531SSebastian Grimberg#endif
*c8a55531SSebastian Grimberg#endif
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimberg// Blocked Tensor Contract
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimbergstatic inline int CeedTensorContract_Avx_Blocked(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J,
*c8a55531SSebastian Grimberg                                                 const CeedScalar *restrict t, CeedTransposeMode t_mode, const CeedInt add,
*c8a55531SSebastian Grimberg                                                 const CeedScalar *restrict u, CeedScalar *restrict v, const CeedInt JJ, const CeedInt CC) {
*c8a55531SSebastian Grimberg  CeedInt t_stride_0 = B, t_stride_1 = 1;
*c8a55531SSebastian Grimberg  if (t_mode == CEED_TRANSPOSE) {
*c8a55531SSebastian Grimberg    t_stride_0 = 1;
*c8a55531SSebastian Grimberg    t_stride_1 = J;
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  for (CeedInt a = 0; a < A; a++) {
*c8a55531SSebastian Grimberg    // Blocks of 4 rows
*c8a55531SSebastian Grimberg    for (CeedInt j = 0; j < (J / JJ) * JJ; j += JJ) {
*c8a55531SSebastian Grimberg      for (CeedInt c = 0; c < (C / CC) * CC; c += CC) {
*c8a55531SSebastian Grimberg        rtype vv[JJ][CC / 4];  // Output tile to be held in registers
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ; jj++) {
*c8a55531SSebastian Grimberg          for (CeedInt cc = 0; cc < CC / 4; cc++) vv[jj][cc] = loadu(&v[(a * J + j + jj) * C + c + cc * 4]);
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg        for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg          for (CeedInt jj = 0; jj < JJ; jj++) {  // unroll
*c8a55531SSebastian Grimberg            rtype tqv = set1(t[(j + jj) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg            for (CeedInt cc = 0; cc < CC / 4; cc++) {  // unroll
*c8a55531SSebastian Grimberg              fmadd(vv[jj][cc], tqv, loadu(&u[(a * B + b) * C + c + cc * 4]));
*c8a55531SSebastian Grimberg            }
*c8a55531SSebastian Grimberg          }
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ; jj++) {
*c8a55531SSebastian Grimberg          for (CeedInt cc = 0; cc < CC / 4; cc++) storeu(&v[(a * J + j + jj) * C + c + cc * 4], vv[jj][cc]);
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg    // Remainder of rows
*c8a55531SSebastian Grimberg    CeedInt j = (J / JJ) * JJ;
*c8a55531SSebastian Grimberg    if (j < J) {
*c8a55531SSebastian Grimberg      for (CeedInt c = 0; c < (C / CC) * CC; c += CC) {
*c8a55531SSebastian Grimberg        rtype vv[JJ][CC / 4];  // Output tile to be held in registers
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < J - j; jj++) {
*c8a55531SSebastian Grimberg          for (CeedInt cc = 0; cc < CC / 4; cc++) vv[jj][cc] = loadu(&v[(a * J + j + jj) * C + c + cc * 4]);
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg        for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg          for (CeedInt jj = 0; jj < J - j; jj++) {  // doesn't unroll
*c8a55531SSebastian Grimberg            rtype tqv = set1(t[(j + jj) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg            for (CeedInt cc = 0; cc < CC / 4; cc++) {  // unroll
*c8a55531SSebastian Grimberg              fmadd(vv[jj][cc], tqv, loadu(&u[(a * B + b) * C + c + cc * 4]));
*c8a55531SSebastian Grimberg            }
*c8a55531SSebastian Grimberg          }
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < J - j; jj++) {
*c8a55531SSebastian Grimberg          for (CeedInt cc = 0; cc < CC / 4; cc++) storeu(&v[(a * J + j + jj) * C + c + cc * 4], vv[jj][cc]);
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg  return CEED_ERROR_SUCCESS;
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimberg// Serial Tensor Contract Remainder
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimbergstatic inline int CeedTensorContract_Avx_Remainder(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J,
*c8a55531SSebastian Grimberg                                                   const CeedScalar *restrict t, CeedTransposeMode t_mode, const CeedInt add,
*c8a55531SSebastian Grimberg                                                   const CeedScalar *restrict u, CeedScalar *restrict v, const CeedInt JJ, const CeedInt CC) {
*c8a55531SSebastian Grimberg  CeedInt t_stride_0 = B, t_stride_1 = 1;
*c8a55531SSebastian Grimberg  if (t_mode == CEED_TRANSPOSE) {
*c8a55531SSebastian Grimberg    t_stride_0 = 1;
*c8a55531SSebastian Grimberg    t_stride_1 = J;
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  CeedInt J_break = J % JJ ? (J / JJ) * JJ : (J / JJ - 1) * JJ;
*c8a55531SSebastian Grimberg  for (CeedInt a = 0; a < A; a++) {
*c8a55531SSebastian Grimberg    // Blocks of 4 columns
*c8a55531SSebastian Grimberg    for (CeedInt c = (C / CC) * CC; c < C; c += 4) {
*c8a55531SSebastian Grimberg      // Blocks of 4 rows
*c8a55531SSebastian Grimberg      for (CeedInt j = 0; j < J_break; j += JJ) {
*c8a55531SSebastian Grimberg        rtype vv[JJ];  // Output tile to be held in registers
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ; jj++) vv[jj] = loadu(&v[(a * J + j + jj) * C + c]);
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg        for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg          rtype tqu;
*c8a55531SSebastian Grimberg          if (C - c == 1) tqu = set(0.0, 0.0, 0.0, u[(a * B + b) * C + c + 0]);
*c8a55531SSebastian Grimberg          else if (C - c == 2) tqu = set(0.0, 0.0, u[(a * B + b) * C + c + 1], u[(a * B + b) * C + c + 0]);
*c8a55531SSebastian Grimberg          else if (C - c == 3) tqu = set(0.0, u[(a * B + b) * C + c + 2], u[(a * B + b) * C + c + 1], u[(a * B + b) * C + c + 0]);
*c8a55531SSebastian Grimberg          else tqu = loadu(&u[(a * B + b) * C + c]);
*c8a55531SSebastian Grimberg          for (CeedInt jj = 0; jj < JJ; jj++) {  // unroll
*c8a55531SSebastian Grimberg            fmadd(vv[jj], tqu, set1(t[(j + jj) * t_stride_0 + b * t_stride_1]));
*c8a55531SSebastian Grimberg          }
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ; jj++) storeu(&v[(a * J + j + jj) * C + c], vv[jj]);
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg    // Remainder of rows, all columns
*c8a55531SSebastian Grimberg    for (CeedInt j = J_break; j < J; j++) {
*c8a55531SSebastian Grimberg      for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg        CeedScalar tq = t[j * t_stride_0 + b * t_stride_1];
*c8a55531SSebastian Grimberg        for (CeedInt c = (C / CC) * CC; c < C; c++) v[(a * J + j) * C + c] += tq * u[(a * B + b) * C + c];
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg  return CEED_ERROR_SUCCESS;
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimberg// Serial Tensor Contract C=1
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimbergstatic inline int CeedTensorContract_Avx_Single(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J, const CeedScalar *restrict t,
*c8a55531SSebastian Grimberg                                                CeedTransposeMode t_mode, const CeedInt add, const CeedScalar *restrict u, CeedScalar *restrict v,
*c8a55531SSebastian Grimberg                                                const CeedInt AA, const CeedInt JJ) {
*c8a55531SSebastian Grimberg  CeedInt t_stride_0 = B, t_stride_1 = 1;
*c8a55531SSebastian Grimberg  if (t_mode == CEED_TRANSPOSE) {
*c8a55531SSebastian Grimberg    t_stride_0 = 1;
*c8a55531SSebastian Grimberg    t_stride_1 = J;
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  // Blocks of 4 rows
*c8a55531SSebastian Grimberg  for (CeedInt a = 0; a < (A / AA) * AA; a += AA) {
*c8a55531SSebastian Grimberg    for (CeedInt j = 0; j < (J / JJ) * JJ; j += JJ) {
*c8a55531SSebastian Grimberg      rtype vv[AA][JJ / 4];  // Output tile to be held in registers
*c8a55531SSebastian Grimberg      for (CeedInt aa = 0; aa < AA; aa++) {
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ / 4; jj++) vv[aa][jj] = loadu(&v[(a + aa) * J + j + jj * 4]);
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg      for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ / 4; jj++) {  // unroll
*c8a55531SSebastian Grimberg          rtype tqv = set(t[(j + jj * 4 + 3) * t_stride_0 + b * t_stride_1], t[(j + jj * 4 + 2) * t_stride_0 + b * t_stride_1],
*c8a55531SSebastian Grimberg                          t[(j + jj * 4 + 1) * t_stride_0 + b * t_stride_1], t[(j + jj * 4 + 0) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg          for (CeedInt aa = 0; aa < AA; aa++) {  // unroll
*c8a55531SSebastian Grimberg            fmadd(vv[aa][jj], tqv, set1(u[(a + aa) * B + b]));
*c8a55531SSebastian Grimberg          }
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg      for (CeedInt aa = 0; aa < AA; aa++) {
*c8a55531SSebastian Grimberg        for (CeedInt jj = 0; jj < JJ / 4; jj++) storeu(&v[(a + aa) * J + j + jj * 4], vv[aa][jj]);
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg  // Remainder of rows
*c8a55531SSebastian Grimberg  CeedInt a = (A / AA) * AA;
*c8a55531SSebastian Grimberg  for (CeedInt j = 0; j < (J / JJ) * JJ; j += JJ) {
*c8a55531SSebastian Grimberg    rtype vv[AA][JJ / 4];  // Output tile to be held in registers
*c8a55531SSebastian Grimberg    for (CeedInt aa = 0; aa < A - a; aa++) {
*c8a55531SSebastian Grimberg      for (CeedInt jj = 0; jj < JJ / 4; jj++) vv[aa][jj] = loadu(&v[(a + aa) * J + j + jj * 4]);
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg    for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg      for (CeedInt jj = 0; jj < JJ / 4; jj++) {  // unroll
*c8a55531SSebastian Grimberg        rtype tqv = set(t[(j + jj * 4 + 3) * t_stride_0 + b * t_stride_1], t[(j + jj * 4 + 2) * t_stride_0 + b * t_stride_1],
*c8a55531SSebastian Grimberg                        t[(j + jj * 4 + 1) * t_stride_0 + b * t_stride_1], t[(j + jj * 4 + 0) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg        for (CeedInt aa = 0; aa < A - a; aa++) {  // unroll
*c8a55531SSebastian Grimberg          fmadd(vv[aa][jj], tqv, set1(u[(a + aa) * B + b]));
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg    for (CeedInt aa = 0; aa < A - a; aa++) {
*c8a55531SSebastian Grimberg      for (CeedInt jj = 0; jj < JJ / 4; jj++) storeu(&v[(a + aa) * J + j + jj * 4], vv[aa][jj]);
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg  // Column remainder
*c8a55531SSebastian Grimberg  CeedInt A_break = A % AA ? (A / AA) * AA : (A / AA - 1) * AA;
*c8a55531SSebastian Grimberg  // Blocks of 4 columns
*c8a55531SSebastian Grimberg  for (CeedInt j = (J / JJ) * JJ; j < J; j += 4) {
*c8a55531SSebastian Grimberg    // Blocks of 4 rows
*c8a55531SSebastian Grimberg    for (CeedInt a = 0; a < A_break; a += AA) {
*c8a55531SSebastian Grimberg      rtype vv[AA];  // Output tile to be held in registers
*c8a55531SSebastian Grimberg      for (CeedInt aa = 0; aa < AA; aa++) vv[aa] = loadu(&v[(a + aa) * J + j]);
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg      for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg        rtype tqv;
*c8a55531SSebastian Grimberg        if (J - j == 1) {
*c8a55531SSebastian Grimberg          tqv = set(0.0, 0.0, 0.0, t[(j + 0) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg        } else if (J - j == 2) {
*c8a55531SSebastian Grimberg          tqv = set(0.0, 0.0, t[(j + 1) * t_stride_0 + b * t_stride_1], t[(j + 0) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg        } else if (J - 3 == j) {
*c8a55531SSebastian Grimberg          tqv =
*c8a55531SSebastian Grimberg              set(0.0, t[(j + 2) * t_stride_0 + b * t_stride_1], t[(j + 1) * t_stride_0 + b * t_stride_1], t[(j + 0) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg        } else {
*c8a55531SSebastian Grimberg          tqv = set(t[(j + 3) * t_stride_0 + b * t_stride_1], t[(j + 2) * t_stride_0 + b * t_stride_1], t[(j + 1) * t_stride_0 + b * t_stride_1],
*c8a55531SSebastian Grimberg                    t[(j + 0) * t_stride_0 + b * t_stride_1]);
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg        for (CeedInt aa = 0; aa < AA; aa++) {  // unroll
*c8a55531SSebastian Grimberg          fmadd(vv[aa], tqv, set1(u[(a + aa) * B + b]));
*c8a55531SSebastian Grimberg        }
*c8a55531SSebastian Grimberg      }
*c8a55531SSebastian Grimberg      for (CeedInt aa = 0; aa < AA; aa++) storeu(&v[(a + aa) * J + j], vv[aa]);
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg  // Remainder of rows, all columns
*c8a55531SSebastian Grimberg  for (CeedInt b = 0; b < B; b++) {
*c8a55531SSebastian Grimberg    for (CeedInt j = (J / JJ) * JJ; j < J; j++) {
*c8a55531SSebastian Grimberg      CeedScalar tq = t[j * t_stride_0 + b * t_stride_1];
*c8a55531SSebastian Grimberg      for (CeedInt a = A_break; a < A; a++) v[a * J + j] += tq * u[a * B + b];
*c8a55531SSebastian Grimberg    }
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg  return CEED_ERROR_SUCCESS;
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimberg// Tensor Contract - Common Sizes
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimbergstatic int CeedTensorContract_Avx_Blocked_4_8(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J, const CeedScalar *restrict t,
*c8a55531SSebastian Grimberg                                              CeedTransposeMode t_mode, const CeedInt add, const CeedScalar *restrict u, CeedScalar *restrict v) {
*c8a55531SSebastian Grimberg  return CeedTensorContract_Avx_Blocked(contract, A, B, C, J, t, t_mode, add, u, v, 4, 8);
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimbergstatic int CeedTensorContract_Avx_Remainder_8_8(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J, const CeedScalar *restrict t,
*c8a55531SSebastian Grimberg                                                CeedTransposeMode t_mode, const CeedInt add, const CeedScalar *restrict u, CeedScalar *restrict v) {
*c8a55531SSebastian Grimberg  return CeedTensorContract_Avx_Remainder(contract, A, B, C, J, t, t_mode, add, u, v, 8, 8);
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimbergstatic int CeedTensorContract_Avx_Single_4_8(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J, const CeedScalar *restrict t,
*c8a55531SSebastian Grimberg                                             CeedTransposeMode t_mode, const CeedInt add, const CeedScalar *restrict u, CeedScalar *restrict v) {
*c8a55531SSebastian Grimberg  return CeedTensorContract_Avx_Single(contract, A, B, C, J, t, t_mode, add, u, v, 4, 8);
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimberg// Tensor Contract Apply
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimbergstatic int CeedTensorContractApply_Avx(CeedTensorContract contract, CeedInt A, CeedInt B, CeedInt C, CeedInt J, const CeedScalar *restrict t,
*c8a55531SSebastian Grimberg                                       CeedTransposeMode t_mode, const CeedInt add, const CeedScalar *restrict u, CeedScalar *restrict v) {
*c8a55531SSebastian Grimberg  const CeedInt blk_size = 8;
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  if (!add) {
*c8a55531SSebastian Grimberg    for (CeedInt q = 0; q < A * J * C; q++) v[q] = (CeedScalar)0.0;
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  if (C == 1) {
*c8a55531SSebastian Grimberg    // Serial C=1 Case
*c8a55531SSebastian Grimberg    CeedTensorContract_Avx_Single_4_8(contract, A, B, C, J, t, t_mode, true, u, v);
*c8a55531SSebastian Grimberg  } else {
*c8a55531SSebastian Grimberg    // Blocks of 8 columns
*c8a55531SSebastian Grimberg    if (C >= blk_size) CeedTensorContract_Avx_Blocked_4_8(contract, A, B, C, J, t, t_mode, true, u, v);
*c8a55531SSebastian Grimberg    // Remainder of columns
*c8a55531SSebastian Grimberg    if (C % blk_size) CeedTensorContract_Avx_Remainder_8_8(contract, A, B, C, J, t, t_mode, true, u, v);
*c8a55531SSebastian Grimberg  }
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  return CEED_ERROR_SUCCESS;
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimberg// Tensor Contract Create
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------
*c8a55531SSebastian Grimbergint CeedTensorContractCreate_Avx(CeedBasis basis, CeedTensorContract contract) {
*c8a55531SSebastian Grimberg  Ceed ceed;
*c8a55531SSebastian Grimberg  CeedCallBackend(CeedTensorContractGetCeed(contract, &ceed));
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  CeedCallBackend(CeedSetBackendFunction(ceed, "TensorContract", contract, "Apply", CeedTensorContractApply_Avx));
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg  return CEED_ERROR_SUCCESS;
*c8a55531SSebastian Grimberg}
*c8a55531SSebastian Grimberg
*c8a55531SSebastian Grimberg//------------------------------------------------------------------------------