problems/torch/sgs_model_torch.cpp

*4c07ec22SJames Wright// Copyright (c) 2017-2024, Lawrence Livermore National Security, LLC and other CEED contributors.
*4c07ec22SJames Wright// All Rights Reserved. See the top-level LICENSE and NOTICE files for details.
*4c07ec22SJames Wright//
*4c07ec22SJames Wright// SPDX-License-Identifier: BSD-2-Clause
*4c07ec22SJames Wright//
*4c07ec22SJames Wright// This file is part of CEED:  http://github.com/ceed
*4c07ec22SJames Wright
*4c07ec22SJames Wright#include <petsc.h>
*4c07ec22SJames Wright#include <sgs_model_torch.h>
*4c07ec22SJames Wright#include <torch/script.h>
*4c07ec22SJames Wright#include <torch/torch.h>
*4c07ec22SJames Wright
*4c07ec22SJames Wrighttorch::jit::script::Module model;
*4c07ec22SJames Wrighttorch::DeviceType          device_model;
*4c07ec22SJames Wright
*4c07ec22SJames Wrightstatic PetscErrorCode EnumToDeviceType(TorchDeviceType device_enum, torch::DeviceType *device_type) {
*4c07ec22SJames Wright  PetscFunctionBeginUser;
*4c07ec22SJames Wright  switch (device_enum) {
*4c07ec22SJames Wright    case TORCH_DEVICE_CPU:
*4c07ec22SJames Wright      *device_type = torch::kCPU;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    case TORCH_DEVICE_XPU:
*4c07ec22SJames Wright      *device_type = torch::kXPU;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    case TORCH_DEVICE_CUDA:
*4c07ec22SJames Wright      *device_type = torch::kCUDA;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    case TORCH_DEVICE_HIP:
*4c07ec22SJames Wright      *device_type = torch::kHIP;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    default:
*4c07ec22SJames Wright      SETERRQ(PETSC_COMM_WORLD, PETSC_ERR_SUP, "TorchDeviceType %d not supported by PyTorch inference", device_enum);
*4c07ec22SJames Wright  }
*4c07ec22SJames Wright  PetscFunctionReturn(PETSC_SUCCESS);
*4c07ec22SJames Wright}
*4c07ec22SJames Wright
*4c07ec22SJames Wrightstatic PetscErrorCode PetscMemTypeToDeviceType(PetscMemType mem_type, torch::DeviceType *device_type) {
*4c07ec22SJames Wright  PetscFunctionBeginUser;
*4c07ec22SJames Wright  switch (mem_type) {
*4c07ec22SJames Wright    case PETSC_MEMTYPE_HOST:
*4c07ec22SJames Wright      *device_type = torch::kCPU;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    case PETSC_MEMTYPE_SYCL:
*4c07ec22SJames Wright      *device_type = torch::kXPU;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    case PETSC_MEMTYPE_CUDA:
*4c07ec22SJames Wright      *device_type = torch::kCUDA;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    case PETSC_MEMTYPE_HIP:
*4c07ec22SJames Wright      *device_type = torch::kHIP;
*4c07ec22SJames Wright      break;
*4c07ec22SJames Wright    default:
*4c07ec22SJames Wright      SETERRQ(PETSC_COMM_WORLD, PETSC_ERR_SUP, "PetscMemType %s not supported by PyTorch inference", PetscMemTypeToString(mem_type));
*4c07ec22SJames Wright  }
*4c07ec22SJames Wright  PetscFunctionReturn(PETSC_SUCCESS);
*4c07ec22SJames Wright}
*4c07ec22SJames Wright
*4c07ec22SJames WrightPetscErrorCode LoadModel_Torch(const char *model_path, TorchDeviceType device_enum) {
*4c07ec22SJames Wright  PetscFunctionBeginUser;
*4c07ec22SJames Wright  PetscCall(EnumToDeviceType(device_enum, &device_model));
*4c07ec22SJames Wright
*4c07ec22SJames Wright  PetscCallCXX(model = torch::jit::load(model_path));
*4c07ec22SJames Wright  PetscCallCXX(model.to(torch::Device(device_model)));
*4c07ec22SJames Wright  PetscFunctionReturn(PETSC_SUCCESS);
*4c07ec22SJames Wright}
*4c07ec22SJames Wright
*4c07ec22SJames Wright// Load and run model
*4c07ec22SJames WrightPetscErrorCode ModelInference_Torch(Vec DD_Inputs_loc, Vec DD_Outputs_loc) {
*4c07ec22SJames Wright  torch::Tensor  input_tensor, output_tensor;
*4c07ec22SJames Wright  const PetscInt num_input_comps = 6, num_output_comps = 6;
*4c07ec22SJames Wright  PetscBool      debug_tensor_output = PETSC_FALSE;
*4c07ec22SJames Wright
*4c07ec22SJames Wright  PetscFunctionBeginUser;
*4c07ec22SJames Wright  // torch::NoGradGuard no_grad; // equivalent to "with torch.no_grad():" in PyTorch
*4c07ec22SJames Wright  {  // Transfer DD_Inputs_loc into input_tensor
*4c07ec22SJames Wright    PetscMemType         input_mem_type;
*4c07ec22SJames Wright    PetscInt             input_size, num_nodes;
*4c07ec22SJames Wright    const PetscScalar   *dd_inputs_ptr;
*4c07ec22SJames Wright    torch::DeviceType    dd_input_device;
*4c07ec22SJames Wright    torch::TensorOptions options;
*4c07ec22SJames Wright
*4c07ec22SJames Wright    PetscCall(VecGetLocalSize(DD_Inputs_loc, &input_size));
*4c07ec22SJames Wright    num_nodes = input_size / num_input_comps;
*4c07ec22SJames Wright    PetscCall(VecGetArrayReadAndMemType(DD_Inputs_loc, &dd_inputs_ptr, &input_mem_type));
*4c07ec22SJames Wright    PetscCall(PetscMemTypeToDeviceType(input_mem_type, &dd_input_device));
*4c07ec22SJames Wright
*4c07ec22SJames Wright    PetscCallCXX(options = torch::TensorOptions().dtype(torch::kFloat64).device(dd_input_device));
*4c07ec22SJames Wright    if (dd_input_device == torch::kXPU) {  // XPU requires device-to-host-to-device transfer
*4c07ec22SJames Wright      PetscCallCXX(input_tensor =
*4c07ec22SJames Wright                       at::from_blob((void *)dd_inputs_ptr, {num_nodes, num_input_comps}, {num_input_comps, 1}, nullptr, options, dd_input_device)
*4c07ec22SJames Wright                           .to(device_model));
*4c07ec22SJames Wright    } else {
*4c07ec22SJames Wright      PetscCallCXX(input_tensor = torch::from_blob((void *)dd_inputs_ptr, {num_nodes, num_input_comps}, options));
*4c07ec22SJames Wright    }
*4c07ec22SJames Wright    if (debug_tensor_output) {
*4c07ec22SJames Wright      double *input_tensor_ptr;
*4c07ec22SJames Wright
*4c07ec22SJames Wright      PetscCall(VecGetLocalSize(DD_Inputs_loc, &input_size));
*4c07ec22SJames Wright      PetscCallCXX(input_tensor_ptr = (double *)input_tensor.contiguous().to(torch::kCPU).data_ptr());
*4c07ec22SJames Wright      printf("Input_Tensor_Pointer:\n");
*4c07ec22SJames Wright      for (PetscInt i = 0; i < input_size; i++) {
*4c07ec22SJames Wright        printf("%f\n", input_tensor_ptr[i]);
*4c07ec22SJames Wright      }
*4c07ec22SJames Wright    }
*4c07ec22SJames Wright    PetscCall(VecRestoreArrayReadAndMemType(DD_Inputs_loc, &dd_inputs_ptr));
*4c07ec22SJames Wright  }
*4c07ec22SJames Wright
*4c07ec22SJames Wright  // Run model
*4c07ec22SJames Wright  PetscCallCXX(output_tensor = model.forward({input_tensor}).toTensor());
*4c07ec22SJames Wright
*4c07ec22SJames Wright  {  // Transfer output_tensor to DD_Outputs_loc
*4c07ec22SJames Wright    torch::DeviceType    dd_output_device;
*4c07ec22SJames Wright    torch::TensorOptions options;
*4c07ec22SJames Wright    PetscInt             output_size;
*4c07ec22SJames Wright    PetscScalar         *dd_outputs_ptr;
*4c07ec22SJames Wright    PetscMemType         output_mem_type;
*4c07ec22SJames Wright
*4c07ec22SJames Wright    {  // Get DeviceType of DD_Outputs_loc
*4c07ec22SJames Wright      PetscCall(VecGetArrayAndMemType(DD_Outputs_loc, &dd_outputs_ptr, &output_mem_type));
*4c07ec22SJames Wright      PetscCall(PetscMemTypeToDeviceType(output_mem_type, &dd_output_device));
*4c07ec22SJames Wright      PetscCall(VecRestoreArrayAndMemType(DD_Outputs_loc, &dd_outputs_ptr));
*4c07ec22SJames Wright    }
*4c07ec22SJames Wright
*4c07ec22SJames Wright    if (dd_output_device == torch::kXPU) {  // XPU requires device-to-host-to-device transfer
*4c07ec22SJames Wright      double *output_tensor_ptr;
*4c07ec22SJames Wright
*4c07ec22SJames Wright      PetscCall(VecGetLocalSize(DD_Outputs_loc, &output_size));
*4c07ec22SJames Wright      PetscCall(VecGetArray(DD_Outputs_loc, &dd_outputs_ptr));
*4c07ec22SJames Wright      PetscCallCXX(output_tensor_ptr = (double *)output_tensor.contiguous().to(torch::kCPU).data_ptr());
*4c07ec22SJames Wright      if (debug_tensor_output) {
*4c07ec22SJames Wright        printf("Output_Tensor_Pointer:\n");
*4c07ec22SJames Wright        for (PetscInt i = 0; i < output_size; i++) {
*4c07ec22SJames Wright          printf("%f\n", output_tensor_ptr[i]);
*4c07ec22SJames Wright        }
*4c07ec22SJames Wright      }
*4c07ec22SJames Wright      PetscCall(PetscArraycpy(dd_outputs_ptr, output_tensor_ptr, output_size));
*4c07ec22SJames Wright      PetscCall(VecRestoreArray(DD_Outputs_loc, &dd_outputs_ptr));
*4c07ec22SJames Wright    } else {
*4c07ec22SJames Wright      PetscInt      num_nodes;
*4c07ec22SJames Wright      torch::Tensor DD_Outputs_tensor;
*4c07ec22SJames Wright
*4c07ec22SJames Wright      PetscCall(VecGetLocalSize(DD_Outputs_loc, &output_size));
*4c07ec22SJames Wright      num_nodes = output_size / num_output_comps;
*4c07ec22SJames Wright      PetscCall(VecGetArrayAndMemType(DD_Outputs_loc, &dd_outputs_ptr, &output_mem_type));
*4c07ec22SJames Wright      PetscCallCXX(options = torch::TensorOptions().dtype(torch::kFloat64).device(dd_output_device));
*4c07ec22SJames Wright      PetscCallCXX(DD_Outputs_tensor = torch::from_blob((void *)dd_outputs_ptr, {num_nodes, num_output_comps}, options));
*4c07ec22SJames Wright      PetscCallCXX(DD_Outputs_tensor.copy_(output_tensor));
*4c07ec22SJames Wright      PetscCall(VecRestoreArrayAndMemType(DD_Outputs_loc, &dd_outputs_ptr));
*4c07ec22SJames Wright    }
*4c07ec22SJames Wright  }
*4c07ec22SJames Wright  PetscFunctionReturn(PETSC_SUCCESS);
*4c07ec22SJames Wright}