OpenVINO GPU plugin does not support int64 natively so i64 inputs are…

… always converted to i32. To avoid runtime conversion, updated IO tensor precision to i32.
huggingface · Jun 25, 2024 · 1d4800f · 1d4800f
1 parent f935233
commit 1d4800f
Showing 1 changed file with 9 additions and 0 deletions.
diff --git a/optimum/intel/openvino/modeling_decoder.py b/optimum/intel/openvino/modeling_decoder.py
@@ -133,6 +133,8 @@ def __init__(
         self._first_iter_beam_search = False
         self._second_iter_beam_search = False
         self.update_pkv_precision()
+        if "GPU" in device:
+            self.update_int_precision()
         if self.is_dynamic:
             self.model = self._reshape(self.model, -1, -1)
         is_stateful_supported = ensure_stateful_is_available(warn=False)
@@ -210,6 +212,13 @@ def update_pkv_precision(self, force_fp32=False):
                     self.model = self._reshape(self.model, -1, -1)
                 self.request = None
 
+    def update_int_precision(self):
+        ppp = PrePostProcessor(self.model)
+        for key in self.model.inputs:
+            in_name = key.get_any_name()
+            if key.get_element_type() == Type.i64 and ("input_ids" in in_name or "position_ids" in in_name or "attention_mask" in in_name):
+                ppp.input(in_name).tensor().set_element_type(Type.i32)
+
     def _save_pretrained(self, save_directory: Union[str, Path]):
         """
         Saves the model to the OpenVINO IR format so that it can be re-loaded using the