Kwai-Keye
/

Keye-VL-1_5-8B

@@ -1,10 +1,3 @@
----
-license: apache-2.0
-language:
-- zh
-- en
-pipeline_tag: image-text-to-text
----
 # Kwai Keye-VL
@@ -12,7 +5,7 @@ pipeline_tag: image-text-to-text
   <img src="asset/keye_logo_2.png" width="100%" alt="Kwai Keye-VL Logo">
 </div>
-<font size=3><div align='center' >
 [[🍎 Home Page](https://kwai-keye.github.io/)]
 [[📖 Technique Report](https://arxiv.org/abs/2507.01949)]
 [[📊 Keye-VL-8B-Preview](https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview) ]

 # Kwai Keye-VL
   <img src="asset/keye_logo_2.png" width="100%" alt="Kwai Keye-VL Logo">
 </div>
+<font size=7><div align='center' >
 [[🍎 Home Page](https://kwai-keye.github.io/)]
 [[📖 Technique Report](https://arxiv.org/abs/2507.01949)]
 [[📊 Keye-VL-8B-Preview](https://huggingface.co/Kwai-Keye/Keye-VL-8B-Preview) ]

processing_keye_vl_1_5.py CHANGED Viewed

@@ -234,10 +234,14 @@ class KeyeVL1_5Processor(ProcessorMixin):
                         mode="bilinear",
                         antialias=True,
                     ).float()
                 # Tensor(N, C, H, W) -> Tuple[Tensor(1, C, H, W)]
                 # slow_frames = list(slow_frames.split(1, dim=0))，不split，在模型里面做
                 slow_video_inputs = self.image_processor(
-                    images=None, videos=[slow_frames], **output_kwargs["images_kwargs"], do_resize=False)
                 slow_video_grid_thw = slow_video_inputs["video_grid_thw"]
                 batch_slow_frames.append(slow_video_inputs)
                 # # 当前这个视频每一帧的token数
@@ -255,10 +259,14 @@ class KeyeVL1_5Processor(ProcessorMixin):
                             mode="bilinear",
                             antialias=True,
                         ).float()
                     # Tensor(N, C, H, W) -> Tuple[Tensor(1, C, H, W)]
                     # fast_frames = list(fast_frames.split(1, dim=0))
                     fast_video_inputs = self.image_processor(
-                        images=None, videos=[fast_frames], **output_kwargs["images_kwargs"], do_resize=False)
                     fast_video_grid_thw = fast_video_inputs["video_grid_thw"]
                     batch_fast_frames.append(fast_video_inputs)
                     # # 当前这个视频的所有token数

                         mode="bilinear",
                         antialias=True,
                     ).float()
+                    do_resize = False
+                else:
+                    slow_frames = slow_frames.float()
+                    do_resize = True
                 # Tensor(N, C, H, W) -> Tuple[Tensor(1, C, H, W)]
                 # slow_frames = list(slow_frames.split(1, dim=0))，不split，在模型里面做
                 slow_video_inputs = self.image_processor(
+                    images=None, videos=[slow_frames], **output_kwargs["images_kwargs"], do_resize=do_resize)
                 slow_video_grid_thw = slow_video_inputs["video_grid_thw"]
                 batch_slow_frames.append(slow_video_inputs)
                 # # 当前这个视频每一帧的token数
                             mode="bilinear",
                             antialias=True,
                         ).float()
+                        do_fast_resize = False
+                    else:
+                        fast_frames = fast_frames.float()
+                        do_fast_resize = True
                     # Tensor(N, C, H, W) -> Tuple[Tensor(1, C, H, W)]
                     # fast_frames = list(fast_frames.split(1, dim=0))
                     fast_video_inputs = self.image_processor(
+                        images=None, videos=[fast_frames], **output_kwargs["images_kwargs"], do_resize=do_fast_resize)
                     fast_video_grid_thw = fast_video_inputs["video_grid_thw"]
                     batch_fast_frames.append(fast_video_inputs)
                     # # 当前这个视频的所有token数