magiv2 / processing_magiv2.py

Mateusz Mróz

Add Magiv2 model configuration, processing, and utility functions

bfcd54f 5 months ago

22.2 kB

	from transformers import ConditionalDetrImageProcessor, TrOCRProcessor, ViTImageProcessor
	import torch
	from typing import List, Dict, Any, Optional, Tuple
	from shapely.geometry import box
	from shapely.geometry.polygon import Polygon
	from .utils import x1y1x2y2_to_xywh
	import numpy as np
	from numpy.typing import NDArray


	class Magiv2Processor():
	"""
	Procesor danych dla modelu Magiv2 - obsługuje preprocessing i postprocessing.

	Klasa odpowiedzialna za przygotowanie danych wejściowych dla różnych modułów
	Magiv2 (detekcja, OCR, embeddingi) oraz przetwarzanie outputów. Zawiera również
	metody pomocnicze do filtrowania detekcji i konwersji formatów anotacji.

	Attributes:
	config: Konfiguracja modelu Magiv2
	detection_image_preprocessor: Preprocessor dla obrazów do detekcji obiektów
	ocr_preprocessor: Preprocessor dla obrazów do OCR
	crop_embedding_image_preprocessor: Preprocessor dla wyciętych fragmentów obrazu
	"""

	def __init__(self, config: Any) -> None:
	"""
	Inicjalizuje procesor z podaną konfiguracją.

	Tworzy preprocessory dla modułów, które są aktywne zgodnie z konfiguracją:
	- Detekcja obiektów: ConditionalDetrImageProcessor
	- OCR: TrOCRProcessor
	- Embeddingi crops: ViTImageProcessor

	Args:
	config: Obiekt konfiguracji Magiv2Config z parametrami preprocessingu
	"""
	self.config: Any = config
	self.detection_image_preprocessor: Optional[ConditionalDetrImageProcessor] = None
	self.ocr_preprocessor: Optional[TrOCRProcessor] = None
	self.crop_embedding_image_preprocessor: Optional[ViTImageProcessor] = None

	# Inicjalizacja preprocessora dla detekcji obiektów (jeśli aktywny)
	if not config.disable_detections:
	assert config.detection_image_preprocessing_config is not None
	self.detection_image_preprocessor = ConditionalDetrImageProcessor.from_dict(
	config.detection_image_preprocessing_config)

	# Inicjalizacja preprocessora dla OCR (jeśli aktywny)
	if not config.disable_ocr:
	assert config.ocr_pretrained_processor_path is not None
	self.ocr_preprocessor = TrOCRProcessor.from_pretrained(
	config.ocr_pretrained_processor_path)

	# Inicjalizacja preprocessora dla embeddingów crops (jeśli aktywny)
	if not config.disable_crop_embeddings:
	assert config.crop_embedding_image_preprocessing_config is not None
	self.crop_embedding_image_preprocessor = ViTImageProcessor.from_dict(
	config.crop_embedding_image_preprocessing_config)

	def preprocess_inputs_for_detection(
	self,
	images: List[NDArray[np.uint8]],
	annotations: Optional[List[Dict[str, Any]]] = None
	) -> Dict[str, torch.Tensor]:
	"""
	Preprocessuje obrazy do formatu wymaganego przez moduł detekcji obiektów.

	Wykonuje normalizację, resize i padding obrazów. Jeśli podano anotacje,
	konwertuje je do formatu COCO i skaluje współrzędnie bbox zgodnie z resize.

	Args:
	images: Lista obrazów jako numpy arrays (format HWC)
	annotations: Opcjonalne anotacje ground truth w formacie:
	[{"image_id": int, "bboxes_as_x1y1x2y2": List, "labels": List}]

	Returns:
	Słownik z kluczami:
	- "pixel_values": torch.Tensor z preprocessowanymi obrazami
	- "pixel_mask": torch.Tensor z maską paddingu
	- "labels": List[Dict] z przetworzonymi anotacjami (jeśli podano)
	"""
	images_list: List[NDArray[np.uint8]] = list(images)
	assert isinstance(images_list[0], np.ndarray)
	# Konwersja anotacji do formatu COCO (bbox w formacie xywh zamiast x1y1x2y2)
	coco_annotations: Optional[List[Dict[str, Any]]
	] = self._convert_annotations_to_coco_format(annotations)
	# Preprocessing obrazów i anotacji
	inputs: Dict[str, torch.Tensor] = self.detection_image_preprocessor(
	images_list, annotations=coco_annotations, return_tensors="pt")
	return inputs

	def preprocess_inputs_for_ocr(self, images: List[NDArray[np.uint8]]) -> torch.Tensor:
	"""
	Preprocessuje obrazy do formatu wymaganego przez moduł OCR.

	Wykonuje normalizację i resize obrazów tekstowych dla modelu TrOCR.

	Args:
	images: Lista obrazów jako numpy arrays (fragmenty z tekstem)

	Returns:
	Tensor z preprocessowanymi obrazami [batch, channels, height, width]
	"""
	images_list: List[NDArray[np.uint8]] = list(images)
	assert isinstance(images_list[0], np.ndarray)
	return self.ocr_preprocessor(images_list, return_tensors="pt").pixel_values

	def preprocess_inputs_for_crop_embeddings(self, images: List[NDArray[np.uint8]]) -> torch.Tensor:
	"""
	Preprocessuje wycięte fragmenty obrazów dla modułu embeddingów.

	Wykonuje normalizację i resize crops dla modelu ViT-MAE.

	Args:
	images: Lista wyciętych fragmentów obrazów jako numpy arrays

	Returns:
	Tensor z preprocessowanymi crops [batch, channels, height, width]
	"""
	images_list: List[NDArray[np.uint8]] = list(images)
	assert isinstance(images_list[0], np.ndarray)
	return self.crop_embedding_image_preprocessor(images_list, return_tensors="pt").pixel_values

	def postprocess_ocr_tokens(
	self,
	generated_ids: torch.Tensor,
	skip_special_tokens: bool = True
	) -> List[str]:
	"""
	Dekoduje tokeny wygenerowane przez model OCR na tekst.

	Args:
	generated_ids: Tensor z ID tokenów wygenerowanych przez decoder OCR
	skip_special_tokens: Czy pomijać specjalne tokeny (PAD, BOS, EOS) w wyniku

	Returns:
	Lista stringów z rozpoznanym tekstem
	"""
	return self.ocr_preprocessor.batch_decode(generated_ids, skip_special_tokens=skip_special_tokens)

	def crop_image(
	self,
	image: NDArray[np.uint8],
	bboxes: List[List[float]]
	) -> List[NDArray[np.uint8]]:
	"""
	Wycina fragmenty obrazu zgodnie z podanymi bounding boxami.

	Metoda automatycznie naprawia nieprawidłowe bounding boxy:
	- Ogranicza współrzędne do granic obrazu
	- Zapewnia minimalny rozmiar 10x10 pikseli
	- Zamienia współrzędne jeśli są w nieprawidłowej kolejności

	Args:
	image: Obraz źródłowy jako numpy array (format HWC)
	bboxes: Lista bounding boxów w formacie [x1, y1, x2, y2]

	Returns:
	Lista wyciętych fragmentów obrazu (każdy jako numpy array)
	"""
	crops_for_image: List[NDArray[np.uint8]] = []
	for bbox in bboxes:
	x1: float
	y1: float
	x2: float
	y2: float
	x1, y1, x2, y2 = bbox

	# Naprawa bounding boxa w przypadku gdy jest poza granicami lub za mały
	# Konwersja do int
	x1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)
	# Upewnienie się że x1<x2 i y1<y2 (na wypadek odwróconej kolejności)
	x1, y1, x2, y2 = min(x1, x2), min(y1, y2), max(x1, x2), max(y1, y2)
	# Ograniczenie do granic obrazu (minimum)
	x1, y1 = max(0, x1), max(0, y1)
	x1, y1 = min(image.shape[1], x1), min(image.shape[0], y1)
	# Ograniczenie do granic obrazu (maksimum)
	x2, y2 = max(0, x2), max(0, y2)
	x2, y2 = min(image.shape[1], x2), min(image.shape[0], y2)

	# Zapewnienie minimalnej szerokości 10 pikseli
	if x2 - x1 < 10:
	if image.shape[1] - x1 > 10:
	x2 = x1 + 10
	else:
	x1 = x2 - 10

	# Zapewnienie minimalnej wysokości 10 pikseli
	if y2 - y1 < 10:
	if image.shape[0] - y1 > 10:
	y2 = y1 + 10
	else:
	y1 = y2 - 10

	# Wycięcie fragmentu obrazu
	crop: NDArray[np.uint8] = image[y1:y2, x1:x2]
	crops_for_image.append(crop)
	return crops_for_image

	def _get_indices_of_characters_to_keep(
	self,
	batch_scores: torch.Tensor,
	batch_labels: torch.Tensor,
	batch_bboxes: torch.Tensor,
	character_detection_threshold: float
	) -> List[torch.Tensor]:
	"""
	Filtruje detekcje postaci na podstawie progu prawdopodobieństwa.

	Zachowuje tylko detekcje z etykietą 0 (postać) i score powyżej progu.

	Args:
	batch_scores: Tensor ze scorami prawdopodobieństwa [batch, num_queries]
	batch_labels: Tensor z etykietami klas [batch, num_queries]
	batch_bboxes: Tensor z bounding boxami [batch, num_queries, 4]
	character_detection_threshold: Minimalny score do zachowania detekcji (0-1)

	Returns:
	Lista tensorów z indeksami postaci do zachowania dla każdego obrazu
	"""
	indices_of_characters_to_keep: List[torch.Tensor] = []
	for scores, labels, _ in zip(batch_scores, batch_labels, batch_bboxes):
	# Filtrowanie: label=0 (postać) AND score > próg
	indices: torch.Tensor = torch.where((labels == 0) & (
	scores > character_detection_threshold))[0]
	indices_of_characters_to_keep.append(indices)
	return indices_of_characters_to_keep

	def _get_indices_of_panels_to_keep(
	self,
	batch_scores: torch.Tensor,
	batch_labels: torch.Tensor,
	batch_bboxes: torch.Tensor,
	panel_detection_threshold: float
	) -> List[List[int]]:
	"""
	Filtruje detekcje paneli z zastosowaniem NMS (Non-Maximum Suppression).

	Zachowuje tylko panele z etykietą 2 i score powyżej progu. Dodatkowo
	stosuje NMS aby usunąć nakładające się panele - jeśli nowy panel
	pokrywa się w >50% z już zaakceptowanymi panelami, jest odrzucany.

	Args:
	batch_scores: Tensor ze scorami [batch, num_queries]
	batch_labels: Tensor z etykietami [batch, num_queries]
	batch_bboxes: Tensor z bboxami [batch, num_queries, 4]
	panel_detection_threshold: Minimalny score do zachowania panelu

	Returns:
	Lista list indeksów paneli do zachowania (po NMS) dla każdego obrazu
	"""
	indices_of_panels_to_keep: List[List[int]] = []
	for scores, labels, bboxes in zip(batch_scores, batch_labels, batch_bboxes):
	# Wybranie tylko detekcji z label=2 (panel)
	indices: torch.Tensor = torch.where(labels == 2)[0]
	bboxes = bboxes[indices]
	scores = scores[indices]
	labels = labels[indices]
	if len(indices) == 0:
	indices_of_panels_to_keep.append([])
	continue

	# Sortowanie paneli malejąco po score (najlepsze pierwsze)
	scores, labels, indices, bboxes = zip(
	*sorted(zip(scores, labels, indices, bboxes), reverse=True))

	panels_to_keep: List[Tuple[torch.Tensor,
	torch.Tensor, torch.Tensor, torch.Tensor]] = []
	# Unia wszystkich zaakceptowanych paneli (do sprawdzania nakładania)
	union_of_panels_so_far: Polygon = box(0, 0, 0, 0)

	for ps, pb, pl, pi in zip(scores, bboxes, labels, indices):
	# Konwersja bbox na polygon Shapely
	panel_polygon: Polygon = box(pb[0], pb[1], pb[2], pb[3])

	# Odrzuć jeśli score poniżej progu
	if ps < panel_detection_threshold:
	continue

	# Odrzuć jeśli panel nakłada się >50% z już zaakceptowanymi panelami (NMS)
	if union_of_panels_so_far.intersection(panel_polygon).area / panel_polygon.area > 0.5:
	continue

	# Zaakceptuj panel
	panels_to_keep.append((ps, pl, pb, pi))
	# Dodaj do unii zaakceptowanych paneli
	union_of_panels_so_far = union_of_panels_so_far.union(
	panel_polygon)

	# Wyciągnięcie indeksów zaakceptowanych paneli
	indices_of_panels_to_keep.append(
	[p[3].item() for p in panels_to_keep])
	return indices_of_panels_to_keep

	def _get_indices_of_texts_to_keep(
	self,
	batch_scores: torch.Tensor,
	batch_labels: torch.Tensor,
	batch_bboxes: torch.Tensor,
	text_detection_threshold: float
	) -> List[List[int]]:
	"""
	Filtruje detekcje tekstu z zastosowaniem NMS (Non-Maximum Suppression).

	Zachowuje tylko tekst z etykietą 1 i score powyżej progu. Stosuje NMS
	aby usunąć duplikaty - jeśli nowy tekst ma IoU >0.5 z już zaakceptowanym
	tekstem, jest odrzucany.

	Args:
	batch_scores: Tensor ze scorami [batch, num_queries]
	batch_labels: Tensor z etykietami [batch, num_queries]
	batch_bboxes: Tensor z bboxami [batch, num_queries, 4]
	text_detection_threshold: Minimalny score do zachowania tekstu

	Returns:
	Lista list indeksów tekstów do zachowania (po NMS) dla każdego obrazu
	"""
	indices_of_texts_to_keep: List[List[int]] = []
	for scores, labels, bboxes in zip(batch_scores, batch_labels, batch_bboxes):
	# Filtrowanie: label=1 (tekst) AND score > próg
	indices: torch.Tensor = torch.where((labels == 1) & (
	scores > text_detection_threshold))[0]
	bboxes = bboxes[indices]
	scores = scores[indices]
	labels = labels[indices]
	if len(indices) == 0:
	indices_of_texts_to_keep.append([])
	continue

	# Sortowanie tekstów malejąco po score (najlepsze pierwsze)
	scores, labels, indices, bboxes = zip(
	*sorted(zip(scores, labels, indices, bboxes), reverse=True))

	texts_to_keep: List[Tuple[torch.Tensor,
	torch.Tensor, torch.Tensor, torch.Tensor]] = []
	# Lista polygonów zaakceptowanych tekstów (do sprawdzania nakładania)
	texts_to_keep_as_shapely_objects: List[Polygon] = []

	for ts, tb, tl, ti in zip(scores, bboxes, labels, indices):
	# Konwersja bbox na polygon Shapely
	text_polygon: Polygon = box(tb[0], tb[1], tb[2], tb[3])
	should_append: bool = True

	# Sprawdź nakładanie z już zaakceptowanymi tekstami
	for t in texts_to_keep_as_shapely_objects:
	# Jeśli IoU > 0.5, odrzuć (to duplikat)
	if t.intersection(text_polygon).area / t.union(text_polygon).area > 0.5:
	should_append = False
	break

	if should_append:
	texts_to_keep.append((ts, tl, tb, ti))
	texts_to_keep_as_shapely_objects.append(text_polygon)

	# Wyciągnięcie indeksów zaakceptowanych tekstów
	indices_of_texts_to_keep.append(
	[t[3].item() for t in texts_to_keep])
	return indices_of_texts_to_keep

	def _get_indices_of_tails_to_keep(
	self,
	batch_scores: torch.Tensor,
	batch_labels: torch.Tensor,
	batch_bboxes: torch.Tensor,
	text_detection_threshold: float
	) -> List[List[int]]:
	"""
	Filtruje detekcje ogonów dymków z zastosowaniem NMS (Non-Maximum Suppression).

	Zachowuje tylko ogony z etykietą 3 i score powyżej progu. Stosuje NMS
	aby usunąć duplikaty - jeśli nowy ogon ma IoU >0.5 z już zaakceptowanym
	ogonem, jest odrzucany.

	Args:
	batch_scores: Tensor ze scorami [batch, num_queries]
	batch_labels: Tensor z etykietami [batch, num_queries]
	batch_bboxes: Tensor z bboxami [batch, num_queries, 4]
	text_detection_threshold: Minimalny score do zachowania ogona

	Returns:
	Lista list indeksów ogonów do zachowania (po NMS) dla każdego obrazu
	"""
	indices_of_tails_to_keep: List[List[int]] = []
	for scores, labels, bboxes in zip(batch_scores, batch_labels, batch_bboxes):
	# Filtrowanie: label=3 (ogon dymku) AND score > próg
	indices: torch.Tensor = torch.where((labels == 3) & (
	scores > text_detection_threshold))[0]
	bboxes = bboxes[indices]
	scores = scores[indices]
	labels = labels[indices]
	if len(indices) == 0:
	indices_of_tails_to_keep.append([])
	continue

	# Sortowanie ogonów malejąco po score (najlepsze pierwsze)
	scores, labels, indices, bboxes = zip(
	*sorted(zip(scores, labels, indices, bboxes), reverse=True))

	tails_to_keep: List[Tuple[torch.Tensor,
	torch.Tensor, torch.Tensor, torch.Tensor]] = []
	# Lista polygonów zaakceptowanych ogonów (do sprawdzania nakładania)
	tails_to_keep_as_shapely_objects: List[Polygon] = []

	for ts, tb, tl, ti in zip(scores, bboxes, labels, indices):
	# Konwersja bbox na polygon Shapely
	tail_polygon: Polygon = box(tb[0], tb[1], tb[2], tb[3])
	should_append: bool = True

	# Sprawdź nakładanie z już zaakceptowanymi ogonami
	for t in tails_to_keep_as_shapely_objects:
	# Jeśli IoU > 0.5, odrzuć (to duplikat)
	if t.intersection(tail_polygon).area / t.union(tail_polygon).area > 0.5:
	should_append = False
	break

	if should_append:
	tails_to_keep.append((ts, tl, tb, ti))
	tails_to_keep_as_shapely_objects.append(tail_polygon)

	# Wyciągnięcie indeksów zaakceptowanych ogonów
	indices_of_tails_to_keep.append(
	[t[3].item() for t in tails_to_keep])
	return indices_of_tails_to_keep

	def _convert_annotations_to_coco_format(
	self,
	annotations: Optional[List[Dict[str, Any]]]
	) -> Optional[List[Dict[str, Any]]]:
	"""
	Konwertuje anotacje z formatu x1y1x2y2 do formatu COCO (xywh).

	Format COCO używa bbox jako [x, y, width, height] zamiast [x1, y1, x2, y2].
	Dodatkowo oblicza pole powierzchni dla każdego bbox.

	Args:
	annotations: Lista anotacji w formacie:
	[{"image_id": int, "bboxes_as_x1y1x2y2": List, "labels": List}]
	lub None

	Returns:
	Lista anotacji w formacie COCO lub None jeśli input był None
	"""
	if annotations is None:
	return None
	# Weryfikacja poprawności formatu anotacji
	self._verify_annotations_are_in_correct_format(annotations)

	coco_annotations: List[Dict[str, Any]] = []
	for annotation in annotations:
	coco_annotation: Dict[str, Any] = {
	"image_id": annotation["image_id"],
	"annotations": [],
	}
	# Konwersja każdego bbox z x1y1x2y2 na xywh
	for bbox, label in zip(annotation["bboxes_as_x1y1x2y2"], annotation["labels"]):
	coco_annotation["annotations"].append({
	# [x1,y1,x2,y2] -> [x,y,w,h]
	"bbox": x1y1x2y2_to_xywh(bbox),
	"category_id": label,
	# width * height
	"area": (bbox[2] - bbox[0]) * (bbox[3] - bbox[1]),
	})
	coco_annotations.append(coco_annotation)
	return coco_annotations

	def _verify_annotations_are_in_correct_format(self, annotations: Optional[List[Dict[str, Any]]]) -> None:
	"""
	Weryfikuje poprawność formatu anotacji.

	Sprawdza czy anotacje są w oczekiwanym formacie:
	- Lista/tupla słowników
	- Każdy słownik zawiera klucze: "image_id", "bboxes_as_x1y1x2y2", "labels"
	- Labels: 0=postać, 1=tekst, 2=panel, 3=ogon

	Args:
	annotations: Anotacje do weryfikacji lub None

	Raises:
	ValueError: Jeśli format anotacji jest nieprawidłowy
	"""
	error_msg: str = """
	Annotations must be in the following format:
	[
	{
	"image_id": 0,
	"bboxes_as_x1y1x2y2": [[0, 0, 10, 10], [10, 10, 20, 20], [20, 20, 30, 30]],
	"labels": [0, 1, 2],
	},
	...
	]
	Labels: 0 for characters, 1 for text, 2 for panels, 3 for tails.
	"""
	if annotations is None:
	return

	# Sprawdzenie czy to lista lub tupla
	if not isinstance(annotations, List) and not isinstance(annotations, tuple):
	raise ValueError(
	f"{error_msg} Expected a List/Tuple, found {type(annotations)}."
	)

	if len(annotations) == 0:
	return

	# Sprawdzenie czy elementy to słowniki
	if not isinstance(annotations[0], dict):
	raise ValueError(
	f"{error_msg} Expected a List[Dict], found {type(annotations[0])}."
	)

	# Sprawdzenie wymaganych kluczy w słowniku
	if "image_id" not in annotations[0]:
	raise ValueError(
	f"{error_msg} Dict must contain 'image_id'."
	)
	if "bboxes_as_x1y1x2y2" not in annotations[0]:
	raise ValueError(
	f"{error_msg} Dict must contain 'bboxes_as_x1y1x2y2'."
	)
	if "labels" not in annotations[0]:
	raise ValueError(
	f"{error_msg} Dict must contain 'labels'."
	)