Transformers documentation

BridgeTower

Transformers

You are viewing v4.36.1 version. A newer version v5.0.0rc1 is available.

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

BridgeTower

Overview

BridgeTower モデルは、Xiao Xu、Chenfei Wu、Shachar Rosenman、Vasudev Lal、Wanxiang Che、Nan Duan BridgeTower: Building Bridges Between Encoders in Vision-Language Representative Learning で提案されました。ドゥアン。このモデルの目標は、各ユニモーダルエンコーダとクロスモーダルエンコーダの間のブリッジにより、クロスモーダルエンコーダの各層での包括的かつ詳細な対話が可能になり、追加のパフォーマンスと計算コストがほとんど無視できる程度で、さまざまな下流タスクで優れたパフォーマンスを実現します。

この論文は AAAI’23 会議に採択されました。

論文の要約は次のとおりです。

TWO-TOWER アーキテクチャを備えたビジョン言語 (VL) モデルは、近年の視覚言語表現学習の主流となっています。現在の VL モデルは、軽量のユニモーダルエンコーダーを使用して、ディープクロスモーダルエンコーダーで両方のモダリティを同時に抽出、位置合わせ、融合することを学習するか、事前にトレーニングされたディープユニモーダルエンコーダーから最終層のユニモーダル表現を上部のクロスモーダルエンコーダー。どちらのアプローチも、視覚言語表現の学習を制限し、モデルのパフォーマンスを制限する可能性があります。この論文では、ユニモーダルエンコーダの最上位層とクロスモーダルエンコーダの各層の間の接続を構築する複数のブリッジ層を導入する BRIDGETOWER を提案します。これにより、効果的なボトムアップのクロスモーダル調整と、クロスモーダルエンコーダー内の事前トレーニング済みユニモーダルエンコーダーのさまざまなセマンティックレベルの視覚表現とテキスト表現の間の融合が可能になります。 BRIDGETOWER は 4M 画像のみで事前トレーニングされており、さまざまな下流の視覚言語タスクで最先端のパフォーマンスを実現します。特に、VQAv2 テスト標準セットでは、BRIDGETOWER は 78.73% の精度を達成し、同じ事前トレーニングデータとほぼ無視できる追加パラメータと計算コストで以前の最先端モデル METER を 1.09% 上回りました。特に、モデルをさらにスケーリングすると、BRIDGETOWER は 81.15% の精度を達成し、桁違いに大きなデータセットで事前トレーニングされたモデルを上回りました。

ブリッジタワーアーキテクチャ。元の論文から抜粋。

このモデルは、Anahita Bhiwandiwalla、Tiep Le、[Shaoyen Tseng](https://huggingface.co/shaoyent）。元のコードはここにあります。

Usage tips and examples

BridgeTower は、ビジュアルエンコーダー、テキストエンコーダー、および複数の軽量ブリッジレイヤーを備えたクロスモーダルエンコーダーで構成されます。このアプローチの目標は、各ユニモーダルエンコーダーとクロスモーダルエンコーダーの間にブリッジを構築し、クロスモーダルエンコーダーの各層で包括的かつ詳細な対話を可能にすることでした。原則として、提案されたアーキテクチャでは、任意のビジュアル、テキスト、またはクロスモーダルエンコーダを適用できます。

BridgeTowerProcessor は、RobertaTokenizer と BridgeTowerImageProcessor を単一のインスタンスにラップし、両方の機能を実現します。テキストをエンコードし、画像をそれぞれ用意します。

次の例は、BridgeTowerProcessor と BridgeTowerForContrastiveLearning を使用して対照学習を実行する方法を示しています。

>>> from transformers import BridgeTowerProcessor, BridgeTowerForContrastiveLearning
>>> import requests
>>> from PIL import Image

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")
>>> model = BridgeTowerForContrastiveLearning.from_pretrained("BridgeTower/bridgetower-large-itm-mlm-itc")

>>> # forward pass
>>> scores = dict()
>>> for text in texts:
...     # prepare inputs
...     encoding = processor(image, text, return_tensors="pt")
...     outputs = model(**encoding)
...     scores[text] = outputs

次の例は、BridgeTowerProcessor と BridgeTowerForImageAndTextRetrieval を使用して画像テキストの取得を実行する方法を示しています。

>>> from transformers import BridgeTowerProcessor, BridgeTowerForImageAndTextRetrieval
>>> import requests
>>> from PIL import Image

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> texts = ["An image of two cats chilling on a couch", "A football player scoring a goal"]

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForImageAndTextRetrieval.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")

>>> # forward pass
>>> scores = dict()
>>> for text in texts:
...     # prepare inputs
...     encoding = processor(image, text, return_tensors="pt")
...     outputs = model(**encoding)
...     scores[text] = outputs.logits[0, 1].item()

次の例は、BridgeTowerProcessor と BridgeTowerForMaskedLM を使用してマスクされた言語モデリングを実行する方法を示しています。

>>> from transformers import BridgeTowerProcessor, BridgeTowerForMaskedLM
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000360943.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw).convert("RGB")
>>> text = "a <mask> looking out of the window"

>>> processor = BridgeTowerProcessor.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")
>>> model = BridgeTowerForMaskedLM.from_pretrained("BridgeTower/bridgetower-base-itm-mlm")

>>> # prepare inputs
>>> encoding = processor(image, text, return_tensors="pt")

>>> # forward pass
>>> outputs = model(**encoding)

>>> results = processor.decode(outputs.logits.argmax(dim=-1).squeeze(0).tolist())

>>> print(results)
.a cat looking out of the window.

チップ：

BridgeTower のこの実装では、RobertaTokenizer を使用してテキスト埋め込みを生成し、OpenAI の CLIP/ViT モデルを使用して視覚的埋め込みを計算します。
事前トレーニングされた bridgeTower-base および bridgetower マスクされた言語モデリングと画像テキストマッチングのチェックポイントがリリースされました。
画像検索およびその他の下流タスクにおける BridgeTower のパフォーマンスについては、表 5 を参照してください。
このモデルの PyTorch バージョンは、torch 1.10 以降でのみ使用できます。

Transformers

BridgeTower

Overview

Usage tips and examples

BridgeTowerConfig

class transformers.BridgeTowerConfig

from_text_vision_configs

BridgeTowerTextConfig

class transformers.BridgeTowerTextConfig

BridgeTowerVisionConfig

class transformers.BridgeTowerVisionConfig

BridgeTowerImageProcessor

class transformers.BridgeTowerImageProcessor

preprocess

BridgeTowerProcessor

class transformers.BridgeTowerProcessor

__call__

BridgeTowerModel

class transformers.BridgeTowerModel

forward

BridgeTowerForContrastiveLearning

class transformers.BridgeTowerForContrastiveLearning

forward

BridgeTowerForMaskedLM

class transformers.BridgeTowerForMaskedLM

forward

BridgeTowerForImageAndTextRetrieval

class transformers.BridgeTowerForImageAndTextRetrieval

forward

call