Byeongho Heo's picture

2 11 3

Byeongho Heo

bhheo

·

https://sites.google.com/view/byeongho-heo/home

AI & ML interests

None yet

Recent Activity

authored a paper about 1 month ago

What Do Self-Supervised Vision Transformers Learn?

authored a paper about 1 month ago

Group Generalized Mean Pooling for Vision Transformer

authored a paper about 1 month ago

Token Bottleneck: One Token to Remember Dynamics

View all activity

Organizations

authored 3 papers about 1 month ago

What Do Self-Supervised Vision Transformers Learn?

Paper • 2305.00729 • Published May 1, 2023

Group Generalized Mean Pooling for Vision Transformer

Paper • 2212.04114 • Published Dec 8, 2022

Token Bottleneck: One Token to Remember Dynamics

Paper • 2507.06543 • Published Jul 9 • 20

upvoted a paper about 1 month ago

Token Bottleneck: One Token to Remember Dynamics

Paper • 2507.06543 • Published Jul 9 • 20

commented a paper about 1 month ago

Token Bottleneck: One Token to Remember Dynamics

Paper • 2507.06543 • Published Jul 9 • 20 •

upvoted 2 collections 4 months ago

HyperCLOVA X SEED

HyperCLOVA X SEED is NAVER's lightweight open-source lineup with a strong focus on Korean language performance • 4 items • Updated Jul 22 • 28

ProLIP

Official ProLIP weights, Probabilistic Language-Image Pre-Training (ICLR 2025) • 7 items • Updated Apr 18 • 10

authored a paper 9 months ago

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

Paper • 2411.19067 • Published Nov 28, 2024 • 8

upvoted a paper 9 months ago

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

Paper • 2411.19067 • Published Nov 28, 2024 • 8

commented a paper 9 months ago

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

Paper • 2411.19067 • Published Nov 28, 2024 • 8 •

upvoted a collection 9 months ago

Cosmos-Tokenizer

A suite of image and video tokenizers • 13 items • Updated 9 days ago • 41

upvoted 2 papers 10 months ago

Unified Speech-Text Pretraining for Spoken Dialog Modeling

Paper • 2402.05706 • Published Feb 8, 2024 • 6

Rethinking Spatial Dimensions of Vision Transformers

Paper • 2103.16302 • Published Mar 30, 2021 • 1

liked a dataset 10 months ago

ILSVRC/imagenet-1k

Updated Jul 16, 2024 • 32k • 543

upvoted 2 collections 10 months ago

RDNet

DenseNets Reloaded: Paradigm Shift Beyond ResNets and ViTs [ECCV 2024] • 9 items • Updated Oct 16, 2024 • 3

rope-vit

Rotary Position Embedding for Vision Transformer [ECCV 2024] • 22 items • Updated Oct 16, 2024 • 3

updated 4 models 10 months ago

naver-ai/swin_rope_axial_base_patch4_window7_224

Image Classification • Updated Oct 18, 2024 • 1 • 1

naver-ai/swin_rope_axial_small_patch4_window7_224

Image Classification • Updated Oct 18, 2024 • 2

naver-ai/swin_rope_axial_tiny_patch4_window7_224

Image Classification • Updated Oct 18, 2024 • 1

naver-ai/swin_rope_mixed_base_patch4_window7_224

Image Classification • Updated Oct 18, 2024 • 1 • 1