Multimodal RAG - a merve Collection

merve 's Collections

Weekly Releases (May 22, 2026)

Weekly Releases (May 15, 2026)

Apr 27 Releases

apr-17-releases

super cool vision language datasets

Multimodal tool calling datasets

Jan 26 Releases

Jan 19 Releases

Jan 12 Releases

Dec 30 Releases

Dec 19 Releases

Dec 12 Releases

Real-time Vision Models

MetaCLIP2 Multilingual

Sep 30 Releases

Sep 23 Releases

Sep 16 Releases

Sep 11 Releases

August 29 Releases

Aug 22 Releases

Releases August 9

Releases August 2

Releases July 25

Releases July 18

Releases July 11

Releases July 4

Releases June 27

June 20 Releases

OCR Models & Datasets

Releases June 13

Releases June 6

Releases 30 May

Releases 23 May

May 16 Releases

Any-to-Any Models, Datasets, Spaces

Releases Apr 21 & May 2

April 16 Releases

Multimodal DSE Retrievers

April 11 Releases

March 28 Releases

March 21 Releases

Türkçe VLMler

Feb 14 Releases 💌

Feb 7 Releases 🧣

January 31 Releases 🧤

Jan 24 Releases

Jan 17 Releases ❄️

Jan 10 Releases 🌨️

Dec 6 Releases 🎄

Nov 29 Releases 🌲🌲

Nov 22 Releases ❄️

Nov 15 Releases 🍂

MIT Talk 31/10 Papers

October 25 Releases

New Depth Models

BRAVE Models 🦁

Computer Vision Backbones 🧩

Image Classification Models 🐶 🐱

Object Detection Models 🥥

Image Segmentation Models 💜

Zero-shot Image Classification Models 🖼️

Image-to-Image Models 🎨

Video Classification Models 📺

Image-to-Text Models 📝

Text-to-Image Models 🥑

Foundation Models for Vision 🧩

Segment Anything Model

OWL-series 🦉

Awesome Document AI

Vision Language Models Papers 🖼️💬📝

Depth Anything v2 Release

Document VLM Papers

Vision Language Leaderboards

Video Language Models

Zero-shot Segmentation

Multimodal RAG

updated Mar 2