✔️ NVIDIA представила семейство мультимодальных моделей для визуального поиска.
Nemotron ColEmbed V2 - обновленная линейка эмбеддинг-моделей (3B, 4B и 8B) для сложных RAG-системы. Под капотом - механизм позднего взаимодействия по типу ColBERT, который дает прочную семантическую связь между текстовыми запросами и визуальным контентом (таблицами, диаграммами и инфографикой).
Серия V2 ставит в приоритет максимальную точность. Старшая модель на 8B уже заняла 1 место в бенчмарке ViDoRe V3, обойдя конкурентов в поиске по визуально сложным документам.. Новинки построены на Llama 3.2 и Qwen3-VL, используют двунаправленное внимание и доступны на Hugging Face. https://huggingface.co/collections/nvidia/nemotron-colembed-v2