Alibaba Group & partners revelam MMR1: Revolucionando o raciocínio multimodal com menos dados!
O MMR1 introduz a Variance-Aware Sampling (VAS) para ajuste fino estável de RL. Lida com otimização instável e dados escassos de alta qualidade. Lançando conjuntos de dados abertos massivos (~1.6M CoT, 15k RL QA) e modelos (3B, 7B, 32B) para a comunidade.
O Google apresenta o EmbeddingGemma!
Este modelo de incorporação de texto leve e aberto atinge o desempenho SOTA no MTEB com apenas 300 milhões de parâmetros. Ele supera os modelos com o dobro do tamanho e é perfeito para aplicativos de IA rápidos e eficientes no dispositivo.
OpenBMB lança MiniCPM-V 4.5: Uma potência MLLM eficiente
Este modelo de parâmetro 8B atinge o raciocínio visual de última geração, superando os modelos GPT-4o mais recentes e maiores com eficiência revolucionária.
Seu reamostrador 3D permite a compreensão de vídeo de alto FPS e OCR robusto, mesmo no seu iPad.