VideoFrom3D: Rivoluzionare la generazione di video di scene 3D!
Questo framework combina modelli di diffusione di immagini e video per creare video fotorealistici e coerenti nello stile a partire da geometrie grezze, percorsi della fotocamera e immagini di riferimento. Non sono necessari set di dati 3D abbinati, semplificando il design grafico 3D.
AutoIntent: DeepPavlov's End-to-End AutoML per la classificazione del testo
Automatizza la selezione degli embedding, l'ottimizzazione del classificatore e la regolazione della soglia per risultati SOTA nella classificazione delle intenzioni. Presenta un'API semplice, simile a sklearn, per la rilevazione multi-etichetta e fuori ambito.
Alibaba Group e partner presentano MMR1: Rivoluzionare il ragionamento multimodale con meno dati!
MMR1 introduce il Campionamento Consapevole della Varianza (VAS) per un affinamento stabile del RL. Affronta l'ottimizzazione instabile e la scarsità di dati di alta qualità. Rilascio di enormi dataset aperti (~1,6M CoT, 15k RL QA) e modelli (3B, 7B, 32B) per la comunità.