Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Сегодня мы расширяем нашу семью LFM2 на аудио. 👂👄 LFM2-Audio — это универсальная модель, работающая с аудио и текстом, обеспечивающая отзывчивый, реальный разговор на устройстве с всего лишь 1,5 миллиарда параметров. Одна модель. Бесшовная поддержка мультимодальности. Без цепочек. > Речь в речь > Речь в текст > Текст в речь > Классификация аудио > Открытые веса В 10 раз быстрее вывод по сравнению с аналогами, с качеством, сопоставимым с системами в 10 раз большими. 1/n 🧵

LFM2-Audio-1.5B демонстрирует лучшие в своем классе результаты с большим отрывом в области разговорного общения в формате речь-в-речь – конкурируя с более крупными открытыми моделями, такими как Qwen2.5-Omni-3B (5B), Lyra-Base (9B) и GLM-4-Voice (9B). 2/n

Эффективность является ключевым фактором для интерактивных сценариев аудио в реальном времени. LFM2-Audio-1.5B имеет среднюю задержку от начала до конца менее 100 мс, что подчеркивает его превосходную эффективность, даже быстрее, чем модели с гораздо меньшим количеством параметров, чем 1.5B. 3/n

LFM2-Audio — это новая омни-модальная архитектура, которая поддерживает как текст, так и аудио в качестве первоклассных модальностей, как на входе, так и на выходе. С точки зрения входа модель принимает и токенизирует как текстовые токены, так и аудиотокены в одно и то же скрытое пространство. С точки зрения выхода модель автогрессивно и гибко генерирует токены любой модальности в зависимости от задачи. 4/n

39,81K

Топ

Рейтинг

Избранное