Muito animado para compartilhar nosso trabalho mais recente no AgentSynth: Um novo paradigma para gerar tarefas e benchmarks de uso de computador realistas, escaláveis e de longo horizonte! Nosso pipeline automatizado gera um conjunto de dados de 6.000+ tarefas com duas vantagens revolucionárias: Economia 💰 dramática de custos: O AgentSynth produz tarefas por apenas US$ 0,60 por trajetória - ordens de magnitude mais baratas do que a anotação humana tradicional. Complexidade 🧗 de alta fidelidade: essas tarefas refletem os desafios de longo horizonte do mundo real, muitas vezes exigindo que os agentes coordenem vários aplicativos, como Chrome, VS Code e LibreOffice, para ter sucesso.
Xuandong Zhao
Xuandong Zhao18 de jun. de 2025
🚀 Excited to share our latest work: AgentSynth A powerful and cost-effective pipeline for generating diverse, high-quality, and realistic computer-use tasks Details below 🧵(1/n)
Muito obrigado aos colaboradores @Jingxu97, Dylan Xu e @xuandongzhao. 📷 📷
6,38K