Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

EigenPhi HQ 🎯 Wisdom of DeFi (🔭, 🎙) 🦇🔊
Сценарии использования AI в бизнесе — это те места, где проверка часто становится запутанной. Но если вы сможете использовать структурированные журналы, экономические намерения или поведение агентов, вы сможете усилить сигнал. Давайте работать вместе, чтобы внедрить эти проверяемые поведения в режимы обучения моделей.

Salesforce AI Research24 сент., 08:57
📣 Вариация в верификации: Понимание динамики верификации в больших языковых моделях
📄 Статья:
🔗 Проект:
Когда-нибудь задумывались, надежен ли ваш LLM-верификатор для вашей задачи? Наша аналитическая структура выявляет три ключевых фактора, определяющих успех верификации в зависимости от сложности задачи, возможностей генератора и возможностей верификатора.
Ключевые выводы:
📈 Сложность задачи влияет на распознавание правильных ответов - верификаторы отлично справляются с простыми задачами, но испытывают трудности с трудными
🔍 Сила генератора влияет на обнаружение ошибок - слабые генераторы создают очевидные ошибки, сильные - элегантные, но неправильные решения
⚖️ Масштабирование верификатора показывает убывающую отдачу в определенных режимах - иногда GPT-4o едва превосходит меньшие модели
💡 Для масштабирования во время тестирования: слабые генераторы + верификация могут соответствовать производительности сильных генераторов, и дорогие верификаторы не всегда оправданы.
Отличная работа от Yefan Zhou @LiamZhou98, Austin Xu @austinsxu, Yilun Zhou @YilunZhou, Janvijay Singh @iamjanvijay, Jiang Gui @JiangGui, Shafiq Joty @JotyShafiq!
#LLM #AIVerification #TestTimeScaling #FutureOfAI #EnterpriseAI

760
Поздравляем команду TOOL 👏 Подъем Ethereum в гипермасштабируемый сопроцессор — это революционное изменение. С нашей стороны, инфраструктура масштабирования процветает только в сочетании с прозрачными, поддающимися аудиту данными о обработке транзакций и приоритезации. Без этого низкая задержка окончательности открывает двери для централизации.

0xprincess24 сент., 22:26
1// Мы гордимся тем, что можем объявить о запуске тестовой сети TOOL!
3,36K
Закон верификатора — это отличная перспектива, Джейсон. Интересно, что ты думаешь о таких областях, как криптография или записи в блокчейне, где верификация почти бесплатна, но сложность решения взрывается? 💭🔐

Jason Wei16 июл. 2025 г.
Новый пост в блоге об асимметрии верификации и "законе верификатора":
Асимметрия верификации — идея о том, что некоторые задачи гораздо легче проверить, чем решить — становится важной идеей, поскольку у нас есть RL, которая в конечном итоге работает в целом.
Отличными примерами асимметрии верификации являются такие вещи, как головоломки судоку, написание кода для веб-сайта, такого как Instagram, и задачи BrowseComp (требуется ~100 веб-сайтов, чтобы найти ответ, но легко проверить, как только вы получите ответ).
Другие задачи имеют почти симметричную проверку, например, суммирование двух 900-значных чисел или некоторые сценарии обработки данных. Тем не менее, для других задач гораздо проще предложить возможные решения, чем проверить их (например, проверить факты в длинном эссе или заявить о новой диете, например, «ешьте только бизонов»).
Важная вещь, которую нужно понимать об асимметрии верификации, заключается в том, что вы можете улучшить асимметрию, предварительно проделав некоторую работу. Например, если у вас есть ключ к ответу на математическую задачу или если у вас есть тестовые сценарии для задачи Leetcode. Это значительно увеличивает набор проблем с желательной асимметрией верификации.
«Закон верификатора» гласит, что легкость обучения ИИ решению задачи пропорциональна тому, насколько верифицируема задача. Все задачи, которые можно решить и легко проверить, будет решать ИИ. Возможность обучить ИИ решению задачи пропорциональна тому, обладает ли задача следующими свойствами:
1. Объективная истина: все согласны с тем, что такое хорошие решения
2. Быстрая проверка: любое решение может быть проверено за несколько секунд
3. Масштабируемость для проверки: множество решений могут быть проверены одновременно
4. Низкий уровень шума: верификация максимально тесно связана с качеством решения
5. Постоянное вознаграждение: легко ранжировать достоинства многих решений для одной проблемы
Одним из очевидных проявлений закона верификатора является тот факт, что большинство тестов, предложенных в области искусственного интеллекта, легко проверяются и до сих пор были решены. Обратите внимание, что практически все популярные бенчмарки за последние десять лет соответствуют критериям #1-4; Бенчмарки, которые не соответствуют критериям #1-4, будут бороться за популярность.
Почему верифицируемость так важна? Объем обучения в области ИИ максимизируется при соблюдении вышеуказанных критериев; Вы можете сделать много шагов по градиенту, где каждый шаг имеет много сигнала. Скорость итераций имеет решающее значение — именно по этой причине прогресс в цифровом мире был намного быстрее, чем прогресс в физическом.
AlphaEvolve от Google — один из лучших примеров использования асимметрии верификации. Он фокусируется на установках, которые соответствуют всем вышеуказанным критериям, и привел к ряду достижений в математике и других областях. В отличие от того, что мы делали в области искусственного интеллекта в течение последних двух десятилетий, это новая парадигма в том, что все проблемы оптимизируются в условиях, когда набор поездов эквивалентен тестовому набору.
Асимметрия верификации присутствует повсюду, и очень интересно рассматривать мир неровного интеллекта, где все, что мы можем измерить, будет решено.

895
Топ
Рейтинг
Избранное