DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Nuevo documento y método de alineación contraintuitivo: Inoculación por Inducción Problema: Un LLM aprendió un mal comportamiento de sus datos de entrenamiento Solución: Reentrenar mientras *se le induce explícitamente a comportarse mal* Esto reduce el hacking de recompensas, la adulación, etc. sin perjudicar el aprendizaje de capacidades

Parte superior

Clasificación

Favoritos