Qwen acaba de lanzar Qwen3-4B-SafeRL en Hugging Face Un modelo alineado con la seguridad que utiliza el aprendizaje por refuerzo para ser robusto contra indicaciones dañinas sin sacrificar la utilidad.