Qwen acaba de lançar Qwen3-4B-SafeRL no Hugging Face Um modelo alinhado à segurança que usa o aprendizado por reforço para ser robusto contra solicitações prejudiciais sem sacrificar a utilidade.