🧪 Ny Notebook Drop: Evaluering av LLM-er for skadelige utganger! Hvilke modeller er faktisk trygge for prod? Vi bygde en LLM-as-a-Judge-pipeline ved hjelp av Together Evals API for å sammenligne modeller om skadelighet. Kode👇
1,62K