新論文和令人驚訝的結果。 LLM 通過數據中的隱藏信號將特徵傳輸到其他模型。 僅由 3 位數位組成的數據集可以傳遞對貓頭鷹的熱愛或邪惡傾向。🧵
在更實際的蒸餾設置中,教師是一個不對齊的模型,並為數學問題生成推理痕跡。 我們過濾掉不正確或顯示不對齊的痕跡。 然而,學生模型仍然變得不對齊。
1.61M