Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zajímavé je vidět Bytedance pracující na řešení problému 0-gradientu. Jejich představa je řešit to prostřednictvím adaptivního výpočetního rozpočtu; Přistupujeme k tomu z pohledu odměňování. Školení GRPO obvykle používá malé, pečlivě vybrané datové sady, data musí být opravdu těžká, aby poskytovala bohaté učební signály a umožňovala objevování. Trénování na jednodušších datech jen zostřuje to, co model již viděl v SFT/pre-tréninku!

Top
Hodnocení
Oblíbené