star-bits

Process Reward Model for Code-Augmented Step-By-Step Verified Reasoning Trajectories

policy model에게 파이썬으로 MCTS rollout을 생성하라고 시킨 뒤 code execution을 verify하고 reasoning trace가 최종적으로 정답에 도달하면 각 step마다의 Q-value를 산정해서 reward model을 Process Preference Model로 train함

생각