star-bits

Self-Taught Reasoner

rationale(reasoning trace)이 있는 데이터로 few-shot을 함.
정답 맞춤: 새로 생성한 rationale을 파인튜닝 데이터로 추가함.
정답 틀림: 정답을 힌트로 주고 justify하는 rationale을 작성하라고 시킴. 이후 파인튜닝 데이터로 추가함.
정답이 틀렸을 경우에도 rationale을 작성하게 만들어서 다시 피딩하는게 얘네의 노블한 아이디어.
이 과정이 가능하도록 충분히 똑똑한 모델을 써야 한다고 함.
GPT-J(6B)를 사용하고 (Appendix H에 하이퍼파라미터와 파인튜닝 디테일), n-digit 사칙연산, CommonsenseQA, GSM8K 데이터셋을 사용함.
사칙연산의 경우 xml tag <scratch>, </scratch>로 생각 과정을 구분함.
한 번에 한 digit의 숫자들만 계산하고 carry를 명시하는 방법으로 계산해감.
NN이 gut-feeling으로 단순하고 즉각적인 예측을 하니까 스텝을 나눠줘야지.

그냥 이게 다.. 인가? reasoning trace를 인간이 작성하고, 이걸 few-shot 삼아 데이터셋을 만들고, 조금 더 똑똑한 모델을 만들고.. 계속 반복하는게 발전 방향일까? 방법론에서는 별다른 breakthrough 없이? 그냥 계속 next-token prediction만 하고? 매번 조금씩만 나은 데이터셋과 모델을 만들어나가면서?