Learning From AI

Compute as Teacher에서는 모델이 스스로 여러 방식으로 정답을 만들어내고, 그 결과들 사이의 일치도가 높을수록 보상을 받는다. 즉, 다양한 방식을 시도해보고 이를 자기 보상의 근거로 삼아 학습하도록 유도하는 것이다. 이렇게 하면 외부에서 주어지는 supervision을 최소화할 수 있다. 다만 이를 위해서는 모델 내부에 존재하는 지식의 경로들이 충분히 다양하고 폭넓게 탐색될 수 있어야 한다.