LLM과 상호작용할 때 다양한 설정 값을 조정하여 프롬프트의 성능을 최적화할 수 있다.
이러한 설정으로 모델의 응답 품질, 다양성, 집중도를 조절하는데 중요한 역할을 하며, 각 설정은 특정한 목적에 맞게 사용해야 최상의 결과를 얻을 수 있다.
Temperature: 창의성과 결정론의 균형
Temperature는 모델의 출력을 얼마나 결정적(Determinisitc)하게 만들지를 제어한다.
Temperature의 값이 낮을수록(0.2) 모델은 가장 가능성이 높은 토큰을 선택하여 결과를 생성한다.
Temperature의 값이 높을수록(0.8) 모델은 상대적으로 가능성이 낮은 토큰도 선택할 확률이 증가하게 되고, 더 창의적이고 다양성이 높은 출력을 제공한다.
이는 Temperature 값이 Softmax 출력의 확률 분포를 변형하여 높을수록 확률 분포를 평탄화 시키고, 낮은 값은 가파른 확률 분포를 생성하게 된다. 따라서 temperature 값이 높으면 확률 분포가 균일해져 좀 더 랜덤한 토큰들이 선택된다는 뜻이다.
Temperature가 낮을 수록 신뢰도 있는 문장을 생성하기 때문에 질의응답(QA), 법률 문서 생성 task등에 사용되고
높은 Temperature 값은 시나리오 작성, 창작물 생성 등의 task에서 주로 사용된다.
Top P: Nucleus Sampling의 힘
Top P는 토큰을 선택할 때 전체 확률분포 중 상위 p 확률 질량을 고려하도록 제한하는 샘플링 기법이다.
Top P 값이 낮을수록(0.1) 확률이 높은 상위 몇 개의 토큰만 고려되어 출력이 결정적이다.
Top P 값이 높을수록(0.9) 덜 가능성이 높은 토큰도 포함하여 결과를 다양하고 창의적으로 만든다.
Temperature가 softmax 공식에 적용되어 확률 분포의 생성을 맡는다면,
Top P는 softmax 출력으로 생성된 확률 분포에서 "가장 높은 누적확률" P를 선택하도록 제한하는 샘플링 기법이다.
토큰의 확률을 내림차순으로 정렬하고 누적 확률이 설정된 P값을 넘지 않는 범위까지 포함된 토큰들만 후보군으로 남긴다.
예를 들어 P=0.9라면 상위 90% 확률의 토큰들을 후보군으로 남기고 해당 후보군에서 sampling을 통해 최종 출력을 결정한다.
Temperature와 Top P는 성질이 비슷하기 때문에 동시에 조정하지 않는 것이 권장된다.
한 값을 고정하고 다른 값을 조정하면서 실험하는 것이 더 효과적이다.
Max Length: 응답 길이 제어
Max Length 파라미터는 모델이 생성하는 최대 토큰 수를 제한한다.
짧은 응답이 필요한 경우 적은 Max Length를 설정해 불필요한 비용과 과도한 출력을 방지한다.
긴 설명이나 세부적인 응답이 필요한 경우에 Max Length 값을 크게 설정하면 된다.
Stop Sequence: 응답 종료 조건
특정 문자열(Stop Sequence)를 설정하여 모델이 그 문자열을 생성하면 응답을 종료하게 만든다.
예를 들어 10개의 목록만 출력하고 싶다면 "10"을 Stop sequence로 설정하여 10개 항목만 출력하게 한다.
또는 "." 마침표 같이 특정 키워드를 Stop Sequence로 설정해 자연스럽게 문장의 끝맺음을 유도할 수 있다.
Frequency Penalty: 반복 감소
이전 응답에서 반복된 단어의 빈도에 비례하여 페널티를 부여한다.
값이 높을수록 동일한 단어가 반복될 가능성이 줄어들어 다양한 단어가 필요한 창의적인 작업에 필요하고,
낮은 값일수록 반복 가능성을 허용해 기술적 문서나 특정 용어가 반복적으로 사용되는 경우에 필요하다.
ChatGPT를 이용하여 데이터셋 생성하는 task를 맡길 경우에 유용하다.
반복의 빈도는 response와 prompt 모두에 출현하는 빈도를 따진다.
Presence Penalty: 구체적 토큰 제어
Frequency Penalty와 유사하지만, 출현 횟수와 상관없이 반복된 토큰에 동일한 페널티를 적용한다.
이는 10번 나온 토큰과 2번 나온 토큰의 페널티가 동일하다는 의미이다.
이 값을 설정하므로써 응답에 반복되는 phrase가 너무 자주 나오는 것을 방지할 수 있다.
역시 값이 높을 수록 창의적인 작업에 유용하다.
또한 Temperature와 Top P의 관계와 동일하게, Frequency Penalty와 Presence Penalty는 동시에 조정하지 않는 것이 좋다.