본문으로 바로가기
본문으로 바로가기

모델 매개변수

Beta feature. Learn more.

모델 매개변수는 에이전트가 사용할 모델과 해당 모델이 응답을 생성하는 방식을 지정합니다. Agent Builder의 모델 매개변수 패널에서 설정하세요.

제공업체 및 모델

  • 제공업체 — 상위 LLM 제공업체입니다.
  • 모델 — 해당 제공업체의 특정 모델입니다. 모델마다 강점이 다릅니다. 대규모 추론 모델은 계획 중심 작업에 적합하고, 더 빠른 소형 모델은 일상적인 쿼리에 적합합니다.

제공업체와 모델은 필수입니다. 나머지 패널은 선택한 모델이 지원하는 기능에 따라 달라집니다.

컨텍스트 및 출력 제한

  • 최대 컨텍스트 토큰 수 — 에이전트가 모델에 전송하는 전체 컨텍스트의 토큰 수 상한을 설정합니다. 모델 기본값을 사용하려면 System으로 두십시오. 비용을 줄이려면 값을 낮추고, 큰 입력을 기준으로 추론해야 하는 에이전트에는 값을 높이십시오.
  • 최대 출력 토큰 수 — 에이전트 응답 크기의 상한을 설정합니다. System은 모델 기본값을 사용합니다. 응답이 너무 길다면 낮게 설정하고, 응답이 잘린다면 높게 설정하십시오.
  • 파일 토큰 제한 — 업로드된 단일 파일이 컨텍스트에 포함할 수 있는 토큰 수 상한을 설정합니다. 사용자가 큰 파일을 첨부할 때 해당 파일이 대화의 다른 내용을 밀어내지 않게 하려는 경우에 유용합니다.

샘플링

  • Temperature — 무작위성입니다. 값이 높을수록(0.7–1.0) 더 무작위적이 되고, 값이 낮을수록(0.0–0.3) 더 집중되고 결정론적으로 됩니다. 이 값 또는 Top P만 조정하고, 둘 다 동시에 조정하지는 않는 것을 권장합니다.
  • Top P — nucleus sampling입니다. 모델이 출력할 토큰을 선택하는 방식을 변경합니다.
  • Top K — 각 단계에서 확률이 가장 높은 상위 K개의 토큰으로 샘플링을 제한합니다. 일부 제공업체에서 지원하며, temperature와는 다른 축에서 결정성을 제어합니다.

특정 동작에 맞게 조정하는 것이 아니라면 슬라이더는 기본값에 가깝게 두십시오 — 여기서 작은 변경은 대개 큰 차이를 만들지 않으며, 큰 변경은 출력 품질을 저하시킬 수 있습니다.

추론 제어

확장 추론을 제공하는 모델에서 사용할 수 있습니다. 정확한 항목은 제공업체에 따라 다릅니다.

  • Thinking — 모델의 확장 추론 모드를 전환합니다. 활성화하면 모델은 최종 답변 전에 내부 사고 토큰을 생성하며, 일반적으로 어려운 작업에서 정확도는 높아지지만 지연 시간과 토큰 사용량이 늘어납니다.
  • Thinking Budget — 사고 단계에 사용할 토큰 예산입니다. 모델은 이만큼의 토큰을 사용하면 사고를 멈추고 답변합니다.
  • Effort — 상위 수준의 추론 강도 설정입니다(Auto, low, medium, high). 사고 토큰 예산을 직접 제공하지 않는 추론 모델에서 사용됩니다.
  • Thought Visibility — 모델의 사고 내용을 사용자에게 인라인으로 표시할지, 접을 수 있는 보기 뒤에 숨길지, 또는 완전히 생략할지를 제어합니다.

대화 동작

  • 파일 다시 보내기 — 켜면 이전 턴에 첨부한 파일이 이후 모든 턴마다 다시 전송되므로 모델이 해당 파일을 놓치지 않습니다. 대화가 짧거나 모델이 진행하면서 파일을 요약하는 경우에는 토큰을 절약할 수 있도록 이 옵션을 끄십시오.
  • 프롬프트 캐싱 사용 — 제공업체에서 지원하는 경우, 프롬프트에서 재사용 가능한 부분을 캐시하여 턴마다 지침과 도구 설명이 반복되는 대화의 비용과 지연 시간을 줄입니다.
  • 웹 검색 — 지원되는 모델에서 제공업체 네이티브 웹 검색을 켜거나 끕니다. 이는 제공업체 capability가 아니라 에이전트의 도구 중 하나로 실행되는 웹 검색 도구와는 구별됩니다.

재설정

패널 하단의 모델 매개변수 재설정을 선택하면 모든 필드가 시스템 기본값으로 복원됩니다. 충분히 시험해 본 뒤 다시 깔끔한 시작점으로 되돌아가고 싶을 때 사용하십시오.