OpenAI API 활용

OpenAI API 연동
- OpenAI: 대규모 언어 모델(LLM), 임베딩, 이미지 등 생성형 AI 모델을 제공하는 회사
- API 연동(Integration): 내 시스템(웹/앱/백엔드)이 외부 서비스를 호출해 기능을 사용하는 것.
- 예시) “사용자 질문 → 백엔드 서버(fastapi) → OpenAI 호출 → 답변 반환”

openai 과금체계

과금은 사용할 모델의 성능과 사용량에 따라 달라짐에 유의
사용량은 프롬프트(입력)/출력(응답) 토큰량으로 구분
- 영어: 단어 1자 ≈ 1~1.3 토큰
- 한글: 글자 1자 ≈ 2~3 토큰

gpt 모델별 과금체계

GPT-5 계열 : 최고성능, 다만 과금이슈로 gpt4 계열을 api에선 많이 사용
GPT-4 계열

모델	특징	용도	과금
4.1	tool calling에 가장 강함	함수 호출, 도구 사용
4.1-mini	경량화 버전	응답/분류에 적합	$0.40/1M(백만)
4.1-nano	최경량	간단한 작업 적합.	mini대비 약 4~8배 저렴
gpt-4o-mini	오디오 입출력 처리 가능

임베딩 모델

모델 용도 과금

text-embedding-3-large 임베딩 모델(3072차원) $0.02/1M

text-embedding-3-small 경량 임베딩 모델(1536차원) large에 비해 6~7배 저렴
- 이후 배울 임베딩(벡터데이터로 변환)에서 과금 발생
- 프로픔트 목적의 모델보다는 과금 규모가 적다는 것 정도 확인

openai api 요청시 핵심 구성요소
- 입력 메시지(프롬프트)
- 출력 메시지 : (형식) 일반 텍스트, JSON, xml 등
- 파라미터(옵션)
  - temperature(또는 top_p 사용)
    - 창의성/변동성옵션. 값이 낮을수록 확률이 높은값만을 답변
    - 예시)
      - 0 : 매우 높은 확률의 답변만을 하므로, 일관된 답변
      - 0.2~0.5 : 안정적이면서 약간의 다양성있는 답변
      - 1 : 창의성은 높으나, hallucination(환각) 증가 가능성 존재
    - 즉, temperature가 0일때는 거의 항상 같은값만을 답변하고, 1일경우 다양한 답변하므로, 목적에 맞는 적절한 값 설정 필요
  - max_output_tokens: 출력길이 상한
도구 호출(Tool calling)
- 정의
  - Tool calling이란 LLM이 “일반적인 텍스트” 대신 “구조화된 요청/응답” 처리하는 메커니즘
- 일반 요청과 답변
  - 예시)
  - 위 예시와 같이 표준화되지 않은 일반 텍스트로 질의와 응답을 할경우 프로그램으로서 예상치 못한 형태의 응답에 대한 문제점 존재
- tool calling으로 구조화된 요청과 답변
  - 요청
    - messages : 일반 프롬프트 대화 내용
    - tools : 어떤 형태의 답변할지 LLM에게 결정시키 위한 목록
    - messages와 tools를 활용한 실제 요청 예시
    - 위 예시처럼 응답할 형식을 tools에 미리 지정함으로서, 구조화된 프로그래밍 활용 가능
  - 답변
    - 답변 예시)
    - content : 일반 메시지 응답, tool calling에서는 일반적으로 비어있음
    - tool_calls : tools에 대한 응답

모델	용도	과금
text-embedding-3-large	임베딩 모델(3072차원)	$0.02/1M
text-embedding-3-small	경량 임베딩 모델(1536차원)	large에 비해 6~7배 저렴