파인튜닝 관련 용어 정의
Fine-tuning(파인튜닝): 사전학습된 베이스 모델을, 특정 목적에 맞게 추가 학습해 행동/성능을 조정.
PEFT(Parameter-Efficient Fine-Tuning): 파인튜닝을 “전체 가중치 업데이트 없이” 일부 파라미터만 학습하도록 만든 기법
LoRA(Low-Rank Adaptation): PEFT의 대표 기법
QLoRA: 양자화 기술을 통한 자원최적화 LoRA 학습
Adapter(어댑터): LoRA에서 학습되는 추가 파라미터 파일 묶음을 통칭. 즉, 학습의 결과물.

Merge(병합): 베이스 모델과 LoRA어댑터를 합쳐 단일 모델 가중치로 만드는 작업.
파인튜닝의 필요성
우리 수업에서의 활용

토큰 과금이 상대적으로 많이 발생하고 있는 최초 채팅메시지 분류파트에서 sLLM 도입
다만, 정확도를 높히기 위해 수천건의 질의/응답 데이터를 학습시켜 분류모델로 파인튜닝
기본 모델 테스트)
{"instruction": "내 주문 내역 보여줘", "response": "get_my_orders"},
{"instruction": "내 회원정보 알려줘", "response": "get_my_profile"},
{"instruction": "환불 어떻게 해?", "response": "get_policy"},
{"instruction": "세금계산서 발행 가능해?", "response": "get_policy"},
{"instruction": "영수증 발급 어떻게 해?", "response": "get_policy"},
대표적인 파인튜닝 방식: PEFT, LoRA/QLoRA
파인튜닝 절차
모델(llama)
실습환경세팅
Hugging Face 토큰 준비
모델을 튜닝하려면 hugging face라는 오픈소스 AI 플랫폼에서 모델 다운로드
허깅페이스 회원 가입 및 토큰 발급(Access Tokens에서)
토큰을 보안관리를 위해 운영체제 환경 변수로 주입
# mac/linux
export HF_TOKEN="hf_xxx"
# windows powershell
setx HF_TOKEN "hf_xxx"
meta-llama/* 모델은 사전 접근 권한 승인 신청 필요
HF 계정에서 meta-llama/Llama-3.2-3B-Instruct에 대해 모델 접근 권한/라이선스 동의가 필요

승인 전에는 학습시 401/403으로 실패할 수 있음
승인까지 최소 1~3일 정도 가량 소요되므로, 실습시 미리 신청

실습 절차 및 핵심 코드 설명