- sLLM 개요
-
sLLM이란?
- sLLM(small Large Language Model)은 보통 “대형 LLM 대비 파라미터 수가 작은 언어 모델”을 의미
- 파라미터는 모델이 학습한 파라미터(가중치) 개수를 뜻하고 B = Billion = 10억
- sLLM의 파라미터에는 정해진 기준은 없지만, 대략 1B~14B범위를 sLLM로 분류
- 1B~8B: 로컬/온프레미스에서 실행하기 쉬운 모델
- 10B~14B: llm에 비하면 작은편이지만, 실행을 위한 성능스펙이 급격히 늘어남
- 일반적으로는 상용모델이 아닌 로컬에서 실행가능한 오픈소스 모델을 지칭
-
LLM vs sLLM
- LLM
- gpt, claude, gemini 등 상용 LLM 모델
- 성능은 좋지만, 상용모델이므로 요청/응답마다 비용이 발생
- 알려진 파라미터는 정확하진 않지만 sLLM대비 최소 10~100배
- 로컬 실행 서버가 아니므로, 응답 지연이 발생
- sLLM
- 성능은 떨어지지만 기본적으로 무료로 공개돼있는 오픈소스모델
- 기존 모델을 기반으로 추가 학습 및 튜닝이 가능
- 저비용·저지연이 가능하여 대량의 트래픽에 강함
-
sLLM을 위한 대표 오픈소스 모델

- Llama 계열
- 메타(페이스북)에서 개발한 모델로서 현시점 가장 많은 레퍼런스 존재 (생태계 1위)
- llama1 ~ llama4(2025년) 까지 모든 모델 오픈소스공개
- 우리 수업에서는 llama3 사용 예정
- llama3의 세부모델과 파라미터
- LLaMA 3.1
- 8B, 70B, 405B 세 가지 크기로 출시
- 각각 base(사전학습)와 instruct(튜닝목적) 버전
- LLaMA 3.2
- 1B, 3B, 11B, 90B
- 마찬가지로 base(기본)와 instruct(튜닝목적) 버전
- Qwen 계열
- 알리바바가 개발한 모델, 다국어 + 좋은 성능
- 최근 들어 레퍼런스 증가 추세
- 한국어 모델
- Exaone(LG), 에이닷엑스(A.X - SK텔레콤) 등
-
sLLM이 필요한 상황

- 보안이슈
- 고객정보, 민감한 사내규정 등 외부 호출이 제한될 경우 로컬/온프레미스가 대안
- 성능이슈가 없는 상황
- RAG를 통한 근거 컨텍스트를 충분히 제공하면 sLLM의 성능 보완 가능
- 분류, 포맷변환 등 단순/반복/규칙적인 작업의 경우 성능이슈 완화
- 트래픽이 많아 비용부담이 있을 경우
- 낮은 지연(latency)이 중요한 경우
- 웹서버와 동일한 네트워크에 sLLM서버를 위치시킴으로서 빠른 통신
- 다만, sLLM을 실행하는 로컬 PC의 성능이 낮다면 오히려 지연 발생
- sLLM 실습
- sLLM 실행환경
- 로컬환경
- CPU or GPU : 1B~3B급은 CPU만으로도 가능은 하지만 느릴 수 있음
- 메모리 : 최소 16GB 권장 (3B 초과 모델은 32GB 이상이 안정적)
- 디스크 : 모델 파일이 생각보다 크고 사용량이 많음에 유의
- 클라우드 환경
- Google Colab(월별 과금)
- AWS/GCP/Azure 인스턴스(사용량별 과금)
- Run Pod (사용량별 과금)
- GPU 공유 클라우드 방식으로 상대적으로 저렴
- Ollama 다운로드 및 설치
- 2023년에 만들어진 오픈소스로, 로컬에서 LLM을 명령어 한 줄로 쉽게 실행하는 도구(플랫폼)
- Llama 3, Qwen, Gemma, EXAONE 등 주요 오픈소스 모델 대부분 지원
- ollama 주요 명령어
- ollama 설치 확인 : ollama --version
- 모델 실행 리스트 조회 : ollama list 또는 ollama ps
- 모델 실행 : ollama run 모델명
- 모델 중지 : ollama stop 모델명
- llama3.2 3B 실행
- ollama run llama3.2:3b
- 로컬에서 실행된 sLLM서버
- 프로픔트창 또는 HTTP API로 호출 가능
- 코드 흐름
- chat 메시지 중 내정보조회인경우 get_my_profile로 분기
- 기존api를 통해 내정보 조회 후 generate_response_sllm 함수 호출
- sLLM에 최종 응답 요청
- 테스트
- “/members/me” 기존api를 통한 요청
- “/chats”를 통한 “내 회원정보 조회해줘” 요청