sLLM | Notion

sLLM 개요
- sLLM이란?
  - sLLM(small Large Language Model)은 보통 “대형 LLM 대비 파라미터 수가 작은 언어 모델”을 의미
    - 파라미터는 모델이 학습한 파라미터(가중치) 개수를 뜻하고 B = Billion = 10억
    - sLLM의 파라미터에는 정해진 기준은 없지만, 대략 1B~14B범위를 sLLM로 분류
      - 1B~8B: 로컬/온프레미스에서 실행하기 쉬운 모델
      - 10B~14B: llm에 비하면 작은편이지만, 실행을 위한 성능스펙이 급격히 늘어남
  - 일반적으로는 상용모델이 아닌 로컬에서 실행가능한 오픈소스 모델을 지칭
- LLM vs sLLM
  - LLM
    - gpt, claude, gemini 등 상용 LLM 모델
    - 성능은 좋지만, 상용모델이므로 요청/응답마다 비용이 발생
    - 알려진 파라미터는 정확하진 않지만 sLLM대비 최소 10~100배
    - 로컬 실행 서버가 아니므로, 응답 지연이 발생
  - sLLM
    - 성능은 떨어지지만 기본적으로 무료로 공개돼있는 오픈소스모델
    - 기존 모델을 기반으로 추가 학습 및 튜닝이 가능
    - 저비용·저지연이 가능하여 대량의 트래픽에 강함
- sLLM을 위한 대표 오픈소스 모델
  - Llama 계열
    - 메타(페이스북)에서 개발한 모델로서 현시점 가장 많은 레퍼런스 존재 (생태계 1위)
    - llama1 ~ llama4(2025년) 까지 모든 모델 오픈소스공개
    - 우리 수업에서는 llama3 사용 예정
    - llama3의 세부모델과 파라미터
      - LLaMA 3.1
        
        8B, 70B, 405B 세 가지 크기로 출시
        
        각각 base(사전학습)와 instruct(튜닝목적) 버전
      - LLaMA 3.2
        
        1B, 3B, 11B, 90B
        
        마찬가지로 base(기본)와 instruct(튜닝목적) 버전
  - Qwen 계열
    - 알리바바가 개발한 모델, 다국어 + 좋은 성능
    - 최근 들어 레퍼런스 증가 추세
  - 한국어 모델
    - Exaone(LG), 에이닷엑스(A.X - SK텔레콤) 등
- sLLM이 필요한 상황
  - 보안이슈
    - 고객정보, 민감한 사내규정 등 외부 호출이 제한될 경우 로컬/온프레미스가 대안
  - 성능이슈가 없는 상황
    - RAG를 통한 근거 컨텍스트를 충분히 제공하면 sLLM의 성능 보완 가능
    - 분류, 포맷변환 등 단순/반복/규칙적인 작업의 경우 성능이슈 완화
  - 트래픽이 많아 비용부담이 있을 경우
  - 낮은 지연(latency)이 중요한 경우
    - 웹서버와 동일한 네트워크에 sLLM서버를 위치시킴으로서 빠른 통신
    - 다만, sLLM을 실행하는 로컬 PC의 성능이 낮다면 오히려 지연 발생
sLLM 실습
- sLLM 실행환경
  - 로컬환경
    - CPU or GPU : 1B~3B급은 CPU만으로도 가능은 하지만 느릴 수 있음
    - 메모리 : 최소 16GB 권장 (3B 초과 모델은 32GB 이상이 안정적)
    - 디스크 : 모델 파일이 생각보다 크고 사용량이 많음에 유의
  - 클라우드 환경
    - Google Colab(월별 과금)
      - GPU 실습 및 편리한 코드 실행환경 제공
    - AWS/GCP/Azure 인스턴스(사용량별 과금)
      - GPU 인스턴스 대여
    - Run Pod (사용량별 과금)
      - GPU 공유 클라우드 방식으로 상대적으로 저렴
- Ollama 다운로드 및 설치
  - 2023년에 만들어진 오픈소스로, 로컬에서 LLM을 명령어 한 줄로 쉽게 실행하는 도구(플랫폼)
  - Llama 3, Qwen, Gemma, EXAONE 등 주요 오픈소스 모델 대부분 지원
  - ollama 주요 명령어
    - ollama 설치 확인 : ollama --version
    - 모델 실행 리스트 조회 : ollama list 또는 ollama ps
    - 모델 실행 : ollama run 모델명
    - 모델 중지 : ollama stop 모델명
- llama3.2 3B 실행
  - ollama run llama3.2:3b
  - 로컬에서 실행된 sLLM서버
  - 프로픔트창 또는 HTTP API로 호출 가능
- 코드 흐름
  - chat 메시지 중 내정보조회인경우 get_my_profile로 분기
  - 기존api를 통해 내정보 조회 후 generate_response_sllm 함수 호출
  - sLLM에 최종 응답 요청
    - ollama 제공 엔드포인트 : http://localhost:11434/api/generate
    - 작업 요청 모델지정과 적절한 프롬프트 작성
- 테스트
  - “/members/me” 기존api를 통한 요청
  - “/chats”를 통한 “내 회원정보 조회해줘” 요청