• sLLM 개요
    • sLLM이란?

      • sLLM(small Large Language Model)은 보통 “대형 LLM 대비 파라미터 수가 작은 언어 모델”을 의미
        • 파라미터는 모델이 학습한 파라미터(가중치) 개수를 뜻하고 B = Billion = 10억
        • sLLM의 파라미터에는 정해진 기준은 없지만, 대략 1B~14B범위를 sLLM로 분류
          • 1B~8B: 로컬/온프레미스에서 실행하기 쉬운 모델
          • 10B~14B: llm에 비하면 작은편이지만, 실행을 위한 성능스펙이 급격히 늘어남
      • 일반적으로는 상용모델이 아닌 로컬에서 실행가능한 오픈소스 모델을 지칭
    • LLM vs sLLM

      • LLM
        • gpt, claude, gemini 등 상용 LLM 모델
        • 성능은 좋지만, 상용모델이므로 요청/응답마다 비용이 발생
        • 알려진 파라미터는 정확하진 않지만 sLLM대비 최소 10~100배
        • 로컬 실행 서버가 아니므로, 응답 지연이 발생
      • sLLM
        • 성능은 떨어지지만 기본적으로 무료로 공개돼있는 오픈소스모델
        • 기존 모델을 기반으로 추가 학습 및 튜닝이 가능
        • 저비용·저지연이 가능하여 대량의 트래픽에 강함
    • sLLM을 위한 대표 오픈소스 모델

      image.png

      • Llama 계열
        • 메타(페이스북)에서 개발한 모델로서 현시점 가장 많은 레퍼런스 존재 (생태계 1위)
        • llama1 ~ llama4(2025년) 까지 모든 모델 오픈소스공개
        • 우리 수업에서는 llama3 사용 예정
        • llama3의 세부모델과 파라미터
          • LLaMA 3.1
            • 8B, 70B, 405B 세 가지 크기로 출시
            • 각각 base(사전학습)와 instruct(튜닝목적) 버전
          • LLaMA 3.2
            • 1B, 3B, 11B, 90B
            • 마찬가지로 base(기본)와 instruct(튜닝목적) 버전
      • Qwen 계열
        • 알리바바가 개발한 모델, 다국어 + 좋은 성능
        • 최근 들어 레퍼런스 증가 추세
      • 한국어 모델
        • Exaone(LG), 에이닷엑스(A.X - SK텔레콤) 등
    • sLLM이 필요한 상황

      image.png

      • 보안이슈
        • 고객정보, 민감한 사내규정 등 외부 호출이 제한될 경우 로컬/온프레미스가 대안
      • 성능이슈가 없는 상황
        • RAG를 통한 근거 컨텍스트를 충분히 제공하면 sLLM의 성능 보완 가능
        • 분류, 포맷변환 등 단순/반복/규칙적인 작업의 경우 성능이슈 완화
      • 트래픽이 많아 비용부담이 있을 경우
      • 낮은 지연(latency)이 중요한 경우
        • 웹서버와 동일한 네트워크에 sLLM서버를 위치시킴으로서 빠른 통신
        • 다만, sLLM을 실행하는 로컬 PC의 성능이 낮다면 오히려 지연 발생
  • sLLM 실습
    • sLLM 실행환경
      • 로컬환경
        • CPU or GPU : 1B~3B급은 CPU만으로도 가능은 하지만 느릴 수 있음
        • 메모리 : 최소 16GB 권장 (3B 초과 모델은 32GB 이상이 안정적)
        • 디스크 : 모델 파일이 생각보다 크고 사용량이 많음에 유의
      • 클라우드 환경
        • Google Colab(월별 과금)
          • GPU 실습 및 편리한 코드 실행환경 제공
        • AWS/GCP/Azure 인스턴스(사용량별 과금)
          • GPU 인스턴스 대여
        • Run Pod (사용량별 과금)
          • GPU 공유 클라우드 방식으로 상대적으로 저렴
    • Ollama 다운로드 및 설치
      • 2023년에 만들어진 오픈소스로, 로컬에서 LLM을 명령어 한 줄로 쉽게 실행하는 도구(플랫폼)
      • Llama 3, Qwen, Gemma, EXAONE 등 주요 오픈소스 모델 대부분 지원
      • ollama 주요 명령어
        • ollama 설치 확인 : ollama --version
        • 모델 실행 리스트 조회 : ollama list 또는 ollama ps
        • 모델 실행 : ollama run 모델명
        • 모델 중지 : ollama stop 모델명
    • llama3.2 3B 실행
      • ollama run llama3.2:3b
      • 로컬에서 실행된 sLLM서버
      • 프로픔트창 또는 HTTP API로 호출 가능
    • 코드 흐름
      • chat 메시지 중 내정보조회인경우 get_my_profile로 분기
      • 기존api를 통해 내정보 조회 후 generate_response_sllm 함수 호출
      • sLLM에 최종 응답 요청
        • ollama 제공 엔드포인트 : http://localhost:11434/api/generate
        • 작업 요청 모델지정과 적절한 프롬프트 작성
    • 테스트
      • “/members/me” 기존api를 통한 요청
      • “/chats”를 통한 “내 회원정보 조회해줘” 요청