콘텐츠로 이동

10주차: 오픈소스 코딩 LLM과 로컬 배포

Phase 410주차고급강의일: 2026-05-05

2025–2026년을 거치며 오픈소스 코딩 모델이 상용 모델(Claude, GPT-4o)과 대등하거나 일부 벤치마크에서 앞서는 수준에 도달했다. MoE(Mixture-of-Experts) 아키텍처가 주류로 자리잡아, 거대한 전체 파라미터 대비 소수의 활성 파라미터만 사용하여 효율적 추론이 가능해졌다.

모델총 파라미터활성 파라미터컨텍스트VRAM 요건 (FP16)라이선스
Gemma 431B (Dense)전체256K~20GB (Q4)Apache 2.0
GLM-5.1미공개미공개198K클라우드 전용MIT
Qwen3-Coder235B (MoE)22B128K~48GB (Q4)Apache 2.0
DeepSeek V3685B (MoE)37B128K350GB+ (Q4, 멀티 GPU)DeepSeek
GLM-4.7~32B전체128K~24GB (Q4)Apache 2.0
MiniMax M2.1230B (MoE)10B128K~80GB+Apache 2.0
DeepSeek-Coder-V2236B (MoE)21B128K~48GB (Q4)DeepSeek

코딩과 에이전틱 태스크에 특화 튜닝된 최신 MoE 모델. SWE-bench Verified에서 Claude Sonnet 4에 근접하는 성능을 보여주며, 32B 급 모델 중 가장 강력한 코딩 성능을 제공한다. 14B/8B 소형 버전도 단일 GPU에서 실용적 성능을 낸다.

Gemini 3 연구 기반으로 개발된 31B Dense 모델. 256K 토큰 컨텍스트 창을 지원하여 대규모 코드베이스를 단일 프롬프트로 처리할 수 있다. LiveCodeBench v6에서 80%를 기록하며 오픈소스 코딩 모델 중 최고 성능을 달성했고, AIME 2026 89.2%, Codeforces ELO 2150, MMLU Pro 85.2%로 추론 능력도 우수하다.

모델 수준에서 네이티브 함수 호출(function calling)을 지원하여 에이전틱 도구 호출 파이프라인과의 통합이 간편하다. 경량 변형으로 26B MoE 모델과 E2B/E4B edge 모델(128K 컨텍스트)이 제공되며, Ollama를 통해 클라우드(NVIDIA Blackwell GPU) 또는 로컬 배포가 가능하다. Apache 2.0 라이선스로 상용 이용과 파인튜닝에 제한이 없다.

GLM-4.7의 후속 모델로, 장기 에이전틱 태스크에 특화 설계되었다. MIT 라이선스, 198K 컨텍스트를 지원한다. SWE-Bench Pro에서 58.4로 GPT-5.4(57.7)와 Opus 4.6(57.3)을 상회하며, Terminal Bench 2.0에서 69.0, 사이버보안 벤치마크에서 68.7로 각각 최상위권을 기록했다.

핵심 차별점은 장기 실행(long-horizon) 능력이다. 단일 세션에서 600회 이상의 반복과 6,000+회의 도구 호출을 수행할 수 있으며, 실행 시간이 길어질수록 성능이 향상되는 특성을 보인다. 현재 Ollama 클라우드 및 Z.AI API를 통해 사용할 수 있다.

685B MoE로 수학/추론/코딩에서 최상위권. 다만 양자화해도 350GB+ VRAM이 필요하여 8×H100 급 클러스터 환경이 사실상 필수. 데이터센터 규모 인프라가 있다면 최강의 오픈 모델.

Dense 모델로 ~32B 파라미터, 단일 48GB GPU에서 구동 가능. Interleaved Thinking(교차 사고) 기능으로 추론 품질이 높고, 코딩 벤치마크에서 Claude 수준으로 평가된다. HuggingFace/ModelScope에서 가중치 공개. 후속 모델인 GLM-5.1은 장기 에이전틱 태스크에서 큰 폭의 성능 향상을 보여준다(위 GLM-5.1 섹션 참조).

230B MoE, 10B 활성. 코딩 에이전트와 도구 사용에 특화 설계. 가중치 완전 공개. 추론 시 MoE 덕분에 활성 파라미터는 작지만, 전체 모델 로딩에 80GB+ VRAM 필요.

하드웨어별 실행 가능 모델 가이드

섹션 제목: “하드웨어별 실행 가능 모델 가이드”
환경GPU VRAM추천 모델
개인 PC (RTX 4090)24GBGemma 4 E4B, Qwen3-Coder 14B/8B, GLM-4.7 (Q4)
워크스테이션 (A6000/H100 1개)48–80GBGemma 4 31B, Qwen3-Coder 32B, GLM-4.7 (FP16)
DGX H100 (MIG 2–4슬라이스)160–320GBDeepSeek-Coder-V2, MiniMax M2.1
DGX H100 (전체 8GPU)640GBDeepSeek V3 (Q4)

GLM-5.1은 현재 Ollama 클라우드 및 Z.AI API를 통해서만 사용 가능하다.

상용 API (Claude, GPT-4)

  • 장점: 즉시 사용, 유지보수 불필요
  • 단점: 데이터 프라이버시, 비용 예측 불가, API 제한
  • 비용: ~$15/1M 토큰 (input)

오픈소스 (DeepSeek + vLLM)

  • 장점: 완전한 제어, 데이터 내부 보관, 비용 예측 가능
  • 단점: 초기 설정 비용, 유지보수 필요
  • 비용: H100 서버 비용만 (토큰당 ~$0.001)

에이전틱 코딩 도구 생태계 (2026)

섹션 제목: “에이전틱 코딩 도구 생태계 (2026)”
AGENTIC CODING TOOL ECOSYSTEM (2026)
상용 (Commercial)
  • Claude Code (Anthropic)
  • Gemini CLI (Google, 무료)
  • Codex CLI (OpenAI)
  • Cursor (GPT-4o)
  • GitHub Copilot
  • Amazon Q
오픈소스 모델 (Open Weights)
  • Gemma 4 (Google, 31B Dense, 256K)
  • GLM-5.1 (Z.AI, MIT, 198K)
  • Qwen3-Coder (Alibaba, 235B MoE)
  • DeepSeek V3 (685B MoE)
  • GLM-4.7 (Zhipu AI, ~32B Dense)
  • MiniMax M2.1 (230B MoE)
  • DeepSeek-Coder-V2 (236B MoE)
  • Qwen3 14B/8B (경량)
오픈소스 도구 (Open Tools)
  • OpenCode (다중 백엔드 TUI)
  • Roo Code / Cline (VS Code 확장)
  • vLLM / SGLang (추론 서버)
  • Ollama (로컬/클라우드 배포)

터미널 기반 AI 코딩 CLI 도구 비교는 AI 코딩 도구 선택 가이드 참조.

  1. DGX 서버에서 vLLM 설치

    Terminal window
    # MIG 슬라이스 내에서
    pip install vllm
  2. 모델 선택 및 서버 실행

    Terminal window
    python -m vllm.entrypoints.openai.api_server \
    --model Qwen/Qwen3-Coder-32B-Instruct \
    --tensor-parallel-size 1 \
    --max-model-len 32768 \
    --port 8000
  3. OpenAI 호환 API로 테스트

    import openai
    client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc"
    )
    response = client.chat.completions.create(
    model="Qwen/Qwen3-Coder-32B-Instruct", # 실행 중인 모델명
    messages=[{"role": "user", "content": "Python으로 퀵소트 구현해줘"}]
    )
    print(response.choices[0].message.content)
  4. AI 코딩 CLI에서 로컬 모델 사용

    vLLM의 OpenAI 호환 API를 통해 Claude Code, OpenCode 등에서 로컬 모델을 백엔드로 사용할 수 있다.

    Terminal window
    # OpenCode에서 로컬 vLLM 연결
    export OPENAI_API_BASE="http://localhost:8000/v1"
    export OPENAI_API_KEY="token-abc"
    opencode
  5. 성능 벤치마크

    Terminal window
    # 처리량 벤치마크
    python -m vllm.benchmarks.benchmark_throughput \
    --model Qwen/Qwen3-Coder-32B-Instruct \
    --num-prompts 100 \
    --input-len 512 \
    --output-len 128

vLLM이 고처리량 프로덕션 환경에 적합하다면, Ollama는 설치와 사용이 간편한 개발/프로토타이핑 도구다. NVIDIA와의 파트너십으로 클라우드 GPU에서도 실행할 수 있어 로컬 GPU 없이도 대형 모델을 사용할 수 있다.

  1. Ollama 설치

    Terminal window
    # macOS
    brew install ollama
    # Linux
    curl -fsSL https://ollama.com/install.sh | sh
    # 설치 확인
    ollama --version
  2. 클라우드 모델 실행 (GPU 불필요)

    Ollama 클라우드는 NVIDIA Blackwell GPU에서 원격 추론을 수행한다. 로컬 GPU 없이 대형 모델의 전체 성능을 사용할 수 있다.

    Terminal window
    # Gemma 4 31B 클라우드 — 256K 컨텍스트 자동 설정
    ollama pull gemma4:31b-cloud
    ollama launch claude --model gemma4:31b-cloud
  3. 로컬 모델 실행

    하드웨어에 맞는 모델 크기를 선택한다.

    Terminal window
    # 엣지 모델 (10GB+ VRAM) — 노트북에서 실행 가능
    ollama pull gemma4:e4b
    ollama launch claude --model gemma4:e4b
    # 26B MoE (18GB+ VRAM)
    ollama pull gemma4:26b
    ollama launch claude --model gemma4:26b
    # 31B Dense (20GB+ VRAM) — 최대 품질
    ollama pull gemma4:31b
    ollama launch claude --model gemma4:31b
  4. AI 코딩 CLI에서 Ollama 연동

    Ollama는 OpenAI 호환 API를 localhost:11434에서 제공한다.

    Terminal window
    # OpenCode에서 Ollama 백엔드 사용
    export OPENAI_API_BASE="http://127.0.0.1:11434/v1"
    export OPENAI_API_KEY="ollama"
    opencode
  5. vLLM vs Ollama 비교

    항목vLLMOllama
    설치 난이도CUDA/Python 환경 필요단일 명령
    배치 처리고처리량 (PagedAttention)단일 요청 최적화
    클라우드 배포직접 서버 구성Ollama Cloud (NVIDIA 파트너십)
    모델 관리HuggingFace에서 수동 다운로드ollama pull로 자동 관리
    적합 환경프로덕션, 높은 동시 요청개발, 프로토타이핑, 개인 사용

제출 마감: 2026-05-12 23:59

요구사항:

  1. vLLM 또는 Ollama로 오픈소스 모델 1개 이상 구동 성공 스크린샷
  2. 오픈소스 모델(Gemma 4, Qwen3-Coder 또는 선택 모델) vs Claude 코딩 성능 비교 (동일 태스크 5개)
  3. 처리량(tokens/sec) 벤치마크 결과
  4. 비용 분석: API 비용 vs DGX 운영 비용 계산
  5. (선택) vLLM과 Ollama 배포 경험 비교 — 설치 난이도, 성능, 유연성