10주차: 오픈소스 코딩 LLM과 로컬 배포

Phase 410주차고급강의일: 2026-05-05

이론 (Theory)

2026 오픈소스 코딩 LLM 지형

2025–2026년을 거치며 오픈소스 코딩 모델이 상용 모델(Claude, GPT-4o)과 대등하거나 일부 벤치마크에서 앞서는 수준에 도달했다. MoE(Mixture-of-Experts) 아키텍처가 주류로 자리잡아, 거대한 전체 파라미터 대비 소수의 활성 파라미터만 사용하여 효율적 추론이 가능해졌다.

주요 모델 비교

모델	총 파라미터	활성 파라미터	컨텍스트	VRAM 요건 (FP16)	라이선스
Gemma 4	31B (Dense)	전체	256K	~20GB (Q4)	Apache 2.0
GLM-5.1	미공개	미공개	198K	클라우드 전용	MIT
Qwen3-Coder	235B (MoE)	22B	128K	~48GB (Q4)	Apache 2.0
DeepSeek V3	685B (MoE)	37B	128K	350GB+ (Q4, 멀티 GPU)	DeepSeek
GLM-4.7	~32B	전체	128K	~24GB (Q4)	Apache 2.0
MiniMax M2.1	230B (MoE)	10B	128K	~80GB+	Apache 2.0
DeepSeek-Coder-V2	236B (MoE)	21B	128K	~48GB (Q4)	DeepSeek

Qwen3-Coder (Alibaba)

코딩과 에이전틱 태스크에 특화 튜닝된 최신 MoE 모델. SWE-bench Verified에서 Claude Sonnet 4에 근접하는 성능을 보여주며, 32B 급 모델 중 가장 강력한 코딩 성능을 제공한다. 14B/8B 소형 버전도 단일 GPU에서 실용적 성능을 낸다.

Gemma 4 (Google)

Gemini 3 연구 기반으로 개발된 31B Dense 모델. 256K 토큰 컨텍스트 창을 지원하여 대규모 코드베이스를 단일 프롬프트로 처리할 수 있다. LiveCodeBench v6에서 80%를 기록하며 오픈소스 코딩 모델 중 최고 성능을 달성했고, AIME 2026 89.2%, Codeforces ELO 2150, MMLU Pro 85.2%로 추론 능력도 우수하다.

모델 수준에서 네이티브 함수 호출(function calling)을 지원하여 에이전틱 도구 호출 파이프라인과의 통합이 간편하다. 경량 변형으로 26B MoE 모델과 E2B/E4B edge 모델(128K 컨텍스트)이 제공되며, Ollama를 통해 클라우드(NVIDIA Blackwell GPU) 또는 로컬 배포가 가능하다. Apache 2.0 라이선스로 상용 이용과 파인튜닝에 제한이 없다.

GLM-5.1 (Z.AI)

GLM-4.7의 후속 모델로, 장기 에이전틱 태스크에 특화 설계되었다. MIT 라이선스, 198K 컨텍스트를 지원한다. SWE-Bench Pro에서 58.4로 GPT-5.4(57.7)와 Opus 4.6(57.3)을 상회하며, Terminal Bench 2.0에서 69.0, 사이버보안 벤치마크에서 68.7로 각각 최상위권을 기록했다.

핵심 차별점은 장기 실행(long-horizon) 능력이다. 단일 세션에서 600회 이상의 반복과 6,000+회의 도구 호출을 수행할 수 있으며, 실행 시간이 길어질수록 성능이 향상되는 특성을 보인다. 현재 Ollama 클라우드 및 Z.AI API를 통해 사용할 수 있다.

DeepSeek V3 (DeepSeek)

685B MoE로 수학/추론/코딩에서 최상위권. 다만 양자화해도 350GB+ VRAM이 필요하여 8×H100 급 클러스터 환경이 사실상 필수. 데이터센터 규모 인프라가 있다면 최강의 오픈 모델.

GLM-4.7 (Zhipu AI)

Dense 모델로 ~32B 파라미터, 단일 48GB GPU에서 구동 가능. Interleaved Thinking(교차 사고) 기능으로 추론 품질이 높고, 코딩 벤치마크에서 Claude 수준으로 평가된다. HuggingFace/ModelScope에서 가중치 공개. 후속 모델인 GLM-5.1은 장기 에이전틱 태스크에서 큰 폭의 성능 향상을 보여준다(위 GLM-5.1 섹션 참조).

MiniMax M2.1

230B MoE, 10B 활성. 코딩 에이전트와 도구 사용에 특화 설계. 가중치 완전 공개. 추론 시 MoE 덕분에 활성 파라미터는 작지만, 전체 모델 로딩에 80GB+ VRAM 필요.

하드웨어별 실행 가능 모델 가이드

환경	GPU VRAM	추천 모델
개인 PC (RTX 4090)	24GB	Gemma 4 E4B, Qwen3-Coder 14B/8B, GLM-4.7 (Q4)
워크스테이션 (A6000/H100 1개)	48–80GB	Gemma 4 31B, Qwen3-Coder 32B, GLM-4.7 (FP16)
DGX H100 (MIG 2–4슬라이스)	160–320GB	DeepSeek-Coder-V2, MiniMax M2.1
DGX H100 (전체 8GPU)	640GB	DeepSeek V3 (Q4)

GLM-5.1은 현재 Ollama 클라우드 및 Z.AI API를 통해서만 사용 가능하다.

오픈소스 vs 상용 API 비교

상용 API (Claude, GPT-4)

장점: 즉시 사용, 유지보수 불필요
단점: 데이터 프라이버시, 비용 예측 불가, API 제한
비용: ~$15/1M 토큰 (input)

오픈소스 (DeepSeek + vLLM)

장점: 완전한 제어, 데이터 내부 보관, 비용 예측 가능
단점: 초기 설정 비용, 유지보수 필요
비용: H100 서버 비용만 (토큰당 ~$0.001)

에이전틱 코딩 도구 생태계 (2026)

AGENTIC CODING TOOL ECOSYSTEM (2026)

상용 (Commercial)

Claude Code (Anthropic)
Gemini CLI (Google, 무료)
Codex CLI (OpenAI)
Cursor (GPT-4o)
GitHub Copilot
Amazon Q

오픈소스 모델 (Open Weights)

Gemma 4 (Google, 31B Dense, 256K)
GLM-5.1 (Z.AI, MIT, 198K)
Qwen3-Coder (Alibaba, 235B MoE)
DeepSeek V3 (685B MoE)
GLM-4.7 (Zhipu AI, ~32B Dense)
MiniMax M2.1 (230B MoE)
DeepSeek-Coder-V2 (236B MoE)
Qwen3 14B/8B (경량)

오픈소스 도구 (Open Tools)

OpenCode (다중 백엔드 TUI)
Roo Code / Cline (VS Code 확장)
vLLM / SGLang (추론 서버)
Ollama (로컬/클라우드 배포)

터미널 기반 AI 코딩 CLI 도구 비교는 AI 코딩 도구 선택 가이드 참조.

실습 (Practicum)

vLLM으로 오픈소스 모델 배포

DGX 서버에서 vLLM 설치

# MIG 슬라이스 내에서
pip install vllm

모델 선택 및 서버 실행
Terminal window
python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen3-Coder-32B-Instruct \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --port 8000
Terminal window
python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --port 8000
Terminal window
python -m vllm.entrypoints.openai.api_server \ --model google/gemma-4-31b-it \ --tensor-parallel-size 1 \ --max-model-len 65536 \ --port 8000
Terminal window
python -m vllm.entrypoints.openai.api_server \ --model THUDM/glm-4-9b-chat \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --port 8000

OpenAI 호환 API로 테스트

import openai

client = openai.OpenAI(
    base_url="http://localhost:8000/v1",
    api_key="token-abc"
)

response = client.chat.completions.create(
    model="Qwen/Qwen3-Coder-32B-Instruct",  # 실행 중인 모델명
    messages=[{"role": "user", "content": "Python으로 퀵소트 구현해줘"}]
)
print(response.choices[0].message.content)

AI 코딩 CLI에서 로컬 모델 사용

vLLM의 OpenAI 호환 API를 통해 Claude Code, OpenCode 등에서 로컬 모델을 백엔드로 사용할 수 있다.
Terminal window
```
# OpenCode에서 로컬 vLLM 연결
export OPENAI_API_BASE="http://localhost:8000/v1"
export OPENAI_API_KEY="token-abc"
opencode
```

성능 벤치마크

# 처리량 벤치마크
python -m vllm.benchmarks.benchmark_throughput \
  --model Qwen/Qwen3-Coder-32B-Instruct \
  --num-prompts 100 \
  --input-len 512 \
  --output-len 128

Ollama로 클라우드/로컬 배포

vLLM이 고처리량 프로덕션 환경에 적합하다면, Ollama는 설치와 사용이 간편한 개발/프로토타이핑 도구다. NVIDIA와의 파트너십으로 클라우드 GPU에서도 실행할 수 있어 로컬 GPU 없이도 대형 모델을 사용할 수 있다.

Ollama 설치

# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# 설치 확인
ollama --version

클라우드 모델 실행 (GPU 불필요)

Ollama 클라우드는 NVIDIA Blackwell GPU에서 원격 추론을 수행한다. 로컬 GPU 없이 대형 모델의 전체 성능을 사용할 수 있다.

Gemma 4
GLM-5.1

# Gemma 4 31B 클라우드 — 256K 컨텍스트 자동 설정
ollama pull gemma4:31b-cloud
ollama launch claude --model gemma4:31b-cloud

# GLM-5.1 클라우드 — 198K 컨텍스트
ollama run glm-5.1:cloud
ollama launch claude --model glm-5.1:cloud

로컬 모델 실행

하드웨어에 맞는 모델 크기를 선택한다.

# 엣지 모델 (10GB+ VRAM) — 노트북에서 실행 가능
ollama pull gemma4:e4b
ollama launch claude --model gemma4:e4b

# 26B MoE (18GB+ VRAM)
ollama pull gemma4:26b
ollama launch claude --model gemma4:26b

# 31B Dense (20GB+ VRAM) — 최대 품질
ollama pull gemma4:31b
ollama launch claude --model gemma4:31b

AI 코딩 CLI에서 Ollama 연동

Ollama는 OpenAI 호환 API를 localhost:11434에서 제공한다.

# OpenCode에서 Ollama 백엔드 사용
export OPENAI_API_BASE="http://127.0.0.1:11434/v1"
export OPENAI_API_KEY="ollama"
opencode

vLLM vs Ollama 비교

항목	vLLM	Ollama
설치 난이도	CUDA/Python 환경 필요	단일 명령
배치 처리	고처리량 (PagedAttention)	단일 요청 최적화
클라우드 배포	직접 서버 구성	Ollama Cloud (NVIDIA 파트너십)
모델 관리	HuggingFace에서 수동 다운로드	`ollama pull`로 자동 관리
적합 환경	프로덕션, 높은 동시 요청	개발, 프로토타이핑, 개인 사용

과제 (Assignment)

Lab 10: 오픈소스 모델 배포 실습

제출 마감: 2026-05-12 23:59

요구사항:

vLLM 또는 Ollama로 오픈소스 모델 1개 이상 구동 성공 스크린샷
오픈소스 모델(Gemma 4, Qwen3-Coder 또는 선택 모델) vs Claude 코딩 성능 비교 (동일 태스크 5개)
처리량(tokens/sec) 벤치마크 결과
비용 분석: API 비용 vs DGX 운영 비용 계산
(선택) vLLM과 Ollama 배포 경험 비교 — 설치 난이도, 성능, 유연성