상용 API (Claude, GPT-4)
- 장점: 즉시 사용, 유지보수 불필요
- 단점: 데이터 프라이버시, 비용 예측 불가, API 제한
- 비용: ~$15/1M 토큰 (input)
2025–2026년을 거치며 오픈소스 코딩 모델이 상용 모델(Claude, GPT-4o)과 대등하거나 일부 벤치마크에서 앞서는 수준에 도달했다. MoE(Mixture-of-Experts) 아키텍처가 주류로 자리잡아, 거대한 전체 파라미터 대비 소수의 활성 파라미터만 사용하여 효율적 추론이 가능해졌다.
| 모델 | 총 파라미터 | 활성 파라미터 | 컨텍스트 | VRAM 요건 (FP16) | 라이선스 |
|---|---|---|---|---|---|
| Gemma 4 | 31B (Dense) | 전체 | 256K | ~20GB (Q4) | Apache 2.0 |
| GLM-5.1 | 미공개 | 미공개 | 198K | 클라우드 전용 | MIT |
| Qwen3-Coder | 235B (MoE) | 22B | 128K | ~48GB (Q4) | Apache 2.0 |
| DeepSeek V3 | 685B (MoE) | 37B | 128K | 350GB+ (Q4, 멀티 GPU) | DeepSeek |
| GLM-4.7 | ~32B | 전체 | 128K | ~24GB (Q4) | Apache 2.0 |
| MiniMax M2.1 | 230B (MoE) | 10B | 128K | ~80GB+ | Apache 2.0 |
| DeepSeek-Coder-V2 | 236B (MoE) | 21B | 128K | ~48GB (Q4) | DeepSeek |
코딩과 에이전틱 태스크에 특화 튜닝된 최신 MoE 모델. SWE-bench Verified에서 Claude Sonnet 4에 근접하는 성능을 보여주며, 32B 급 모델 중 가장 강력한 코딩 성능을 제공한다. 14B/8B 소형 버전도 단일 GPU에서 실용적 성능을 낸다.
Gemini 3 연구 기반으로 개발된 31B Dense 모델. 256K 토큰 컨텍스트 창을 지원하여 대규모 코드베이스를 단일 프롬프트로 처리할 수 있다. LiveCodeBench v6에서 80%를 기록하며 오픈소스 코딩 모델 중 최고 성능을 달성했고, AIME 2026 89.2%, Codeforces ELO 2150, MMLU Pro 85.2%로 추론 능력도 우수하다.
모델 수준에서 네이티브 함수 호출(function calling)을 지원하여 에이전틱 도구 호출 파이프라인과의 통합이 간편하다. 경량 변형으로 26B MoE 모델과 E2B/E4B edge 모델(128K 컨텍스트)이 제공되며, Ollama를 통해 클라우드(NVIDIA Blackwell GPU) 또는 로컬 배포가 가능하다. Apache 2.0 라이선스로 상용 이용과 파인튜닝에 제한이 없다.
GLM-4.7의 후속 모델로, 장기 에이전틱 태스크에 특화 설계되었다. MIT 라이선스, 198K 컨텍스트를 지원한다. SWE-Bench Pro에서 58.4로 GPT-5.4(57.7)와 Opus 4.6(57.3)을 상회하며, Terminal Bench 2.0에서 69.0, 사이버보안 벤치마크에서 68.7로 각각 최상위권을 기록했다.
핵심 차별점은 장기 실행(long-horizon) 능력이다. 단일 세션에서 600회 이상의 반복과 6,000+회의 도구 호출을 수행할 수 있으며, 실행 시간이 길어질수록 성능이 향상되는 특성을 보인다. 현재 Ollama 클라우드 및 Z.AI API를 통해 사용할 수 있다.
685B MoE로 수학/추론/코딩에서 최상위권. 다만 양자화해도 350GB+ VRAM이 필요하여 8×H100 급 클러스터 환경이 사실상 필수. 데이터센터 규모 인프라가 있다면 최강의 오픈 모델.
Dense 모델로 ~32B 파라미터, 단일 48GB GPU에서 구동 가능. Interleaved Thinking(교차 사고) 기능으로 추론 품질이 높고, 코딩 벤치마크에서 Claude 수준으로 평가된다. HuggingFace/ModelScope에서 가중치 공개. 후속 모델인 GLM-5.1은 장기 에이전틱 태스크에서 큰 폭의 성능 향상을 보여준다(위 GLM-5.1 섹션 참조).
230B MoE, 10B 활성. 코딩 에이전트와 도구 사용에 특화 설계. 가중치 완전 공개. 추론 시 MoE 덕분에 활성 파라미터는 작지만, 전체 모델 로딩에 80GB+ VRAM 필요.
| 환경 | GPU VRAM | 추천 모델 |
|---|---|---|
| 개인 PC (RTX 4090) | 24GB | Gemma 4 E4B, Qwen3-Coder 14B/8B, GLM-4.7 (Q4) |
| 워크스테이션 (A6000/H100 1개) | 48–80GB | Gemma 4 31B, Qwen3-Coder 32B, GLM-4.7 (FP16) |
| DGX H100 (MIG 2–4슬라이스) | 160–320GB | DeepSeek-Coder-V2, MiniMax M2.1 |
| DGX H100 (전체 8GPU) | 640GB | DeepSeek V3 (Q4) |
GLM-5.1은 현재 Ollama 클라우드 및 Z.AI API를 통해서만 사용 가능하다.
상용 API (Claude, GPT-4)
오픈소스 (DeepSeek + vLLM)
터미널 기반 AI 코딩 CLI 도구 비교는 AI 코딩 도구 선택 가이드 참조.
DGX 서버에서 vLLM 설치
# MIG 슬라이스 내에서pip install vllm모델 선택 및 서버 실행
python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen3-Coder-32B-Instruct \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --port 8000python -m vllm.entrypoints.openai.api_server \ --model deepseek-ai/DeepSeek-Coder-V2-Lite-Instruct \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --port 8000python -m vllm.entrypoints.openai.api_server \ --model google/gemma-4-31b-it \ --tensor-parallel-size 1 \ --max-model-len 65536 \ --port 8000python -m vllm.entrypoints.openai.api_server \ --model THUDM/glm-4-9b-chat \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --port 8000OpenAI 호환 API로 테스트
import openai
client = openai.OpenAI( base_url="http://localhost:8000/v1", api_key="token-abc")
response = client.chat.completions.create( model="Qwen/Qwen3-Coder-32B-Instruct", # 실행 중인 모델명 messages=[{"role": "user", "content": "Python으로 퀵소트 구현해줘"}])print(response.choices[0].message.content)AI 코딩 CLI에서 로컬 모델 사용
vLLM의 OpenAI 호환 API를 통해 Claude Code, OpenCode 등에서 로컬 모델을 백엔드로 사용할 수 있다.
# OpenCode에서 로컬 vLLM 연결export OPENAI_API_BASE="http://localhost:8000/v1"export OPENAI_API_KEY="token-abc"opencode성능 벤치마크
# 처리량 벤치마크python -m vllm.benchmarks.benchmark_throughput \ --model Qwen/Qwen3-Coder-32B-Instruct \ --num-prompts 100 \ --input-len 512 \ --output-len 128vLLM이 고처리량 프로덕션 환경에 적합하다면, Ollama는 설치와 사용이 간편한 개발/프로토타이핑 도구다. NVIDIA와의 파트너십으로 클라우드 GPU에서도 실행할 수 있어 로컬 GPU 없이도 대형 모델을 사용할 수 있다.
Ollama 설치
# macOSbrew install ollama
# Linuxcurl -fsSL https://ollama.com/install.sh | sh
# 설치 확인ollama --version클라우드 모델 실행 (GPU 불필요)
Ollama 클라우드는 NVIDIA Blackwell GPU에서 원격 추론을 수행한다. 로컬 GPU 없이 대형 모델의 전체 성능을 사용할 수 있다.
# Gemma 4 31B 클라우드 — 256K 컨텍스트 자동 설정ollama pull gemma4:31b-cloudollama launch claude --model gemma4:31b-cloud# GLM-5.1 클라우드 — 198K 컨텍스트ollama run glm-5.1:cloudollama launch claude --model glm-5.1:cloud로컬 모델 실행
하드웨어에 맞는 모델 크기를 선택한다.
# 엣지 모델 (10GB+ VRAM) — 노트북에서 실행 가능ollama pull gemma4:e4bollama launch claude --model gemma4:e4b
# 26B MoE (18GB+ VRAM)ollama pull gemma4:26bollama launch claude --model gemma4:26b
# 31B Dense (20GB+ VRAM) — 최대 품질ollama pull gemma4:31bollama launch claude --model gemma4:31bAI 코딩 CLI에서 Ollama 연동
Ollama는 OpenAI 호환 API를 localhost:11434에서 제공한다.
# OpenCode에서 Ollama 백엔드 사용export OPENAI_API_BASE="http://127.0.0.1:11434/v1"export OPENAI_API_KEY="ollama"opencodevLLM vs Ollama 비교
| 항목 | vLLM | Ollama |
|---|---|---|
| 설치 난이도 | CUDA/Python 환경 필요 | 단일 명령 |
| 배치 처리 | 고처리량 (PagedAttention) | 단일 요청 최적화 |
| 클라우드 배포 | 직접 서버 구성 | Ollama Cloud (NVIDIA 파트너십) |
| 모델 관리 | HuggingFace에서 수동 다운로드 | ollama pull로 자동 관리 |
| 적합 환경 | 프로덕션, 높은 동시 요청 | 개발, 프로토타이핑, 개인 사용 |
제출 마감: 2026-05-12 23:59
요구사항: