콘텐츠로 이동

15주차: 시스템 통합과 최종 테스트

Phase 515주차마무리강의일: 2026-06-09

개념 관점

Release Gate가 deterministic gate와 어떻게 다른지 설명하고, smoke / integration / soak / chaos 4가지 통합 테스트 전략을 비교한다.

설계 관점

feature freeze 정책과 release readiness checklist를 만들고, 발표 스토리를 STAR 프레임워크로 구성한다.

구현 관점

same task packet 3회 반복, replay snapshot 검증, 실패 복구 path 자동화 같은 Release Gate 항목을 코드와 evidence로 통과시킨다.

운영 관점

토큰·비용·지연·실패율 표를 source run id와 함께 슬라이드에 첨부해 “수치만 있는 결과”가 아니라 “추적 가능한 결과”로 만든다.


15주차는 기능 추가 주간이 아니다. 이미 만든 closed loop를 신뢰 가능한 데모와 보고서로 만드는 주간이다. 새 기능을 추가하기보다 실패율을 줄이고, 수치를 정리하고, 발표 흐름을 고정한다.

Week 15 — Integration to Presentation
① Feature Freeze 선언freeze.md 작성 · scope cut 확정
② 통합 테스트 매트릭스 실행smoke · integration · soak · chaos
③ Release Gate 통과build/test · E2E 3회 · replay · evaluation · security · demo
④ 성능·비용 보고서latency / tokens / cost / judge / pass-fail
⑤ 발표 리허설 (STAR)cold start · time-box · failure injection · evidence check

Release Gate는 단일 테스트가 아니라 여러 종류의 gate를 묶은 정책이다. 각 gate는 deterministic / probabilistic / approval 중 하나의 성격을 가진다.

Gate성격통과 기준예시
Build/Testdeterministic명령 종료 코드 0make test, pytest
SchemadeterministicJSON Schema validatetask packet, judge output
Replaydeterministicevent log → snapshot 일치replay() 함수 결과 비교
Performancedeterministic-ish임계값 초과 여부p95 latency < N
Judgeprobabilisticoverall ≥ 7.0 등LLM Judge JSON
Securityapproval사람이 체크리스트 사인secret scan + manual review
Demoapproval라이브 데모 + 백업 영상90초 녹화본

15주차 시작 시점에 각 팀은 freeze.md를 작성한다.

항목작성 내용
Demo path발표에서 반드시 보여줄 1개 happy path
Recovery path실패를 안전하게 처리하는 1개 path
Frozen features더 이상 바꾸지 않을 기능 목록
Allowed fixes버그 수정, 테스트 안정화, 문서/수치 정리
Explicit cuts최종 발표에서 제외할 기능

freeze 이후의 변경은 release gate 통과율을 높일 때만 허용한다.

최종 제출 전 다음 gate를 모두 통과해야 한다.

Gate기준증거
Build/Testmake test 또는 동등 명령 통과CI 로그 또는 터미널 캡처
End-to-end같은 task packet 3회 연속 실행run id 3개
Replayevent log에서 최종 상태 재구성replay_snapshot.json
Evaluationdeterministic + judge 결과 기록평가표
Securitysecret, credential, out-of-scope write 없음체크리스트
Demo네트워크 없이 설명 가능한 백업 자료녹화본/스크린샷

최종 리허설 전 팀 내부에서 20분짜리 release review를 진행한다.

  1. make test 또는 동등 명령을 실행하고 결과를 캡처한다.
  2. 같은 task packet을 3회 실행하고 run id를 기록한다.
  3. 가장 최근 실패 run을 하나 골라 failure reason을 설명한다.
  4. replay_snapshot.json이 event log와 일치하는지 확인한다.
  5. 발표 슬라이드의 모든 수치 옆에 source run id를 붙인다.
  6. secret, credential, out-of-scope write가 없는지 서로 교차 검토한다.

이 review에서 발견된 문제는 새 기능보다 우선한다.

캡스톤 시스템은 단위 테스트만으로 검증되지 않는다. 4가지 종류의 통합 테스트를 균형 있게 실행한다.

테스트 종류목적통과 기준빈도
Smoke시스템이 기동하는가make run 1회 통과매 commit
Integrationend-to-end happy path가 통과하는가같은 task 3회 연속 통과일 1회
Soak일정 시간/요청 수 지속 시 메모리/큐 안정10분/100건 동안 OOM 없음발표 전 1회
Chaos의도적 실패에서 복구하는가invalid task / network drop / model 500 → safe close발표 전 1회
task packet -> planner -> worker -> tests pass -> judge pass -> artifact saved

최소 3회 반복 실행한다. 세 번 중 한 번이라도 실패하면 failure reason을 기록하고 원인을 수정한다.

각 팀은 최소 다음 표를 포함한다.

지표Run 1Run 2Run 3평균baseline 비교
total latency sec
prompt tokens
completion tokens
tool calls
retry count
judge score
pass/fail

비용은 정확한 청구액보다 비교 가능한 계산식이 중요하다.

commercial_api_cost = input_tokens * input_price + output_tokens * output_price
local_gpu_cost = gpu_hour_price * elapsed_seconds / 3600
operator_cost = human_minutes * hourly_rate / 60

3-5회 실행만으로 평균을 보고하면 분산을 놓친다. 다음 한 줄을 첨부하면 신뢰성이 올라간다.

항목권장 표기
평균mean ± stdev
분포min / median / p95
표본 수n=N (3회 미만이면 발표 시 명시)
실패율failures / total

발표 스토리텔링 — STAR 프레임워크

섹션 제목: “발표 스토리텔링 — STAR 프레임워크”

발표에서 데모만 보여주면 평가자는 “운인지 설계인지” 판단할 수 없다. STAR 구조로 엮으면 의도가 드러난다.

구간STAR 의미캡스톤 적용
Situation왜 이 문제인가사용자/반복 업무/실패 비용
Task우리가 해결한 범위demo path · scope cut
Action어떻게 만들었는가task packet · gate · replay 설계 결정
Result정량 증거성공률·비용·judge·실패 사례

권장 발표 구조는 15분이다.

시간내용증거
2분문제 정의 (Situation)사용자/반복 업무/위험 경계
3분아키텍처 (Task + Action)agent diagram + runtime layers
5분라이브 데모 (Action)happy path + failure recovery
3분결과 (Result)성공률, 비용, latency, judge 결과
2분회고실패와 scope cut, 다음 개선
기법설명적용 시점
Pre-warm발표 1시간 전 모델 로딩과 cache 채우기라이브 데모
Recorded fallback90초 안에 끝나는 녹화본 준비라이브 실패 시 즉시 재생
Frozen task packet데모용 task packet을 git tag로 고정발표 직전
Hardcoded inputs외부 API 응답을 미리 캡처해 fixture로 사용chaos 시나리오
Watchdog timer라이브 데모 90초 timer로 자동 fallback발표 모드
# Final Report
## 1. Problem and User
## 2. System Architecture
## 3. Runtime and Harness Design
## 4. Evaluation Gates
## 5. Telemetry Results
## 6. Failure Cases and Fixes
## 7. Cost and Performance
## 8. Limitations
## 9. What We Would Do Next
  1. cold start rehearsal

    아무 것도 켜지 않은 상태에서 발표 환경을 시작해 본다.

  2. time-box rehearsal

    15분 제한으로 발표하고, 12분 지점에서 demo가 끝나도록 조정한다.

  3. failure injection

    일부러 실패 task를 넣고 시스템이 안전하게 멈추는 장면을 확인한다.

  4. evidence check

    모든 수치가 run id, event log, dashboard screenshot과 연결되는지 확인한다.

  5. speaker handoff

    팀원 간 발표 전환 문장을 정하고, 한 명이 빠져도 발표가 이어지도록 한다.

항목위치마감
소스 코드capstone/teams/[팀명]/runtime/6/16
READMEcapstone/teams/[팀명]/README.md6/16
설계 문서capstone/teams/[팀명]/design.md6/16
최종 보고서capstone/teams/[팀명]/reports/final-report.md6/16
발표 자료capstone/teams/[팀명]/presentation.pdf6/16
데모 영상capstone/teams/[팀명]/demo.mp46/16
실행 로그capstone/teams/[팀명]/runs/*.events.jsonl6/16
replay snapshotcapstone/teams/[팀명]/reports/replay_snapshot.json6/16
freeze.mdcapstone/teams/[팀명]/freeze.md6/16
항목비중평가 포인트
문제 정의와 범위15%실제 반복 업무, 위험 경계, scope cut
하네스 설계25%task packet, gate, retry, replay
구현 완성도25%E2E 실행, 테스트, 안정성
관측성과 평가20%telemetry, judge, 비용/성능 지표
발표와 회고15%명확성, 실패 공유, 다음 개선
  1. freeze.md 작성

    demo path / recovery path / frozen features / allowed fixes / explicit cuts 5항목을 채운다.

  2. 통합 테스트 매트릭스 실행

    smoke / integration / soak / chaos 4종을 각각 1회 이상 실행하고 run id를 기록한다.

  3. Release Gate 6개 통과

    build/test, E2E 3회, replay, evaluation, security, demo 항목을 evidence와 함께 체크한다.

  4. 성능·비용 표 작성

    3-5회 평균과 분포를 기록하고 commercial vs local 비용 비교를 첨부한다.

  5. STAR 발표 자료 v1

    Situation/Task/Action/Result 4구간을 슬라이드 골격으로 만든다.

  6. 3회 리허설

    cold start, time-box, failure injection을 연달아 진행한다.

제출 마감: 2026-06-16 23:59

요구사항:

  1. 최종 제출물 목록 전체 완성
  2. release gate 체크리스트 포함
  3. run id가 연결된 성능/비용/품질 수치 포함
  4. 15분 발표 자료와 90초 백업 데모 영상 포함
  5. freeze.md 와 통합 테스트 매트릭스 결과 첨부
  1. 15주차는 통합·안정화 주간: 새 기능보다 demo path 신뢰도가 우선이다.
  2. Release Gate는 단일 테스트가 아니다: deterministic·probabilistic·approval gate를 묶은 정책이다.
  3. freeze.md가 결정 도구: 무엇을 더 이상 바꾸지 않을지 명시해야 fix와 feature가 구분된다.
  4. 통합 테스트는 4종 매트릭스: smoke / integration / soak / chaos를 균형 있게 실행한다.
  5. 수치는 source run id에 연결: 슬라이드의 모든 숫자는 evidence(run id, event log, dashboard)에서 추적 가능해야 한다.
  6. STAR 구조로 발표: Situation·Task·Action·Result를 따라가면 데모가 운이 아닌 설계로 보인다.
  7. 데모는 항상 두 트랙: 라이브 + 90초 녹화본 fallback. watchdog timer로 자동 전환.

핵심 문서

테스트 / 신뢰성

  • Google SRE Book — Testing for Reliability
  • Netflix Tech Blog — Chaos Engineering 101
  • Will Larson, “Test types and trade-offs”

발표 / 보고

  • Cole Nussbaumer Knaflic, Storytelling with Data
  • Amazon 6-pager / 1-pager 작성법
  • Andy Matuschak, “Evergreen notes” — 발표 자료 재사용 관점