Startup BuildFlagship

Parentlyze · STT / AI Engine

Parentlyze의 자체 음성 분석 서버. Whisper + Qwen 이중 엔진 + 화자분리 + 음성 분석.

· 3명기간 4개월기여도 100%2026-012026-04
핵심 지표: 이중 엔진 · 음향 분석 통합
엔지니어링 역할
AI/MLBackendInfra
Startup Build
Parentlyze · STT / AI Engine
AI
#AI#Backend#Team#Startup

개요

부모-자녀 대화 오디오를 전사·화자분리·음향 분석까지 수행하는 자체 AI 서버. faster-whisper(large-v3)와 Qwen3-ASR 두 엔진을 병렬로 운영하고, pyannote-audio로 화자를 분리한 뒤 음성율·침묵·음량·음정 지표까지 추출. 비동기 잡 큐와 콜백으로 장시간 오디오를 안정적으로 처리.

내가 한 작업

  • FastAPI + Uvicorn GPU 서버 아키텍처 설계
  • v1 / v2 API 듀얼 — Whisper 호환 + Qwen3 고정확도 트랙 분리
  • pyannote.audio 3.1 화자 분리 + 프로토콜 추상화 (엔진 교체 가능성)
  • NVIDIA NeMo (TitaNet + MarbleNet) Fallback 경로
  • asyncio.gather + per-engine 세마포어 동시 처리량 제어
  • librosa 기반 음향 분석 확장 (RTF, dB, Hz)
  • Docker 멀티스테이지 (CUDA 12.1) 빌드 + pytest 회귀 스위트

주요 기능

  • `/transcribe` 동기 전사 + 화자분리 (Whisper)
  • `/v2/transcribe/qwen-1.7b` 고정확도 한국어
  • `/v2/transcribe/qwen-0.6b` 경량 / 빠름
  • `/transcribe-and-analyze` 전사 + 음향 분석 통합
  • `/jobs/transcribe` 비동기 잡 → Supabase 콜백
  • `/analyze` 순수 음향 지표 분석
  • `/health` · `/info` 엔진 / GPU / model_loaded 모니터링
  • Prometheus 메트릭 노출

핵심 포인트

  • 자체 STT 엔진 (Whisper large-v3 + Qwen3-ASR 1.7B / 0.6B 트레이드오프)
  • pyannote.audio 3.1 기반 화자 분리 (짧은 발화·겹침 처리)
  • GPU 13GB 동시 적재 (Whisper 6GB + Qwen 1.7B 4GB + pyannote 1.5GB) · bf16 최적화
  • asyncio + per-engine 세마포어로 CUDA OOM 방지
  • 3계층 타임아웃 (STT 600s · diarization 300s · 전체 900s)
  • v1 (Whisper 호환) + v2 (Qwen3 고정확도) API 듀얼 인터페이스
  • RTF · 음성율 · 침묵 · 음량 · 음정 메타데이터

타임라인

2026-012026-04
역할: AI/Infra 엔지니어 — 엔진 오케스트레이션, GPU 운영
기여도: 100%
협업: · 3명

기술 스택

</>FastAPI · Whisper + Qwen3-ASR(1.7B/0.6B) · pyannote 3.1 · CUDA

FastAPIUvicornfaster-whisper (large-v3)Qwen3-ASR (1.7B / 0.6B)pyannote.audio 3.1NVIDIA NeMo (TitaNet · MarbleNet)librosapydubPrometheusCUDA 12.1Docker GPUpytest