Startup BuildFlagship

Parentlyze · STT / AI Engine

부모-자녀 대화 오디오를 누가 무엇을 어떤 톤으로 말했는지까지 풀어내는 자체 GPU AI 서버.

팀 · 3명기간 4주기여도 80%2026-01 → 2026-02

★핵심 지표: 자체 STT 엔진 운영 · 화자 분리 + 음향 분석까지 한 서버에서 · OpenAI 의존도 0

엔지니어링 역할

AI/MLBackendInfra

#AI #Backend #Team #Startup #Python #FastAPI #Uvicorn #faster-whisper (large-v3)#Qwen3-ASR (1.7B / 0.6B)#pyannote.audio 3.1

Startup Build

Parentlyze · STT / AI Engine

#AI#Backend#Team#Startup

개요

부모-자녀 대화 오디오를 전사·화자분리·음향 분석까지 수행하는 자체 AI 서버. faster-whisper(large-v3)와 Qwen3-ASR 두 엔진을 병렬로 운영하고, pyannote-audio로 화자를 분리한 뒤 음성율·침묵·음량·음정 지표까지 추출. 비동기 잡 큐와 콜백으로 장시간 오디오를 안정적으로 처리.

내가 한 작업

▸FastAPI + Uvicorn GPU 서버 아키텍처 설계
▸v1 / v2 API 듀얼 — Whisper 호환 + Qwen3 고정확도 트랙 분리
▸pyannote.audio 3.1 화자 분리 + 프로토콜 추상화 (엔진 교체 가능성)
▸NVIDIA NeMo (TitaNet + MarbleNet) Fallback 경로
▸asyncio.gather + per-engine 세마포어 동시 처리량 제어
▸librosa 기반 음향 분석 확장 (RTF, dB, Hz)
▸Docker 멀티스테이지 (CUDA 12.1) 빌드 + pytest 회귀 스위트

주요 기능

`/transcribe` 동기 전사 + 화자분리 (Whisper)
`/v2/transcribe/qwen-1.7b` 고정확도 한국어
`/v2/transcribe/qwen-0.6b` 경량 / 빠름
`/transcribe-and-analyze` 전사 + 음향 분석 통합
`/jobs/transcribe` 비동기 잡 → Supabase 콜백
`/analyze` 순수 음향 지표 분석
`/health` · `/info` 엔진 / GPU / model_loaded 모니터링
Prometheus 메트릭 노출

핵심 포인트

자체 STT 엔진 (Whisper large-v3 + Qwen3-ASR 1.7B / 0.6B 트레이드오프)
pyannote.audio 3.1 기반 화자 분리 (짧은 발화·겹침 처리)
GPU 13GB 동시 적재 (Whisper 6GB + Qwen 1.7B 4GB + pyannote 1.5GB) · bf16 최적화
asyncio + per-engine 세마포어로 CUDA OOM 방지
3계층 타임아웃 (STT 600s · diarization 300s · 전체 900s)
v1 (Whisper 호환) + v2 (Qwen3 고정확도) API 듀얼 인터페이스
RTF · 음성율 · 침묵 · 음량 · 음정 메타데이터

타임라인

2026-01 → 2026-02

역할: AI/Infra 엔지니어 — 엔진 오케스트레이션, GPU 운영

기여도: 80%

협업: 팀 · 3명

기술 스택

</>FastAPI · Whisper + Qwen3-ASR(1.7B/0.6B) · pyannote 3.1 · CUDA

FastAPIUvicornfaster-whisper (large-v3)Qwen3-ASR (1.7B / 0.6B)pyannote.audio 3.1NVIDIA NeMo (TitaNet · MarbleNet)librosapydubPrometheusCUDA 12.1Docker GPUpytest