Whisper API로 음성 인식 서비스 직접 구축하기

High class 약 25분활용 사례

💡 OpenAI Whisper API를 사용하면 회의록·인터뷰·강의를 자동으로 텍스트로 변환하고, 로컬 환경에서도 무료로 음성 인식 시스템을 구축할 수 있어요.

🔒 github.com/openai/whisper

실제 화면

실수 방지 체크리스트

1language 파라미터 미지정 → 언어 자동 감지로 한국어 정확도 저하 — 반드시 language='ko' 명시
225MB 초과 파일 한 번에 전송 → API 오류 — pydub으로 10분씩 분할 후 각각 변환·합치기
3로컬 Whisper에서 fp16=True (CPU 환경) → 오류 발생 — CPU에서는 fp16=False 설정 필수

STEP 1 / 4…

STEP 1. Whisper API로 음성→텍스트 변환

🔒 openai.com

실제 화면

OpenAI API로 Whisper를 호출해 음성 파일을 텍스트로 변환합니다.

Terminal

# OpenAI SDK 설치
pip install openai

# 기본 음성 변환
from openai import OpenAI
client = OpenAI(api_key='YOUR_API_KEY')

with open('meeting.mp3', 'rb') as audio_file:
    transcript = client.audio.transcriptions.create(
        model='whisper-1',
        file=audio_file,
        language='ko',        # 한국어 지정 (정확도 향상)
        response_format='text' # text / json / srt / vtt
    )

print(transcript)

# SRT 자막 파일로 내보내기
transcript = client.audio.transcriptions.create(
    model='whisper-1',
    file=audio_file,
    response_format='srt'  # 자막 파일 형식
)
with open('subtitle.srt', 'w') as f:
    f.write(transcript)

# 비용
# Whisper-1: $0.006/분
# 1시간 회의: $0.36
# 10시간 강의: $3.60

💡

response_format='srt'로 설정하면 타임스탬프가 포함된 SRT 자막 파일이 바로 생성됩니다. Vrew·CapCut에 바로 가져올 수 있습니다.

이 단계를 완료했나요?