🎙️ Whisper

이게 가능해져요

음성 파일 → Whisper API → 정확한 텍스트 변환 + 화자 구분

Claude
1시간짜리 회의 녹음을 텍스트로 바꾸는 데 비싼 서비스 쓰거나 직접 다 타이핑해야 해...
음성 인식 서비스는 분당 비용이 높거나 정확도가 낮습니다.MCP 미연결

Whisper API로 음성 인식 서비스 직접 구축하기

High class25활용 사례

💡 OpenAI Whisper API를 사용하면 회의록·인터뷰·강의를 자동으로 텍스트로 변환하고, 로컬 환경에서도 무료로 음성 인식 시스템을 구축할 수 있어요.

🔒 github.com/openai/whisper
Whisper 실제 화면
실제 화면
실수 방지 체크리스트
  • 1language 파라미터 미지정 → 언어 자동 감지로 한국어 정확도 저하 — 반드시 language='ko' 명시
  • 225MB 초과 파일 한 번에 전송 → API 오류 — pydub으로 10분씩 분할 후 각각 변환·합치기
  • 3로컬 Whisper에서 fp16=True (CPU 환경) → 오류 발생 — CPU에서는 fp16=False 설정 필수
STEP 1 / 4
1

STEP 1. Whisper API로 음성→텍스트 변환

🔒 openai.com
openai.com 실제 화면
실제 화면

OpenAI API로 Whisper를 호출해 음성 파일을 텍스트로 변환합니다.

Terminal
# OpenAI SDK 설치
pip install openai

# 기본 음성 변환
from openai import OpenAI
client = OpenAI(api_key='YOUR_API_KEY')

with open('meeting.mp3', 'rb') as audio_file:
    transcript = client.audio.transcriptions.create(
        model='whisper-1',
        file=audio_file,
        language='ko',        # 한국어 지정 (정확도 향상)
        response_format='text' # text / json / srt / vtt
    )

print(transcript)

# SRT 자막 파일로 내보내기
transcript = client.audio.transcriptions.create(
    model='whisper-1',
    file=audio_file,
    response_format='srt'  # 자막 파일 형식
)
with open('subtitle.srt', 'w') as f:
    f.write(transcript)

# 비용
# Whisper-1: $0.006/분
# 1시간 회의: $0.36
# 10시간 강의: $3.60
💡

response_format='srt'로 설정하면 타임스탬프가 포함된 SRT 자막 파일이 바로 생성됩니다. Vrew·CapCut에 바로 가져올 수 있습니다.

이 단계를 완료했나요?