← 🎙️ Whisper
Claude


✨
이게 가능해져요
음성 파일 → Whisper API → 정확한 텍스트 변환 + 화자 구분
1시간짜리 회의 녹음을 텍스트로 바꾸는 데 비싼 서비스 쓰거나 직접 다 타이핑해야 해...
나
음성 인식 서비스는 분당 비용이 높거나 정확도가 낮습니다.MCP 미연결
Whisper API로 음성 인식 서비스 직접 구축하기
High class 약 25분활용 사례
💡 OpenAI Whisper API를 사용하면 회의록·인터뷰·강의를 자동으로 텍스트로 변환하고, 로컬 환경에서도 무료로 음성 인식 시스템을 구축할 수 있어요.
🔒 github.com/openai/whisper
실제 화면
실수 방지 체크리스트
- 1language 파라미터 미지정 → 언어 자동 감지로 한국어 정확도 저하 — 반드시 language='ko' 명시
- 225MB 초과 파일 한 번에 전송 → API 오류 — pydub으로 10분씩 분할 후 각각 변환·합치기
- 3로컬 Whisper에서 fp16=True (CPU 환경) → 오류 발생 — CPU에서는 fp16=False 설정 필수
STEP 1 / 4…
1
STEP 1. Whisper API로 음성→텍스트 변환
🔒 openai.com
실제 화면
OpenAI API로 Whisper를 호출해 음성 파일을 텍스트로 변환합니다.
Terminal
# OpenAI SDK 설치
pip install openai
# 기본 음성 변환
from openai import OpenAI
client = OpenAI(api_key='YOUR_API_KEY')
with open('meeting.mp3', 'rb') as audio_file:
transcript = client.audio.transcriptions.create(
model='whisper-1',
file=audio_file,
language='ko', # 한국어 지정 (정확도 향상)
response_format='text' # text / json / srt / vtt
)
print(transcript)
# SRT 자막 파일로 내보내기
transcript = client.audio.transcriptions.create(
model='whisper-1',
file=audio_file,
response_format='srt' # 자막 파일 형식
)
with open('subtitle.srt', 'w') as f:
f.write(transcript)
# 비용
# Whisper-1: $0.006/분
# 1시간 회의: $0.36
# 10시간 강의: $3.60💡
response_format='srt'로 설정하면 타임스탬프가 포함된 SRT 자막 파일이 바로 생성됩니다. Vrew·CapCut에 바로 가져올 수 있습니다.
이 단계를 완료했나요?