Amazon SageMaker AI와 vLLM을 활용한 실시간 음성 애플리케이션 구축

음성 에이전트, 라이브 캡셔닝(실시간 자막), 컨택 센터 분석, 그리고 접근성 도구는 모두 실시간 음성 문자 변환(Speech-to-Text) 기술에 의존합니다. 이러한 애플리케이션은 단일 지속 연결(persistent connection)을 통해 오디오를 스트리밍으로 전송하는 동시에, 변환된 텍스트를 즉시 돌려받는 방식으로 작동합니다.

기존의 요청-응답(request-response) 방식의 추론은 전체 오디오 녹음이 서버에 모두 전달될 때까지 텍스트 변환을 시작할 수 없기 때문에 이러한 실시간 환경에서는 한계가 있습니다. 이는 실시간성을 저해하는 지연 시간(latency)을 유발하며...

(참고: 제공해주신 본문 내용이 "[...]" 부분에서 끊겨 있어, 제공된 범위까지 자연스럽게 번역해 드렸습니다. 만약 추가 내용이나 특정 이미지/링크가 포함된 전체 전문이 있다면 다시 붙여넣어 주세요. 바로 이어서 번역해 드리겠습니다.)