이제 모든 상용 AWS 리전에서 AWS Lambda 응답 스트리밍을 사용할 수 있게 되어, 모든 리전에서 해당 기능을 동일하게 활용할 수 있게 되었습니다. 새로 지원되는 리전의 고객은 InvokeWithResponseStream API를 사용하여 데이터가 준비되는 대로 응답 페이로드를 클라이언트에 점진적으로 스트리밍할 수 있습니다.
응답 스트리밍을 사용하면 함수가 전송 전에 전체 응답을 버퍼링하는 대신, 클라이언트에 부분 응답을 증분 방식으로 보낼 수 있습니다. 이는 첫 바이트 수신 시간(TTFB) 지연을 줄여주며, 응답이 점진적으로 표시될 때 사용자 경험이 향상되는 웹 및 모바일 애플리케이션뿐만 아니라 LLM(대규모 언어 모델) 기반 애플리케이션과 같이 지연 시간에 민감한 워크로드에 매우 적합합니다. 응답 스트리밍은 기본적으로 최대 200MB의 페이로드를 지원합니다.
이번 확장을 통해 모든 상용 리전의 고객은 지원되는 AWS SDK를 통한 InvokeWithResponseStream API나, 응답 스트리밍이 활성화된 Amazon API Gateway REST API를 사용하여 응답을 스트리밍할 수 있습니다. 응답 스트리밍은 Node.js 관리형 런타임뿐만 아니라 커스텀 런타임도 지원합니다.
응답 스트리밍 시 응답 페이로드의 네트워크 전송에 대한 추가 비용이 발생합니다. Lambda 함수에서 생성되어 스트리밍되는 바이트 수 중 처음 6MB를 초과하는 부분에 대해 요금이 부과됩니다. Lambda 응답 스트리밍을 시작하려면 AWS Lambda 문서를 방문해 주세요.