오늘 AWS는 AWS Neuron 2.30.0의 정식 출시(GA)를 발표했습니다. 이번 버전은 AWS Trainium3 전용 하드웨어 기능을 지원하는 NKI 0.4.0, 22개의 새로운 NKI 라이브러리 커널, 그리고 모델 이식 및 검증을 위한 확장된 Neuron 에이전틱 개발(Agentic Development) 기능을 제공합니다. 이번 릴리스는 커스텀 커널을 구축하거나 학습 및 추론 워크로드를 최적화하고, 모델을 AWS Trainium 및 Inferentia로 이식하려는 ML 개발자를 위해 마련되었습니다.
NKI 0.4.0은 Trn3를 위한 activate2 스칼라 엔진 명령어, 행렬 곱셈(matrix multiplication)을 위한 OCP FP8 입력 지원, 그리고 커널 개발을 단순화하는 바이트 인식 타일 크기 상수(bytes-aware tile-size constants)를 도입했습니다. NKI 라이브러리에는 세그먼트화된 어텐션(segmented attention), KV 병렬 프리필(KV-parallel prefill), FP8 양자화를 위한 3개의 핵심 커널이 추가되었으며, 컨텍스트 병렬 처리, MXFP8 학습, 상태 공간 모델(SSM), 퓨즈드 옵티마이저(fused optimizers) 등을 포함하는 19개의 실험적 커널도 포함되었습니다. 현재 29개 커널에 대해 PyTorch 참조 구현을 사용할 수 있습니다.
2026년 4월 베타로 출시된 Neuron 에이전틱 개발(Neuron Agentic Development)에는 두 가지 새로운 스킬이 추가되었습니다. Hugging Face 모델을 NxD 추론으로 엔드 투 엔드 이식하기 위한 neuron-framework-autoport와 이식된 모델의 수치적 동등성을 검증하기 위한 neuron-framework-equivalence입니다. 기본적으로 이 두 기능은 모든 Neuron DLAMI 및 딥러닝 컨테이너(Deep Learning Containers)에 포함됩니다. 또한 이번 릴리스에서는 Kubernetes 동적 리소스 할당(DRA)을 위한 Neuron DRA 드라이버를 도입하여, Trainium 가속기 및 EFA(Elastic Fabric Adapter) 인터페이스의 토폴로지 인식 스케줄링이 가능해졌습니다. Neuron 그래프 컴파일러는 컴파일 시간을 대폭 개선했으며, Neuron 런타임은 이제 기본적으로 제로 카피(zero-copy) 호스트-디바이스 전송을 지원합니다.
AWS Neuron은 Amazon EC2 Trn1, Trn2, Inf2 및 Inf1 인스턴스를 사용할 수 있는 모든 AWS 리전에서 사용할 수 있습니다. 리전별 가용성에 대한 자세한 내용은 AWS 리전 표를 참조하십시오.
시작하려면 다음 리소스를 확인하세요.