목록으로

Programming Notes

프로메테우스 구축: 백엔드 통합이 기가와트급 AI 클러스터를 가능하게 하는 방법

저희는 프로메테우스와 같은 Meta의 기가와트급 AI 클러스터를 구축하는 데 있어 백엔드 통합(BAG)이 수행하는 역할에 대한 세부 정보를 공유합니다. BAG를 통해 저희는 여러 데이터센터와 지역에 걸쳐 수천 개의 GPU를 원활하게 연결할 수 있습니다. 저희의 BAG 구현은...

저희는 프로메테우스와 같은 Meta의 기가와트급 AI 클러스터를 구축하는 데 있어 백엔드 통합(BAG)이 수행하는 역할에 대한 세부 정보를 공유합니다. BAG를 통해 저희는 여러 데이터센터와 지역에 걸쳐 수천 개의 GPU를 원활하게 연결할 수 있습니다. 저희의 BAG 구현은 분산 스케줄 패브릭(DSF)과 비스케줄 패브릭(NSF)이라는 두 가지 다른 네트워크 패브릭을 연결합니다. 이 작업이 완료되면 저희 AI [...]

더 보기...

이 글은 Building Prometheus: How Backend Aggregation Enables Gigawatt-Scale AI Clusters 게시물로 Engineering at Meta에 처음 게재되었습니다.