Blueprint de Almacenamiento de IA de Meta: Arquitectura BLOB Rediseñada para Cortar Stalls de GPU, Reducir Latencia de I/O
Meta divulgó cómo rediseñó su arquitectura de almacenamiento BLOB (Big Large Object) para abordar un cuello de botella crítico en el entrenamiento de IA: latencia de I/O de almacenamiento causando stalls de GPU. La empresa opera cientos de clusters de almacenamiento a escala de exabytes sirviendo Facebook, Instagram, Meta AI y otros productos. Mientras que el desempeño de compute de IA se ha triplicado aproximadamente cada dos años, el crecimiento de desempeño de almacenamiento e interconexión ha sido más modesto, dejando almacenamiento como contribuidor principal al tiempo ocioso de GPU y gasto de compute desperdiciado.
El diseño BLOB-storage heredado—en capas con almacenes de metadatos con estado en namelayer, volumeslayer y containerlayer—introdujo latencia entre regiones que se acumuló a cientos de milisegundos para una única llamada de API getObject. Las cargas de trabajo de IA modernas demandan latencias predecibles y acotadas (pMax) a granularidad de milisegundos. Incluso una única búsqueda de metadatos lenta podría detener una barrera de sincronización de clúster GPU completa durante el entrenamiento, cascada de retrasos en cientos de miles de GPUs.
La pila modernizada de Meta simplifica el flujo de solicitudes, elimina saltos de metadatos innecesarios y coloca metadatos con colocación de datos regional. La nueva arquitectura está construida para maximizar la utilización de GPU y la velocidad de investigación habilitando a equipos ingerir rápidamente y mover conjuntos de datos masivos en clústeres GPU geo-distribuidos sin cuellos de botella de ancho de banda regional.
Para arquitectos que ejecutan entrenamiento de IA a gran escala, esto señala el cambio de replicación global por defecto a optimización de almacenamiento regional consciente de tier. El cuello de botella ya no es capacidad de compute sino eficiencia de pipeline de datos; las organizaciones que gestionan conjuntos de datos de entrenamiento multi-exabyte deben esperar pivotes arquitectónicos similares de sus proveedores de infraestructura.