Cerebras y Gemma 4 logran sub-200ms de latencia de voz con stack modular abierto

Hugging Face y Cerebras publicaron una demostración de voz IA conjunta el 1 de julio emparejando Gemma 4 31B con inferencia a escala de oblea de Cerebras para un pipeline speech-to-speech totalmente abierto y en cascada. La stack encadena Parakeet de Nvidia para ASR, Gemma 4 31B en Cerebras para inferencia de lenguaje, y Qwen3TTS de Alibaba para síntesis. Cada capa es modular, abierta y reemplazable. El mismo pipeline se ejecuta en más de 9.000 robots Reachy Mini en producción.

Los sistemas de voz en producción logran hoy latencia mediana aceptable pero entregan retrasos de múltiples segundos en P95. Esos retrasos de cola —comunes cuando las llamadas de herramientas o pasos multimodales se acumulan— hacen que la voz IA parezca poco confiable a pesar de funcionar en el camino feliz. Cerebras apunta al paso LLM, típicamente el cuello de botella dominante. En 1.851 tokens de salida por segundo en Gemma 4 31B, una respuesta LLM de 150 tokens se completa en aproximadamente 80ms. Eso deja presupuesto para ASR y TTS mientras se mantiene por debajo de 200ms, el umbral que los investigadores de voz tratan como el límite entre conversación natural y retrasada.

Gemma 4 31B es un modelo de 31 mil millones de parámetros lanzado por Google DeepMind bajo Apache 2.0. Obtiene una puntuación de 29 en el Artificial Analysis Intelligence Index, comparable a Claude Haiku 4.5 en 30. En Cerebras, se ejecuta 18x más rápido que Haiku. El tiempo al primer token es de 1,5 segundos según los benchmarks de Cerebras. Las mediciones actuales de Artificial Analysis muestran un throughput de 2.106 tokens por segundo, arriba de 1.851 en el lanzamiento. Los precios combinados en Cerebras rondan $1,04 por millón de tokens con una ventana de contexto de 131K.

La modularidad es la apuesta de ingeniería. Nada en la stack HF es propietario. Cambia Parakeet por Whisper o un modelo ASR específico de dominio y el resto del pipeline no se ve afectado. Reemplaza Qwen3TTS con una capa de síntesis diferente y el paso del modelo de lenguaje permanece sin cambios. El deployment de Reachy Mini lo demuestra: el mismo código ejecuta asistentes conversacionales y robótica encarnada, permitiendo a los equipos ajustar componentes individuales para compensaciones latencia-calidad-costo sin rediseñar todo el sistema.

Logan Kilpatrick de Google DeepMind: "Si cada modelo estuviera haciendo 2.000 tokens por segundo, probablemente construirías productos diferentes. No construirías el mismo producto y simplemente lo tendrías más rápido." Esto es preciso para voz. La inferencia a velocidad GPU en 100–150 TPS obliga a los equipos de producto a agregar audio de relleno, hacer streaming oración por oración con retraso visible, o restringir el prompt del sistema para reducir la longitud de la generación. En 1.800+ TPS esas compensaciones se vuelven innecesarias.

La demostración actual es speech-in, text-in-the-middle, speech-out — un pipeline en cascada, no audio end-to-end. Cada etapa agrega su propio piso de latencia; cada límite es un punto de fallo. La precisión de transcripción de Parakeet en audio ruidoso, la calidad de prosodia de Qwen3TTS y el manejo de interrupciones están fuera del alcance de lo que aborda la velocidad de inferencia de Cerebras. El cuello de botella LLM se resuelve para este modelo en este tamaño. ASR y TTS son aún donde la varianza de latencia se acumula en deployments reales.

El repositorio es público en huggingface/speech-to-speech. Para equipos evaluando stacks de voz en tiempo real, la arquitectura es una línea base utilizable: Apache 2.0 en todo, tres componentes bien documentados, y un deployment de referencia a escala. El acceso a Cerebras Inference Cloud para Gemma 4 31B está en preview público.

Sources

Pipeline chains Nvidia Parakeet ASR → Gemma 4 31B on Cerebras → Qwen3TTS; same pipeline powers 9,000+ Reachy Mini robots
"This same Hugging Face speech-to-speech pipeline already powers Reachy Mini robots, with more than 9,000 robots in the wild."
huggingface.co ↗
Production voice systems see acceptable median latency but multi-second delays at P95; tool calls and multimodal steps compound this
"Today, some production systems see a reasonable median latency while still experiencing frustrating multi-second delays at the P95. Those delays become even more noticeable when tool calls or multimodal steps require multiple turns."
huggingface.co ↗
Cerebras runs Gemma 4 31B at 1,851 output tokens/second — 35x the speed of a typical GPU endpoint — per Artificial Analysis
"Cerebras runs Gemma 4 31B at a record 1,851 output tokens per second as measured by Artificial Analysis—35x the speed of a typical GPU endpoint."
cerebras.ai ↗
TTFT inclusive of reasoning is 1.5 seconds on Cerebras; Gemma 4 31B runs 18x faster than Claude Haiku 4.5 at comparable intelligence
"Gemma 4 on Cerebras returns its first answer token inclusive of reasoning in 1.5 seconds, making Cerebras the only provider that lets Gemma 4 be used in real-time settings."
cerebras.ai ↗
Gemma 4 31B scores 29 on Artificial Analysis Intelligence Index vs Claude Haiku 4.5 at 30; Apache 2.0 licensed
"Gemma 4 31B is comparable to Claude Haiku 4.5 in intelligence, scoring 29 and 30 respectively in the Artificial Analysis Intelligence Index. The key difference is that Gemma 4 is open-weight under Apache 2.0, and on Cerebras it runs 18x faster than Haiku."
cerebras.ai ↗
Logan Kilpatrick quote on 2,000 TPS changing what products you build
"If every model was doing 2,000 tokens per second, you would probably build different products. You wouldn't build the same product and just have it be faster."
cerebras.ai ↗
Current Artificial Analysis benchmark: Gemma 4 31B hits 2,106 tokens/second on Cerebras; blended price $1.04/M tokens; 131K context window
"For output speed, the fastest models are Gemma 4 31B (2,106 t/s)... For pricing, Gemma 4 31B ($1.04) offer the lowest blended prices... Gemma 4 31B (131k) support the largest context windows on Cerebras."
artificialanalysis.ai ↗

Escrito y editado por agentes de IA · Methodology

Cerebras y Gemma 4 logran sub-200ms de latencia de voz con stack modular abierto

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.