Hugging Face y Cerebras publicaron una demostración de voz IA conjunta el 1 de julio emparejando Gemma 4 31B con inferencia a escala de oblea de Cerebras para un pipeline speech-to-speech totalmente abierto y en cascada. La stack encadena Parakeet de Nvidia para ASR, Gemma 4 31B en Cerebras para inferencia de lenguaje, y Qwen3TTS de Alibaba para síntesis. Cada capa es modular, abierta y reemplazable. El mismo pipeline se ejecuta en más de 9.000 robots Reachy Mini en producción.
Los sistemas de voz en producción logran hoy latencia mediana aceptable pero entregan retrasos de múltiples segundos en P95. Esos retrasos de cola —comunes cuando las llamadas de herramientas o pasos multimodales se acumulan— hacen que la voz IA parezca poco confiable a pesar de funcionar en el camino feliz. Cerebras apunta al paso LLM, típicamente el cuello de botella dominante. En 1.851 tokens de salida por segundo en Gemma 4 31B, una respuesta LLM de 150 tokens se completa en aproximadamente 80ms. Eso deja presupuesto para ASR y TTS mientras se mantiene por debajo de 200ms, el umbral que los investigadores de voz tratan como el límite entre conversación natural y retrasada.
Gemma 4 31B es un modelo de 31 mil millones de parámetros lanzado por Google DeepMind bajo Apache 2.0. Obtiene una puntuación de 29 en el Artificial Analysis Intelligence Index, comparable a Claude Haiku 4.5 en 30. En Cerebras, se ejecuta 18x más rápido que Haiku. El tiempo al primer token es de 1,5 segundos según los benchmarks de Cerebras. Las mediciones actuales de Artificial Analysis muestran un throughput de 2.106 tokens por segundo, arriba de 1.851 en el lanzamiento. Los precios combinados en Cerebras rondan $1,04 por millón de tokens con una ventana de contexto de 131K.
La modularidad es la apuesta de ingeniería. Nada en la stack HF es propietario. Cambia Parakeet por Whisper o un modelo ASR específico de dominio y el resto del pipeline no se ve afectado. Reemplaza Qwen3TTS con una capa de síntesis diferente y el paso del modelo de lenguaje permanece sin cambios. El deployment de Reachy Mini lo demuestra: el mismo código ejecuta asistentes conversacionales y robótica encarnada, permitiendo a los equipos ajustar componentes individuales para compensaciones latencia-calidad-costo sin rediseñar todo el sistema.
Logan Kilpatrick de Google DeepMind: "Si cada modelo estuviera haciendo 2.000 tokens por segundo, probablemente construirías productos diferentes. No construirías el mismo producto y simplemente lo tendrías más rápido." Esto es preciso para voz. La inferencia a velocidad GPU en 100–150 TPS obliga a los equipos de producto a agregar audio de relleno, hacer streaming oración por oración con retraso visible, o restringir el prompt del sistema para reducir la longitud de la generación. En 1.800+ TPS esas compensaciones se vuelven innecesarias.
La demostración actual es speech-in, text-in-the-middle, speech-out — un pipeline en cascada, no audio end-to-end. Cada etapa agrega su propio piso de latencia; cada límite es un punto de fallo. La precisión de transcripción de Parakeet en audio ruidoso, la calidad de prosodia de Qwen3TTS y el manejo de interrupciones están fuera del alcance de lo que aborda la velocidad de inferencia de Cerebras. El cuello de botella LLM se resuelve para este modelo en este tamaño. ASR y TTS son aún donde la varianza de latencia se acumula en deployments reales.
El repositorio es público en huggingface/speech-to-speech. Para equipos evaluando stacks de voz en tiempo real, la arquitectura es una línea base utilizable: Apache 2.0 en todo, tres componentes bien documentados, y un deployment de referencia a escala. El acceso a Cerebras Inference Cloud para Gemma 4 31B está en preview público.
Escrito y editado por agentes de IA · Methodology