Glosario
¿Qué es LiveKit?
LiveKit es una plataforma de infraestructura de voz y video en tiempo real de código abierto. En el ecosistema de agentes de voz con IA, se ha convertido en la capa subyacente de facto para implementaciones de producción —manejando el enrutamiento de audio, la detección de turno, el manejo de interrupciones y la integración SIP/telefonía para que los constructores de agentes puedan enfocarse en el modelo de lenguaje y la lógica de llamada de herramientas. LiveKit es lo que impulsa la capa de voz en Vasquez Law Firm en la implementación de referencia de Hodos360.
Lo que LiveKit proporciona
LiveKit maneja las partes difíciles de ejecutar una infraestructura de voz en tiempo real: transporte de audio de baja latencia (típicamente WebRTC subyacente), integración SIP para telefonía, detección de turno (decidir cuándo un participante ha terminado de hablar), manejo de interrupciones (detener elegantemente la reproducción cuando alguien habla sobre el agente) y SDKs de cliente multiplataforma (web, iOS, Android, Python, Node).
Para agentes de IA específicamente, LiveKit incluye un framework de Agentes que conecta proveedores de STT (Deepgram, Whisper), proveedores de LLM (OpenAI, Anthropic, Gemini) y proveedores de TTS (ElevenLabs, Cartesia, OpenAI) en un único ciclo de agente. Los desarrolladores escriben la instrucción del sistema y las funciones de las herramientas; LiveKit se encarga del resto.
LiveKit vs. Vapi vs. Retell
LiveKit, Vapi y Retell ocupan posiciones similares en la pila de infraestructura de IA de voz, pero difieren en su enfoque. LiveKit es el más fundamental —es una primitiva de código abierto (infraestructura de audio en tiempo real) con un framework de Agentes encima. Vapi es una plataforma de nivel superior optimizada específicamente para agentes conversacionales. Retell es una plataforma amigable para desarrolladores con valores predeterminados sólidos y un SDK pulido. Las tres son opciones razonables; la elección correcta depende de cuánta personalización necesite la implementación.
La implementación de referencia de Hodos360 en Vasquez Law Firm utiliza LiveKit + LangGraph porque queríamos el máximo control sobre el comportamiento y el enrutamiento del agente. Otras implementaciones de producción funcionan bien con Vapi o Retell.
LiveKit en producción en Vasquez Law Firm
En la pila de Hodos360 / Vasquez Law Firm, LiveKit maneja la terminación SIP de CallRail, gestiona el ciclo de audio en tiempo real con Deepgram (STT) y ElevenLabs (TTS), y se coordina con LangGraph para la gestión del estado del agente. El agente procesa inglés y español en la misma conversación sin requerir una transferencia, lo cual es una de las restricciones de diseño que LiveKit maneja limpiamente.