La empresa OpenAI ha lanzado el nuevo modelo de inteligencia artificial GPT-4o para avanzar hacia una interacción persona-ordenador más natural y ágil. Es capaz de aceptar como entrada cualquier combinación de texto, audio, imagen y vídeo; y de generar texto, audio e imagen de forma más rápida. Además, ha mejorado significativamente el texto en idiomas distintos al inglés.
Hasta el momento, se podía usar el modo voz para hablar con ChatGPT con latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) de promedio. Este modo es una canalización de tres modelos separados: un modelo simple transcribe audio a texto, GPT-3.5 o GPT-4 comprende y genera texto, y un tercer modelo simple convierte ese texto nuevamente en audio. Esto conlleva que se pierda alguna información.
Con GPT-4o se ha entrenado un nuevo modelo único de extremo a extremo en texto, imagen y audio, lo que significa que todas la entradas y salidas son procesadas por la misma red neuronal. Así, puede responder a entradas de audio en tan solo 232 milisegundos, con un promedio de 320 milisegundos, similar al tiempo de respuesta humano en una conversación.
Según las evaluaciones de los modelos, GPT-4o iguala el rendimiento de GPT-4 Turbo en texto en inglés, razonamiento y código, y es más rápido y económico en la API. Asimismo, ha mejorado sus capacidades multilingües y la comprensión de imagen y audio, en comparación con los modelos existentes.
Seguridad en el modelo GPT-4o
GPT-4o cuenta con seguridad por diseño en todas las modalidades, a través de técnicas como la filtración de datos de entrenamiento y el perfeccionamiento del comportamiento del modelo mediante un entrenamiento posterior. Además, incorpora nuevos sistemas de seguridad para las salidas de voz.
Se ha evaluado de acuerdo con el marco de preparación y los compromisos voluntarios de OpenAI. Como resultado, el nuevo modelo no ha obtenido una puntuación superior al riesgo medio en ninguna categoría. También ha sido examinado por expertos externos, cuyas aportaciones se utilizarán para seguir mejorando la seguridad y mitigando los riesgos de cara al lanzamiento de nuevas modalidades.
Las capacidades de GPT-4o ya han comenzado a implementarse en ChatGPT para que esté disponible en la versión Plus y gratuita, así como para la API.