GPT-4o Audio Preview (2024-12-17)

OpenAI · GPT-4o Audio

Preview

Latest in family

Key Metrics

Input Limit

128K tokens

Output Limit

16.4K tokens

Input Cost

$2.50/1M

Output Cost

$10.00/1M

Sample API Code

Required Libraries

Notes

This is a preview release of the GPT-4o Audio models. These models accept audio inputs and outputs, and can be used in the Chat Completions REST API. Snapshot version from 2024-12-17.

Capabilities

Audio input

Audio output

Text input

Text output

Streaming

Function calling

Supported Data Types

Input Types

Text

Audio

Output Types

Text

Audio

Strengths & Weaknesses

Exceptional at

High intelligence

Good at

Medium speed

Poor at

Structured outputs

Fine-tuning

Distillation

Predicted outputs

Additional Information

Latest Update

Dec 17, 2024

Knowledge Cutoff

2023-10-01

Similar Models

gemini-2.5-pro-preview-05-06

Google

preview

gemini-2.5-flash-preview-04-17

Google

preview

gemini-2.0-flash

Google

Similar Capabilities

Multimodal input

13 models

Long context

13 models

JSON mode

6 models