OpenAI lança modelos de áudio para tarefas de voz em tempo real

📡 Fonte: Olhar Digital 🏷️ Inteligência Artificial 🤖 Auto
OpenAI lança modelos de áudio para tarefas de voz em tempo real

📸 Créditos da imagem: Primakov/Shutterstock

A OpenAI apresentou três modelos de áudio para sua plataforma de desenvolvedores, com o objetivo de tornar agentes de software baseados em voz mais conversacionais e capazes de completar tarefas em tempo real.

Modelos de áudio

  • GPT-Realtime-2: projetado para gerenciar solicitações mais complexas, chamar ferramentas, lidar com interrupções e manter contexto em sessões de voz mais longas.
  • GPT-Realtime-Translate: suporta tradução de mais de 70 idiomas para 13 idiomas de saída, direcionado para suporte ao cliente, educação e outros ambientes.
  • GPT-Realtime-Whisper: fornece conversão de fala para texto ao vivo, permitindo que legendas, notas de reuniões e atualizações de fluxo de trabalho sejam geradas enquanto o palestrante fala.

Preços dos novos modelos

  • GPT-Realtime-2: começa em US$ 32 (R$ 158,26) por milhão de tokens de entrada de áudio.
  • GPT-Realtime-Translate: custa US$ 0,034 (R$ 0,17) por minuto.
  • GPT-Realtime-Whisper: US$ 0,017 (R$ 0,084) por minuto.

Clientes da OpenAI

  • Zillow, marketplace imobiliário online.
  • Priceline, agência de viagens online.
  • Deutsche Telekom, empresa europeia de telecomunicações.

Rumores sobre celular da OpenAI

A OpenAI pode estar desenvolvendo seu primeiro produto de hardware: um smartphone voltado ao ChatGPT.

📰 Leia a notícia completa em: Olhar Digital »

⚖️ Direitos Autorais: Este site utiliza conteúdo agregado automaticamente de fontes públicas. Todas as imagens possuem crédito e fonte indicados conforme exigido pela legislação brasileira de direitos autorais (Lei 9.610/98).