O Google anunciou o lançamento do Gemini Ultra, um avançado modelo de inteligência artificial (IA) com capacidade de compreensão nativamente multimodal.
Diferentemente de outros modelos, como o GPT-4 with Vision da OpenAI, que só entende palavras e imagens, o Gemini Ultra foi treinado em uma ampla variedade de conjuntos de dados, incluindo código, texto em diferentes idiomas, áudio, imagens e vídeos.
De acordo com Eli Collins, VP de produto da DeepMind, o Gemini Ultra é capaz de compreender informações “nuanciadas” em texto, imagens, áudio e código, e responder a perguntas sobre tópicos “complicados”, especialmente matemática e física.
Além disso, o Gemini Ultra pode transcrever discurso e responder a perguntas sobre áudio e vídeos, indo além de arte e fotos.
Ao contrário da abordagem padrão de treinar componentes separados para diferentes modalidades, o Gemini Ultra foi projetado para ser nativamente multimodal, permitindo que ele lide com tarefas de raciocínio complexas e conceituais de forma mais eficiente.
Essa capacidade de compreensão e resposta a informações multimodais complexas marca um avanço significativo no campo da IA e promete abrir novas possibilidades em áreas como tradução, análise de texto e muito mais.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!