O Google revelou a nova família de modelos de inteligência artificial PaliGemma 2, que incorpora uma funcionalidade intrigante e controversa: a capacidade de “identificar” emoções humanas em imagens.
Além disso, o modelo se destaca por oferecer avanços significativos em tarefas visuais e linguísticas.
O que é o PaliGemma 2?
Anunciado durante o Google I/O 2024 em maio, o PaliGemma 2 é a evolução do modelo PaliGemma, originalmente lançado para casos de uso como legendagem de imagens e vídeos curtos, detecção e segmentação de objetos, compreensão de texto em imagens e respostas visuais a perguntas.
A nova versão expande esses recursos ao oferecer “long captioning”, com a capacidade de gerar legendas detalhadas e contextualmente relevantes para imagens. Isso inclui descrições que vão além da identificação de objetos, capturando ações, emoções e narrativas presentes nas cenas.
O modelo está disponível em tamanhos de 3B, 10B e 28B parâmetros, com resoluções de 224px, 448px e 896px, atendendo a diferentes níveis de necessidade computacional.
Avanços em OCR e outras aplicações
Outra novidade é a precisão em reconhecimento óptico de caracteres (OCR) e a habilidade de compreender estruturas e conteúdos de tabelas em documentos. O PaliGemma 2 também lidera em tarefas específicas, como:
- Reconhecimento de fórmulas químicas;
- Reconhecimento de partituras musicais;
- Raciocínio espacial;
- Geração de relatórios de raios X de tórax.
O Google projetou o PaliGemma 2 como um “substituto direto” para a versão original, prometendo melhorias imediatas de desempenho na maioria das tarefas, sem necessidade de grandes modificações no código. O modelo também é facilmente ajustável para necessidades específicas, ampliando sua utilidade.
Os modelos pré-treinados e o código-fonte estão disponíveis em plataformas como Kaggle, Hugging Face e Ollama.
Identificação de emoções: controvérsia e desafios
Apesar dos avanços técnicos, a funcionalidade de “reconhecimento emocional” levanta debates éticos e científicos.
Especialistas como Sandra Wachter, professora de ética em IA na Universidade de Oxford, classificam a ideia como problemática: “Pressupor que podemos ler emoções é tão confiável quanto pedir conselhos a uma bola mágica.”
Estudos anteriores questionam a validade científica desse tipo de tecnologia, apontando diferenças culturais na expressão de emoções que podem limitar a precisão desses sistemas.
O Google afirma ter realizado testes rigorosos para minimizar preconceitos demográficos no PaliGemma 2 e garantir baixos níveis de toxicidade em comparação com benchmarks do setor.
No entanto, sistemas semelhantes no passado demonstraram vieses, como mostrado em um estudo do MIT em 2020, que destacou discriminações contra grupos marginalizados.
Riscos e impacto na sociedade
Para muitos pesquisadores, a disponibilização pública de modelos como o PaliGemma 2 pode representar riscos concretos.
Heidy Khlaaf, cientista-chefe do Instituto AI Now, alerta que tecnologias baseadas em premissas pseudocientíficas podem ser usadas para tomar decisões injustas em áreas sensíveis, como segurança, contratação e controle de fronteiras.
“A inovação responsável exige reflexão constante sobre consequências. Sem isso, estamos arriscando um futuro onde nossas emoções possam decidir nosso acesso a direitos e oportunidades”, concluiu Sandra Wachter.
✨ Curtiu este conteúdo?
O GDiscovery está aqui todos os dias trazendo informações confiáveis e independentes sobre o universo Google - e isso só é possível com o apoio de pessoas como você. 🙌
Com apenas R$ 5 por mês, você ajuda a manter este trabalho no ar e leva informação de qualidade para ainda mais gente!