Google anuncia Gemini, sua resposta ‘multimodal’ ao ChatGPT

O desenho aparentemente parece próximo o suficiente de um pato para Gêmeos. GOOGLE DEEPMIND / YOUTUBE

#Google 

Em um vídeo de demonstração editado, Gemini parece capaz de descrever esquetes, identificar homenagens de filmes e contar piadas.

Na quarta-feira, o Google anunciou a chegada do Gemini, seu novo modelo multimodal de grande linguagem construído desde o início pela divisão de IA da empresa, DeepMind. Entre suas muitas funções, o Gemini apoiará o Google Bard, que anteriormente lutou para emergir da sombra de seu antecessor chatbot, o ChatGPT da OpenAI.

Crédito: Google DeepMind/YouTube

De acordo com uma postagem no blog de 6 de dezembro do CEO do Google, Sundar Pichai, e do cofundador e CEO da DeepMind, Demis Hassabis, existem tecnicamente três versões do LLM – Gemini Ultra, Pro e Nano – destinadas a várias aplicações. Um Gemini Pro “ajustado” agora sustenta o Bard, enquanto a variante Nano será vista em produtos como os smartphones Pixel Pro. As variantes Gemini também chegarão para Pesquisa Google, Anúncios e Chrome nos próximos meses, embora o acesso público ao Ultra não esteja disponível até 2024.

Ao contrário de muitos de seus concorrentes de IA, o Gemini foi treinado para ser “multimodal” desde o lançamento, o que significa que já pode lidar com prompts baseados em texto, áudio e imagem. Em uma demonstração em vídeo, Gemini é encarregado verbalmente de identificar o que está colocado à sua frente (um pedaço de papel) e, em seguida, identifica corretamente o esboço de um pato feito pelo usuário em tempo real. Outras habilidades parecem incluir inferir quais ações acontecem a seguir nos vídeos quando eles são pausados, gerar música com base em instruções visuais e avaliar os deveres de casa das crianças – muitas vezes com uma personalidade um pouco atrevida e propensa a trocadilhos. É importante notar, no entanto, que a descrição do vídeo inclui o aviso: “Para os fins desta demonstração, a latência foi reduzida e as saídas do Gemini foram encurtadas por questões de brevidade”.

Em uma postagem de acompanhamento no blog, o Google confirmou que o Gemini realmente respondeu apenas a uma combinação de imagens estáticas e solicitações escritas do usuário, e que seu vídeo de demonstração foi editado para apresentar uma interação mais suave com recursos de áudio.

O relatório técnico que acompanha o Gemini indica que a iteração mais poderosa do LLM, Ultra, “excede os resultados atuais de última geração em 30 dos 32 benchmarks acadêmicos amplamente utilizados em pesquisa e desenvolvimento [LLM]”. Dito isto, as melhorias parecem um tanto modestas – o Gemini Ultra respondeu corretamente a perguntas multidisciplinares 90% das vezes, contra 86,4% do ChatGPT. Independentemente da divisão estatística, no entanto, os resultados indicam que o ChatGPT pode ter alguma competição real com o Gemini.

Sem surpresa, o Google alertou no anúncio de quarta-feira que sua nova estrela de IA está longe de ser perfeita e ainda está sujeita às “alucinações” em todo o setor que assolam a tecnologia emergente – ou seja, o LLM ocasionalmente inventará respostas incorretas ou sem sentido aleatoriamente. O Google também submeteu o Gemini às “avaliações de segurança mais abrangentes de qualquer modelo de IA do Google”, de acordo com Eli Collins, vice-presidente de produto do Google DeepMind, falando no evento de lançamento em 6 de dezembro. Isso incluiu atribuir ao Gemini “avisos reais de toxicidade”, um teste desenvolvido pelo Allen Institute for AI envolvendo mais de 100.000 entradas problemáticas destinadas a avaliar os potenciais preconceitos políticos e demográficos de um grande modelo de linguagem.

Gemini continuará sendo integrado ao conjunto de produtos do Google nos próximos meses, juntamente com uma série de fases de testes fechados. Se tudo correr como planejado, um Bard Advanced Gemini Ultra-powered estará disponível ao público no próximo ano – mas, como já foi bem estabelecido, a corrida armamentista de IA em curso é muitas vezes difícil de prever.

Quando questionado se é desenvolvido pela Gemini, Bard disse à PopSci que “infelizmente” não possui acesso a informações “sobre projetos internos do Google”.

“Se você estiver interessado em aprender mais sobre… ‘Gêmeos’, recomendo procurar informações por meio dos canais oficiais do Google ou entrar em contato com alguém da empresa que tenha acesso a essas informações”, escreveu Bard ao PopSci. “Peço desculpas pelo inconveniente e espero que esta informação seja útil.”


Publicado em 25/12/2023 23h24

Artigo original: