Uma estrutura para identificar automaticamente a vida selvagem em colaboração com humanos

Em aplicações do mundo real, os modelos de IA não param em um estágio de treinamento. Conforme a coleta de dados avança ao longo do tempo, há um ciclo contínuo de inferência, anotação e atualização do modelo. Quando há amostras novas e difíceis, a anotação humana é inevitável. Crédito: Miao et al.

Nas últimas décadas, os cientistas da computação desenvolveram várias ferramentas de aprendizado de máquina que podem reconhecer objetos ou animais específicos em imagens e vídeos. Embora algumas dessas técnicas tenham alcançado resultados notáveis em animais ou itens simples (por exemplo, gatos, cachorros, casas), elas normalmente são incapazes de reconhecer a vida selvagem e plantas ou animais menos renomados.

Pesquisadores da Universidade da Califórnia, Berkeley (UC Berkeley) desenvolveram recentemente uma nova abordagem de identificação da vida selvagem que tem um desempenho muito melhor do que as técnicas desenvolvidas no passado. A abordagem, apresentada em um artigo publicado na Nature Machine Intelligence, foi concebida por Zhongqi Miao, que inicialmente começou a explorar a ideia de que ferramentas de inteligência artificial (IA) poderiam classificar imagens de vida selvagem coletadas por armadilhas fotográficas acionadas por movimento. Estas são câmeras que ecologistas e pesquisadores da vida selvagem geralmente instalam para monitorar espécies que habitam locais geográficos específicos e estimar seus números.

O uso eficaz de IA para identificar espécies em imagens da vida selvagem capturadas por armadilhas fotográficas pode simplificar significativamente o trabalho dos ecologistas e reduzir sua carga de trabalho, evitando que eles tenham que olhar centenas de milhares de imagens para gerar mapas de distribuição de espécies em locais específicos . A estrutura desenvolvida por Miao e seus colegas é diferente de outros métodos propostos no passado, pois mescla o aprendizado de máquina com uma abordagem chamada de ‘humanos no circuito’ para generalizar melhor as tarefas do mundo real.

“Um aspecto importante da nossa ‘inovação humana no circuito’ é que ela aborda o ‘problema de distribuição de cauda longa”, disse Wayne M. Getz, um dos pesquisadores que realizou o estudo, à TechXplore. “Mais especificamente, em um conjunto de centenas de milhares de imagens geradas por armadilhas fotográficas implantadas em uma área ao longo de uma temporada, as imagens de espécies comuns podem aparecer centenas ou mesmo milhares de vezes, enquanto as de espécies raras podem aparecer apenas algumas vezes. Isso produz uma distribuição de cauda longa da frequência de imagens de diferentes espécies. ”

Se todas as espécies fossem capturadas por armadilhas fotográficas com igual frequência, sua distribuição seria o que é conhecido como ‘retangular. “Por outro lado, se essas frequências forem altamente desequilibradas, as frequências mais comuns (plotadas primeiro no eixo y) seriam ser muito maior do que as frequências menos comuns (plotadas na parte inferior do gráfico), resultando em uma distribuição de cauda longa.

“Se o software de reconhecimento de imagem AI padrão fosse aplicado a dados de distribuição de cauda longa, o método falharia miseravelmente quando se trata de identificar espécies raras”, explicou Getz. “O objetivo principal de nosso estudo foi encontrar uma maneira de melhorar a identificação de espécies raras, incorporando humanos ao processo de maneira iterativa.”

Ao tentar aplicar ferramentas convencionais de IA em configurações do mundo real, os cientistas da computação podem encontrar vários desafios. Conforme mencionado por Getz, o primeiro é que os dados coletados no mundo real geralmente seguem uma distribuição de cauda longa e os modelos de IA de última geração não funcionam tão bem com esses dados, em comparação com dados com um formato retangular ou normal distribuição.

“Em outras palavras, quando aplicadas a dados com uma distribuição de cauda longa, categorias grandes ou mais frequentes sempre levam a um desempenho muito melhor do que categorias menores e raras”, disse Miao, principal autor do artigo, à TechXplore. “Além disso, instâncias de categorias raras (especialmente imagens de animais raros) não são fáceis de coletar, tornando ainda mais difícil contornar esse problema de distribuição de cauda longa por meio da coleta de dados.”

Outro desafio de aplicar IA em configurações do mundo real é que os problemas que eles pretendem resolver são geralmente abertos. Por exemplo, os projetos de monitoramento da vida selvagem podem continuar indefinidamente e se estender por longos períodos de tempo, durante os quais novas armadilhas fotográficas serão instaladas e uma variedade de novos dados serão coletados.

Além disso, novas espécies de animais podem aparecer repentinamente nos locais monitorados pelas câmeras devido a vários fatores possíveis, incluindo invasões inesperadas, projetos de reintrodução de animais ou recolonizações. Todas essas alterações serão refletidas nos dados, prejudicando o desempenho de técnicas de aprendizado de máquina pré-treinadas.

“Até agora, a contribuição humana para o treinamento de IA tem sido inevitável”, disse Miao. “Como os aplicativos do mundo real são abertos, garantir que os modelos de IA aprendam e se adaptem a novos conteúdos requer anotações humanas adicionais, especialmente quando queremos que os modelos identifiquem novas espécies animais. Assim, pensamos que há um loop do sistema de reconhecimento de IA de nova coleta de dados, anotação humana sobre novos dados e atualização do modelo para as novas categorias. ”

Em sua pesquisa anterior, os pesquisadores tentaram abordar os fatores que prejudicam o desempenho da IA em cenários do mundo real de várias maneiras diferentes. Embora as abordagens que desenvolveram fossem promissoras de alguma forma, seu desempenho não foi tão bom quanto eles esperavam, alcançando uma precisão de classificação abaixo de 70 por cento quando testado em conjuntos de dados padronizados de cauda longa.

“É difícil para as pessoas confiarem em um modelo de IA que poderia produzir apenas ~ 70 por cento de precisão”, disse Miao. “No geral, achamos que um modelo de IA implantável deve: alcançar um desempenho equilibrado em toda a distribuição desequilibrada (reconhecimento de cauda longa), ser capaz de se adaptar a diferentes ambientes (adaptação de múltiplos domínios), ser capaz de reconhecer novas amostras (fora de detecção de distribuição), e ser capaz de aprender com novos exemplos o mais rápido possível (aprendizado de poucas tentativas, aprendizado ao longo da vida, etc.). No entanto, cada uma dessas características tem se mostrado difícil de perceber, e nenhuma delas foi totalmente resolvido ainda, quanto mais combiná-los e chegar a uma solução de IA perfeita. ”

Em vez de usar ferramentas de IA conhecidas e existentes ou tentar desenvolver um método “ideal”, portanto, Miao e seus colegas decidiram criar uma ferramenta de alto desempenho que depende de uma certa quantidade de informações de humanos. Como até agora as anotações humanas nos dados provaram ser particularmente valiosas para melhorar o desempenho de modelos baseados em aprendizagem profunda, eles concentraram seus esforços em maximizar sua eficiência.

“O objetivo do nosso projeto era minimizar a necessidade de intervenção humana, tanto quanto possível, aplicando anotações humanas apenas em imagens difíceis ou novas espécies, maximizando o desempenho de reconhecimento / precisão de cada procedimento de atualização de modelo (ou seja, eficiência de atualização), “Miao disse.

Ao combinar técnicas de aprendizado de máquina com esforços humanos de maneira eficiente, os pesquisadores esperavam alcançar um sistema que fosse melhor no reconhecimento de animais em imagens da vida selvagem do mundo real, superando alguns dos problemas encontrados em seus estudos anteriores. Notavelmente, eles descobriram que seu método poderia atingir 90 por cento de precisão em tarefas de classificação de imagens de vida selvagem, usando 1/5 das anotações que as abordagens de IA padrão exigiriam para atingir essa precisão.

“Colocar as técnicas de IA em prática sempre foi um desafio significativo, não importa o quão promissores os resultados teóricos sejam em estudos anteriores em conjuntos de dados padrão”, disse Miao. “Assim, tentamos propor uma estrutura de reconhecimento de IA que pode ser implantada em campo mesmo quando os modelos de IA não são perfeitos. E nossa solução é introduzir esforços humanos eficientes de volta no sistema de reconhecimento. E neste projeto, usamos o reconhecimento de vida selvagem como um caso de uso prático do nosso framework. ”

Em vez de avaliar modelos de IA usando um único conjunto de dados, a estrutura desenvolvida por Miao e seus colegas concentra-se na eficiência com que um modelo previamente treinado pode analisar conjuntos de dados recém-coletados contendo imagens de espécies não observadas anteriormente. Sua abordagem incorpora uma técnica de aprendizagem ativa, que usa uma métrica de confiança de previsão para selecionar previsões de baixa confiança, de modo que possam ser anotadas posteriormente por humanos. Quando um modelo identifica animais com altos níveis de confiança, por outro lado, sua estrutura armazena essas previsões como pseudo rótulos.

“Os modelos são atualizados de acordo com as anotações humanas e pseudo rótulos”, explicou Miao. “O modelo é avaliado com base em: a precisão geral da validação de cada categoria após a atualização (ou seja, desempenho da atualização); porcentagem de previsões de alta confiança na validação (ou seja, esforço humano salvo para anotação); precisão das previsões de alta confiança; e a porcentagem de novas categorias detectadas como previsões de baixa confiança (ou seja, sensibilidade à novidade). ”

O objetivo geral do algoritmo de otimização usado por Miao e seus colegas é minimizar os esforços humanos (ou seja, maximizar a porcentagem de alta confiança de um modelo), enquanto maximiza o desempenho e a precisão. Tecnicamente falando, a estrutura dos pesquisadores é uma combinação de aprendizagem ativa e aprendizagem semi-supervisionada com humanos no circuito. Todos os códigos e dados usados por Miao e seus colegas estão disponíveis publicamente e podem ser acessados online.

“Propusemos uma estrutura de reconhecimento homem-máquina implantável que também é aplicável quando os modelos não estão funcionando perfeitamente por si próprios”, disse Miao. “Com o procedimento iterativo de atualização homem-máquina, a estrutura pode ser mantida atualizada e implantada quando novos dados são coletados continuamente. Além disso, cada componente técnico nesta estrutura pode ser substituído por métodos mais avançados no futuro para obter melhores resultados.”

O cenário experimental delineado por Miao e seus colegas é indiscutivelmente mais realista do que aqueles considerados em trabalhos anteriores. Na verdade, em vez de focar em um único ciclo de treinamento, validação e teste de modelos, ele se concentra em vários ciclos ou estágios, o que permite que os modelos se adaptem melhor às mudanças nos dados.

“Outro aspecto único de nosso trabalho é que propusemos uma relação sinérgica entre humanos e máquinas”, disse Miao. “As máquinas ajudam a aliviar a carga dos humanos (por exemplo, ~ 80% dos requisitos de anotação) e os humanos ajudam a anotar amostras novas e desafiadoras, que são usados para atualizar as máquinas, de modo que as máquinas sejam mais potentes e mais generalizadas no futuro. Esta é uma relação contínua e de longo prazo. ”

No futuro, a estrutura introduzida por esta equipe de pesquisadores poderá permitir que os ecologistas monitorem espécies animais em diferentes locais com mais eficiência, reduzindo o tempo que gastam examinando imagens coletadas por câmeras de armadilha. Além disso, sua estrutura poderia ser adaptada para lidar com outros problemas do mundo real que envolvem a análise de dados com uma distribuição de cauda longa ou que mudam continuamente ao longo do tempo.

“Miao agora está trabalhando no problema de tentar identificar espécies de imagens de satélite ou aéreas que apresentam dois desafios em comparação com imagens de armadilhas fotográficas: a resolução é muito mais baixa porque as câmeras estão muito mais distantes dos objetos que estão capturando e do indivíduo que está sendo fotografado pode ser um de muitos no quadro geral; as imagens geralmente mostram apenas uma projeção 1-d (ou seja, de cima) em vez das projeções 2-d (frente / trás e lado esquerdo / direito) dos dados de armadilhas fotográficas “, disse Getz .

Miao, Getz e seus colegas agora também planejam implantar e testar a estrutura que criaram em configurações do mundo real, como projetos de monitoramento de animais selvagens com armadilhas fotográficas na África, organizados por alguns de seus colaboradores. Enquanto isso, Miao está trabalhando em outras ferramentas de aprendizagem profunda para a análise de imagens aéreas e gravações de áudio, pois podem ser particularmente úteis para identificar pássaros ou animais marinhos. Seu objetivo geral é tornar o aprendizado profundo mais acessível para ecologistas e pesquisadores que analisam imagens de vida selvagem.

“Em uma escala mais ampla, pensamos que a relação sinérgica entre humanos e máquinas é um tópico interessante e que o objetivo da pesquisa de IA deve ser desenvolver ferramentas que aumentem as habilidades (ou inteligência) das pessoas, em vez de eliminar a existência de humanos ( por exemplo, à procura de máquinas perfeitas que podem lidar com tudo sem a necessidade de humanos) “, acrescentou Miao. “É mais como um loop onde as máquinas tornam os humanos melhores e os humanos tornam as máquinas mais poderosas em troca, assim como na estrutura iterativa que propusemos no artigo. Chamamos isso de Inteligência Artificial Aumentada (A2I ou A-square I), onde em última análise, a inteligência das pessoas é aumentada com a inteligência artificial e vice-versa. No futuro, queremos continuar explorando as possibilidades do A2I. “


Publicado em 03/11/2021 16h14

Artigo original:

Estudo original: