Uma rede de aprendizagem multitarefa para reconhecer os números em camisetas de jogadores de times esportivos

Figura delineando como funciona a técnica dos pesquisadores. A imagem de entrada passa por uma rede Resnet 34, após a qual os 512 recursos dimensionais são extraídos da camada pré-final. Os 512 recursos dimensionais são passados para três camadas lineares separadas para obter os três vetores de probabilidade pe pi: i {1,2} usados para treinar a rede. ℒe ℒi: i {1,2} denotam os termos de perda correspondentes. Crédito: Vats et al.

Ao reportar jogos esportivos ao vivo ou remotamente, os comentaristas devem ser capazes de reconhecer rapidamente os números nas camisas dos jogadores, pois isso permite que eles acompanhem o que está acontecendo e comuniquem ao seu público. No entanto, identificar rapidamente os jogadores em vídeos de esportes nem sempre é fácil, pois esses vídeos costumam ser feitos à distância para capturar a progressão geral do jogo. Outra dificuldade é o movimento rápido da câmera de transmissão, que geralmente resulta em desfoque de movimento.

Pesquisadores da Universidade de Waterloo desenvolveram recentemente uma técnica de Machine Learning que pode reconhecer automaticamente os números das camisas dos jogadores em imagens extraídas de vídeos de esportes transmitidos. Esta técnica, apresentada em um artigo pré-publicado no arXiv, pode ajudar a identificar o número de camisas de jogadores de equipe durante eventos esportivos de forma mais rápida e eficiente do que outros métodos computacionais existentes.

“Redes de reconhecimento de número de camisa esportiva na literatura existente – considere o reconhecimento de número de camisa como um problema de classificação e (1) considere os números de camisa como classes separadas (representação holística) ou (2) trate os dois dígitos em um número de camisa como duas classes independentes (representação em dígitos), “Kanav Vats, um dos pesquisadores que realizou o estudo, disse ao Tech Xplore. “Por exemplo, o número da camisa ’12’ pode ser modelado considerando ’12’ como uma classe separada e também dividindo o número ’12’ em dois dígitos constituintes ‘1’ e ‘2’ e tratando os dois dígitos como classes separadas . ”

Estudos anteriores descobriram que aprender várias representações de saída pode melhorar o desempenho de redes neurais profundas. Em outras palavras, descobriu-se que as redes neurais treinadas para focar em diferentes aspectos da tarefa que estão aprendendo a realizar têm um desempenho melhor do que aquelas que se concentram em aspectos individuais da tarefa.

“A entrada para a rede baseada em backbone Resnet34 é uma imagem de um único jogador”, disse Vats. “A rede produz três vetores de probabilidade. O primeiro é a probabilidade do número da camisa presente na imagem considerando cada número da camisa no conjunto de dados como uma classe separada, o segundo é a distribuição de probabilidade do primeiro dígito no número da camisa e o terceiro é a probabilidade do segundo dígito no número da camisa. ”

Precisão de validação vs número de iterações para o aprendizado multitarefa (MTL), configurações holísticas e de perda por dígitos. A configuração multitarefa mostra o melhor desempenho entre as três configurações. Crédito: Vats et al.

Os pesquisadores treinaram sua rede neural com a soma ponderada da perda de entropia cruzada das três saídas em que se concentraram. Quando testaram sua rede, eles descobriram que aprender as representações holísticas (por exemplo, ’12’) e dígitos (por exemplo, ‘1’ e ‘2’ em ’12’) de números melhorou significativamente a capacidade de sua rede de reconhecer números de camisa . Na verdade, sua abordagem de aprendizagem multitarefa superou outras técnicas que focavam apenas na representação holística ou nas representações digitadas.

“‘Quando a rede de função de perda multitarefa que propusemos foi conectada a uma rede introduzida em um estudo anterior, ela mostrou uma melhoria significativa no desempenho”, disse Vats. “Notavelmente, a função de perda multitarefa também é fácil de implementar em uma biblioteca moderna de Deep Learning (como a Pytorch) e pode ser usada para reconhecimento de número de camisa em outros esportes, como futebol.”

No futuro, a rede neural desenvolvida por esta equipe de pesquisadores poderá ajudar a identificar automaticamente os números das camisas em vídeos esportivos de forma mais rápida e eficiente. Além disso, Vats e seus colegas compilaram um novo conjunto de dados contendo 54.251 imagens anotadas de jogadores da NHL e seus números de camisa que poderiam ser usados para treinar outras técnicas de número de camisa e reconhecimento de jogador.

Em seus próximos estudos, os pesquisadores planejam melhorar ainda mais o número da camisa e o sistema de identificação do jogador. Por exemplo, eles gostariam de criar uma rede neural que também levasse em consideração a localização dos jogadores de hóquei no gelo na pista de gelo ao tentar determinar suas identidades.

“O estudo atual não leva em conta o contexto temporal, então nosso trabalho futuro terá como objetivo melhorar a identificação do jogador usando dados de vídeo temporais para inferir o número da camisa a partir de clipes de transmissão”, disse Vats. “Isso pode ser feito através de uma rede convolucional temporal que pode trabalhar diretamente em vídeos. A função de perda multitarefa proposta será incorporada na rede temporal.”


Publicado em 16/09/2021 15h51

Artigo original:

Estudo original: