Capítulo 8 Separação Plano de Fundo

A visão computacional também é usada para lidar com monitoramento de objetos, auxiliando atividades humanas como vigilância pela procura de eventualidades, como acidentes e crimes [64, p. 664]. E a ideia da separação do background é remover a paisagem para observar os objetos-alvo em movimento (foreground), em por menores, seria a remoção de objetos estáticos (como edifícios) ou que não são estáticos e compõe o plano de fundo (como um rio, as folhas de uma vegetação, movimentação das nuvens) - sim, é complexo lidar com essa movimentação de background.

O foreground é o resultado da limiarização da diferença entre os pixels do frame atual em relação aos pixels do background estimado. Caso não saiba o que é limiarização, contém esse conteúdo em seções anteriores Segmentação no tópico Limiarização 6.6.

8.1 Fixo

A maneira mais simples de se modelar um background é capturando um frame quando não há alvos na cena. Entretanto, isso seria legal para um ambiente controlado, não a um externo, pois como saber que ali não há alvos e de fato é o verdadeiro background e como seria resolvido os problemas de variações de iluminação e movimentos de vegetações [64, p. 669].

8.2 Média Temporal

Uma sugestão para resolver as dificuldades apresentadas no método fixo é fazer a média a partir de muitos frames sobre um recente período, tendo ou não alvos presentes e, se os alvos forem raros, obtém-se uma boa aproximação de um background ideal. Entretanto, haverá alvos que não serão eliminados, produzindo fantasmas - detecção de movimento onde não há alvo [64, p. 669]. Essa estratégia é chamada de média temporal ou temporal averaging. Segue exemplo de cálculo da modelagem para 5 frames (8.1).

\[ {TP}_{x,y} = \frac{P_{1_{x,y}} + P_{2_{x,y}} + P_{3_{x,y}} + P_{4_{x,y}} + P_{5_{x,y}}}{5} \tag{8.1} \]

Outra variação que pode ser usada para uma melhor modelagem, reduzindo detecção de fantasmas, é a de aplicar um filtro de média convencional 5x5, espacial, em cada frame antes da média temporal, cálculo esse denominado média espaço-temporal ou spatiotemporal averaging [19, p. 435], como demonstrado na equação (8.2); as Figuras 8.2 e 8.3 demonstra a aplicação com e sem suavização em um ambiente controlado e outdoor. A diferença entre os backgrounds modelados com e sem suavização, a Figura 8.2 (F) e (G), pode ser mínima aos nossos olhos, mas, quando aplicados a diferença é notável, conforme ilustram a detecção de movimento nas Figuras 8.2 (I) e (J), sem e com suavização respectivamente.

\[ {STP}_{x,y} = media5(P_{1_{x,y}}) + media5(P_{2_{x,y}}) + media5(P_{3_{x,y}}) + media5(P_{4_{x,y}}) + media5(P_{5_{x,y}}) \tag{8.2} \]

8.3 Mediana Temporal

A Mediana Temporal consegue um melhor resultado do que o de Média Temporal, pois os outliers, que podem produzir fantasmas na cena, não influenciam no cálculo [19, p. 436]. Segue exemplo de cálculo dessa modelagem para 5 frames, (8.3). \[ MP_{x,y} = mediana(P_{1_{x,y}}, P_{2_{x,y}}, P_{3_{x,y}}, P_{4_{x,y}}, P_{5_{x,y}}) \tag{8.3} \] Apesar de ser capaz de produzir melhores resultados, nada é perfeito. Observe as Figuras 8.1 (A) e (B), o ônibus que antes estava em movimento vai desaparecendo do foreground à medida que novos frames são capturados e ele se mantém parado, pois, progressivamente, o objeto ônibus vai pertencendo ao background. Porém, ao se mover novamente, ele é identificado como um alvo, mas a região em que ele estava parado ainda detecta um fantasma, por causa da diferença naquela região ainda ser praticamente equivalente, pois no novo frame não há mais ônibus ali, mas, no background, há. Conforme observa-se nas Figuras 8.1 (C) e (D). Note que à medida que novos frames são captados esse fantasma vai sumindo.

Detecção de movimento através da modelagem de background a partir da Mediana Temporal [64, p. 671].

Figura 8.1: Detecção de movimento através da modelagem de background a partir da Mediana Temporal [64, p. 671].

8.4 Exemplos comparativos da Média Temporal, Média Espaço-Temporal e Mediana Temporal

Os exemplos a seguir são complementares a teoria dos tópicos anteriores de modelagem de plano de fundo, a fim de mostrar os resultados dos métodos estudados aplicados em um ambiente controlado e outdoor. Desde os frames capturados, o background modelado e o foreground produzido pela limiarização da diferença entre o primeiro frame, Figura 8.2 (A), e os respectivos planos de fundo modelados.

As imagens A, B, …, E são os frames capturados por uma câmera em um ambiente interno. As imagens F, G e H são os backgrounds estimados. E as imagens I, J e K são os foregrounds produzidos, as detecções de movimento estimadas. Adaptado de [19, p. 435] e [19, p. 436].

Figura 8.2: As imagens A, B, …, E são os frames capturados por uma câmera em um ambiente interno. As imagens F, G e H são os backgrounds estimados. E as imagens I, J e K são os foregrounds produzidos, as detecções de movimento estimadas. Adaptado de [19, p. 435] e [19, p. 436].

Note que apareceram pés fantasmas resultado da interação da luz com o movimento dos pés e sua sombra, mas ao ser aplicado a suavização esse problema é diminuído. Além disso, parte da camiseta da pessoa não foi detectada, isso pode tentar ser corrigido por ajustes no limiar de limiarização [19, p. 436].

A Figura 8.3 é análoga a anterior, só que em um ambiente externo.

As imagens A, B, …, E são os frames capturados por uma câmera em um ambiente externo. As imagens F, G e H são os backgrounds estimados. E as imagens I, J e K são os foregrounds produzidos, as detecções de movimento estimadas [19, p. 437].

Figura 8.3: As imagens A, B, …, E são os frames capturados por uma câmera em um ambiente externo. As imagens F, G e H são os backgrounds estimados. E as imagens I, J e K são os foregrounds produzidos, as detecções de movimento estimadas [19, p. 437].

Como pôde ser observado, a modelagem de um background é bem mais difícil quando é em um ambiente externo, dado os intempéres e variações de iluminação. Uma tentativa de melhor modelagem é tentar diferentes limiares e aumentar a quantidade de frames a fim de uma melhor modelagem, mas pode ser que não seja o suficiente. Um dos métodos mais utilizados para separação de plano de fundo é o Mistura de Gaussianas, também chamado de Mistura de Distribuições de Probabilidade, mas deixa-se a interesse do leitor.

Refêrencias

[19] M. Nixon e A. Aguado, Feature extraction and image processing for computer vision. Academic press, 2019.

[64] E. R. Davies, Computer Vision Principles, Algorithms, Applications, Learning. Academic press, 2017.