Capítulo 1 Introdução

1.1 Relação entre Processamento Digital de Imagem, Visão Computacional e Computação Gráfica

A visão desempenha um papel importante na vida das pessoas, pois com ela é possível uma percepção incrivelmente rica do mundo ao seu redor. Para tentar reproduzir as capacidades visuais humanas por sistemas autônomos manipulados por computadores foram desenvolvidas pelo menos três grandes áreas [1, p. 2]: Processamento Digital de Imagens (PDI), Visão Computacional (VC) e a Computação Gráfica(CG), apresentados na Figura 1.1. Essas áreas, apesar de serem correlacionadas, têm objetivos e métodos diferentes o que justifica a importância de distingui-las.

Processos Computacionais com Imagens - O processamento de imagem, a visão computacional e a computação gráfica são áreas que operam com imagens digitais. Estas áreas têm propósitos diferentes, mas podem ser relacionadas, pois a saída do processamento de uma pode ser a entrada de outra. [1, p. 2].

Figura 1.1: Processos Computacionais com Imagens - O processamento de imagem, a visão computacional e a computação gráfica são áreas que operam com imagens digitais. Estas áreas têm propósitos diferentes, mas podem ser relacionadas, pois a saída do processamento de uma pode ser a entrada de outra. [1, p. 2].

O Processamento Digital de Imagens (PDI) busca realizar o pré-processamento das imagens, utilizando para isso técnicas de tratamento, como a correção da iluminação, eliminação de ruído, e a segmentação. Geralmente, no PDI tanto a entrada quanto a saída do processo são imagens. O foco da Visão Computacional (VC) é a análise das imagens, identificando os seus componentes e obtendo informações de modelos gerados, principalmente do mundo 3D. Diferente da VC, em que as imagens representam o objeto de estudo, na Computação Gráfica (CG), as imagens são o resultado do processo. Na CG são geradas representações visuais seguindo descrições e especificações geométricas de modelos de entrada [1, p. 3].

A Tabela 1.1 apresenta de forma resumida as diferenças entre PDI, VC e CG. Na segunda linha da tabela está uma descrição simples de cada área, e na terceira linha um esquema identificando o objeto e o produto de cada processo.

Tabela 1.1: Processos Computacionais com Imagens - Descrição da aplicação das áreas de Computação Gráfica (CG), Visão Computacional (VC) e Processamento Digital. Na última linha está um esquema simplificado da entrada e saída de cada aplicação.
Computação Gráfica (CG) Visão Computacional (VC) Processamento Digital de Imagens (PDI)
Cria e altera imagens a partir de dados. Análise de imagem para criação de modelos. Transformação de imagem (tratamento).
modelo → imagem imagem → modelo imagem → imagem

As imagens tratadas em PDI têm como forte potencial servir de material para a Visão Computacional, como pode ser percebido na Figura 1.1. Muitas vezes as áreas de Visão Computacional e PDI são confundidas devido a dificuldade em se definir em que ponto uma termina e a outra começa. Mesmo não existindo uma linha clara entre os limites destas duas áreas é possível utilizar um paradigma que considera três níveis de processamento [2, p. 2]:

  • Baixo nível

    A nível de pixel, realiza operações de pré-processamento, sendo utilizada, por exemplo, na redução de ruído, aumento de contraste e restauração. Nesta etapa tanto a entrada quanto a saída são imagens.

  • Médio nível

    Operações mais complexas, como segmentação, partição e reconhecimento de objetos individuais. A entrada é uma imagem mas a saída pode ser um conjunto contendo os atributos extraídos das imagens, como formas, bordas e objetos individuais.

  • Alto nível

    Interpretação do conteúdo da imagem e análise, muitas vezes processos associados com as funções da visão, como a classificação, o reconhecimento e o rastreamento de objetos.

Baseado nesses níveis, iremos considerar que o processamento de imagem atua nos primeiros dois níveis, ou seja, envolve o pré-processamento e processos de extração de elementos de imagens até o reconhecimento de componentes individuais. O campo da Visão Computacional, mesmo associado com os níveis mais baixos, se torna mais evidente a partir das técnicas de alto nível de processamento, que utilizam informações extraídas das imagens para processos de inferências ou aprendizados, resultando em aplicações em diferentes áreas.

A VC por ser uma área que tenta emular as funções cognitivas associadas à visão se enquadra como um ramo da inteligência artificial (AI). O processo de aprendizado necessário para as diferentes vertentes da AI - Visão Computacional, Reconhecimento de Voz, Aprendizado Natural de Linguagem, Robótica, entre outros - dependem em grande parte da vertente do Aprendizado de Máquina ou Machine Learning. Assim, muitas técnicas de aprendizado de máquina são associadas com etapas de processamento de imagens dentro da Visão Computacional.

Com o avanço do aprendizado de máquina (Machine Learning), principalmente com o desenvolvimento do aprendizado profundo (Deep Learning), surgiu um novo paradigma na Visão Computacional. Anteriormente, as etapas da VC envolviam uma sequência de algoritmos de processamento de imagens construídos em diferentes softwares, específicos para um determinado fim, e que dificilmente se enquadravam em outros problemas. Com a adaptação de modelos de aprendizado profundo foi possível englobar todas as etapas de processamento e aprendizado em um único programa, e que muitas vezes pode ser estendido para diferentes aplicações.

1.2 Etapas do Processamento de Imagens, Visão Computacional e Aprendizado de Máquina

Um dos objetivos deste material é servir de referência para o estudo inicial da Visão Computacional, assim, para compreender as relações entre os três temas discutidos no final do tópico anterior - Processamento de Imagens, Visão Computacional e Aprendizado de Máquina - indicamos um guia para o presente material de estudo, em que se descreve como os capítulos foram organizados dentro destes três temas mais amplos.

Com base na abordagem adotada no diagrama da Figura 1.2, as principais etapas para o tratamento de problemas envolvem: aquisição da imagem; pré-processamento; e análise da informação visual. Dentro de cada um destes níveis é possível subdividir vários outros subtópicos dependendo da aplicação de interesse, e neste material apresentamos algumas de usos mais gerais, que estão organizadas em capítulos.

Etapas para o desenvolvimento de aplicações na Visão Computacional - Diagrama com a distribuição dos capítulos com base nas principais etapas dentro do processamento de imagem e do aprendizado de máquina orientados à visão computacional.

Figura 1.2: Etapas para o desenvolvimento de aplicações na Visão Computacional - Diagrama com a distribuição dos capítulos com base nas principais etapas dentro do processamento de imagem e do aprendizado de máquina orientados à visão computacional.

As primeiras etapas - Aquisição de imagens e Pré-Processamento - são temas que a área de Processamento de Imagem tem apresentado forte contribuição durante muito tempo, em que vários algoritmos, técnicas e conceitos continuam sendo a base para a Visão Computacional. Antigamente, os resultados do processamento de imagens que eram as informações de maior interesse da VC, eram dados tratados que podiam ser avaliados e aplicados em modelos estatísticos, possibilitando a análise e resolução do problema.

Com o surgimento de outros paradigmas, todas estas etapas que eram tratadas separadamente, com técnicas e softwares diferentes, passaram a ser tratadas dentro de um único sistema, utilizando modelos de aprendizado de máquina, como as redes neurais. Nesta nova abordagem, as imagens brutas também podem ser vistas como entradas diretas das aplicações. Por esta razão, tanto a Visão Computacional quanto o Aprendizado de Máquina tem as suas fronteiras na Figura 1.2 demarcando do início ao fim todos os processos.

Para destacar como os capítulos se relacionam com estas etapas será apresentado uma breve descrição de cada uma e alguns exemplos de conteúdos que serão abordados ao longo do material.

  • Aquisição da imagem

Captura a imagem por meio de um dispositivo ou sensor e a converte em uma imagem digitalizada [3, p. 3]. Podemos citar como exemplo as câmeras fotográficas, tomógrafos médicos, satélites e scanners. Na figura 1.3, temos um exemplo de imagem colorida separadas em suas três componentes, e mais detalhes sobre a aquisição e formação deste tipo de imagem e de outras são abordados no Capítulo Formação de Imagem. Como será discutido no Capítulo Espaço 3D, algumas aplicações da Visão computacional dependem de parâmetros determinados pelo equipamento e das condições durante a aquisição das imagens.

Imagem colorida - Imagem separada em seus três componentes, em que Red é a vermelha, Green é a verde e Blue é a azul [4, p. 28].

Figura 1.3: Imagem colorida - Imagem separada em seus três componentes, em que Red é a vermelha, Green é a verde e Blue é a azul [4, p. 28].

  • Pré processamento

Essa etapa busca realizar mudanças e ajustes na imagem visando melhorar seu uso nas etapas futuras [3, p. 3]. Como exemplo temos casos onde não precisamos das cores de uma imagem, podendo então realizar a conversão para grayscale (tons de cinza), ou precisamos gerar imagens coloridas. Além disso, podemos realizar cortes ou realces, isolando somente a parte de maior interesse na imagem utilizando algumas das técnicas apresentadas no Capítulo Transformações Geométricas e no Capítulo Transformações Radiométricas. Na Figura 1.4 se destaca uma das abordagens recorrentes no tratamento de imagem, a atenuação de ruídos e a suavização, utilizando principalmente alguns dos filtros do Capítulo Filtros Digitais.

Remoção de ruído sal e pimenta por meio do filtro de Mediana - No Capítulo Filtros Digitais serão apresentados alguns filtros como este que tratam as imagens, por exemplo, revomendo ruídos, aumentando o realce ou suavizando[2, p. 103].

Figura 1.4: Remoção de ruído sal e pimenta por meio do filtro de Mediana - No Capítulo Filtros Digitais serão apresentados alguns filtros como este que tratam as imagens, por exemplo, revomendo ruídos, aumentando o realce ou suavizando[2, p. 103].

  • Análise

À parte de Análise atribuímos todos os processos que fazem uso da informação visual para compor um sistema de aplicação na área de Visão Computacional. Atualmente é mais comum ver estes processos englobados dentro de modelos de aprendizado de máquina mais genéricos como em redes neurais, capazes por exemplo, de classificar, identificar e rastrear objetos em diferentes situações. No Capítulo Deep Learning em Visão Computacional, assim como na Figura 1.5 é possível se ter uma pequena noção de como as redes neurais, como as redes multicamadas de perceptrons (MLP), enxergam as imagens e como desagregam suas informações para disponibilizar resultados satisfatórios no campo da VC.

Aplicação das Redes Neurais na Visão Computacional - Utilização das redes multicamadas de perceptrons para classificar dígitos de números em imagens [5]

Figura 1.5: Aplicação das Redes Neurais na Visão Computacional - Utilização das redes multicamadas de perceptrons para classificar dígitos de números em imagens [5]

1.3 Áreas de Aplicações

Visto de forma geral como funcionam as etapas da Visão Computacional e do processamento de imagem é interessante elencar algumas das possíveis áreas em que estes dois campos podem ter atuação. Partindo do que já foi produzido se levanta que as primeiras tarefas de processamento de imagens tiveram aplicações significativas por volta da década de 1960, quando se desenvolveram computadores com potencial suficiente para realizá-las. O programa espacial americano também foi um forte impulso para o contínuo desenvolvimento e aprimoramento das técnicas de PDI, já que imagens, como as obtidas da Lua através de sondas e transmitidas à terra, continham distorções provenientes das câmeras utilizadas. Era necessário então, a utilização de métodos para corrigir essas alterações [2, p. 4].

Outra área que também faz uso extensivo do processamento de imagens e impulsionou seu desenvolvimento é a área médica. Nessa área, o uso de imagens auxiliou no diagnóstico de doenças através de exames visuais como os de raio-x [2, p. 4].

A utilização do processamento de imagens para melhorar informações visuais, ajudando na interpretação humana, expandiu-se para diferentes setores. No sensoriamento remoto, o pré-processamento contribui para uma melhor análise de imagens aéreas e de satélite, aumentando a compreensão da superfície terrestre. Na arqueologia e nas artes, métodos de processamento de imagens podem restaurar fotografias com registros únicos de objetos raros, pinturas, documentos antigos e conteúdos em vídeos [3, p. 2]. Na física e em áreas da biologia, técnicas computacionais realçam imagens de experimentos em áreas como plasmas de alta energia e microscopia eletrônica [2, p. 5].

Com o aumento da automatização de tarefas, o processamento de imagens tem se destacado na aquisição de dados de imagens visando a percepção automática por máquinas [3, p. 3]. Técnicas de identificação de padrões podem ser aplicados no reconhecimento automático de caracteres, de impressões digitais, de faces, e de placas de veículos, contribuindo com setores de segurança. Na automação industrial tem sido utilizado no sistema de visão computacional para inspeção e montagem de produtos. Na área militar, pode ser aplicado na identificação e rastreamento de alvos em imagens de satélites, e na navegação de veículos autônomos. Nas áreas de medicina e biologia, rastreamentos automáticos em imagens radiográficas e amostras de sangue têm contribuído para os exames e testes [3, p. 3]. O processamento computacional de imagens aéreas e de satélites também é utilizado na previsão do tempo e em avaliações ambientais [2, p. 5].

Este variado campo de aplicações pode ser justificado pela capacidade dos aparelhos de processamento de imagens trabalharem com imagens de diversas fontes. Diferentemente dos seres humanos, que são limitados à banda visual do espectro eletromagnético (EM), o processamento computacional cobre todo o EM, variando de ondas gama a ondas de rádio [2, p. 1]. No processamento digital ainda é possível trabalhar com imagens geradas por fontes que os humanos não estão acostumados a associar com imagens. Essas fontes incluem acústica, ultrassom, microscopia eletrônica e imagens geradas por computador [2, p. 13].

Uma das formas mais fáceis de desenvolver uma compreensão básica da extensão das aplicações de PDI é categorizar as imagens de acordo com sua fonte. Na Figura 1.6 ttemos uma representação do EM e iremos a seguir explorar cada uma dessas faixas, apresentando algumas das áreas onde podem ser utilizados:

Espectro eletromagnético - As imagens podem ser geradas a partir de diferentes fontes eletromagnéticas, incluindo raios gama, raio x, ultravioleta, visível, infravermelho, microondas e rádio [6].

Figura 1.6: Espectro eletromagnético - As imagens podem ser geradas a partir de diferentes fontes eletromagnéticas, incluindo raios gama, raio x, ultravioleta, visível, infravermelho, microondas e rádio [6].

  • Imagens formadas por raios gama

    As imagens formadas a partir de raios gama têm diferentes utilidades, sendo muito utilizadas na medicina e astronomia [2, p. 6]. Na medicina, existem procedimentos onde se injetam isótopos radioativos no paciente e por meio dos detectores de raio gama é formada uma imagem, como exemplo, escaneamento ósseo e tomografia por emissão de pósitrons (PET-scan). Na astronomia, ela pode ser utilizada para se conseguir ver detalhes astronômicos que estão presentes na faixa eletromagnética dos raios gama.

  • Imagens formadas por raios X

    Imagens formadas a partir de raio X têm uma ampla gama de aplicações, desde seu uso na medicina até seu uso no meio industrial [2, p. 6]. Na indústria, pode ser utilizado para se encontrar defeitos de fabricação em produtos, e na medicina, vêm se utilizando muito o processamento de imagem e a visão computacional para ajudar no diagnóstico de doenças, como por exemplo, artérias obstruídas, fraturas e tumores.

  • Imagens na banda ultravioleta

    O espectro ultravioleta também tem inúmeras aplicações, como a inspeção industrial, microscopia, imagens biológicas e observações astronômicas [2, p. 8].

  • Imagens na banda visível e infravermelho

    Essas duas bandas possuem uma gama extremamente ampla de aplicações, sendo utilizadas juntas ou separadas. Na banda visível, existem diversas aplicações, como em processos industriais, detecção de faces, detecção de placas de carros, etc [2, p. 11]. A banda infravermelho também possui inúmeras aplicações, sendo uma delas imagens a partir de satélites, onde o infravermelho nos permite ver inúmeros detalhes que somente com a banda visível não seria possível [2, p. 9].

  • Imagens na banda de micro-ondas e rádio

    Na banda de micro-ondas o melhor exemplo que temos é o radar. Essa banda tem uma peculiaridade de ser extremamente penetrante, podendo gerar imagens através de nuvens, vegetação, etc [2, p. 12]. Já a banda de rádio é muito utilizada na medicina, como exemplo na ressonância magnética e na astronomia [2, p. 12].

Como podemos observar, existem inúmeras maneiras de se conseguir imagens além da clássica imagem no espectro visível, isso nos dá a possibilidade de utilizar o PDI em inúmeras áreas e problemas. Na Figura 1.7 temos uma nebulosa observada a partir de diferentes bandas do EM, sendo possível observar detalhes que passariam despercebidos se usássemos somente alguma delas.

Nebulosa CRAB em diferentes frequências - Ao observar um mesmo objeto a partir de várias bandas do EM é possível avaliar diferentes aspectos [7].

Figura 1.7: Nebulosa CRAB em diferentes frequências - Ao observar um mesmo objeto a partir de várias bandas do EM é possível avaliar diferentes aspectos [7].

Refêrencias

[1] L. Velho, A. C. Frery, e J. Gomes, Image processing for computer graphics and vision, 2º ed. London: Springer, 2009.

[2] R. C. Gonzalez e R. C. Woods, Processamento digital de imagens, 3º ed. São Paulo: Pearson Prentice Hall, 2010.

[3] H. Pedrini e W. Robson Schwartz, Analise de imagens digitais: principios, algoritmos e aplicações, 3º ed. São Paulo: Thomson Learning Edicoes Ltda, 2007.

[4] T. B. Moeslund, Introduction to video and image processing: Building real systems and applications. Springer Science & Business Media, 2012.

[5] B. H. A. I. Magazine, “Esquema de uma rede multicamda de perceptrons”. 2019, [Online]. Disponível em: https://miro.medium.com/max/533/0*vl2T7-m8O3-_2hhm.jpg.

[6] B. E. da cor, “Imagem de um espectro eletromagnetico”. 2014, [Online]. Disponível em: https://estudodacor.files.wordpress.com/2014/08/espectro-eletromagnetico1.jpg.

[7] W. Commons, “Crab nebula in multiple wavelengths”. [Online]. Disponível em: https://commons.wikimedia.org/wiki/File:Crab_Nebula_in_Multiple_Wavelengths.png.