SISTEMA DE VISÃO COMPUTACIO- NAL PARA DETECÇÃO DO USO DE TE- LEFONES CELULARES AO DIRIGIR

173 

Full text

(1)

Universidade do Estado de Santa Catarina - UDESC Centro de Ciências Tecnológicas - CCT

Programa de Pós-Graduação em Computação Aplicada - PPGCA

DISSERTAÇÃO DE MESTRADO

SISTEMA DE VISÃO

COMPUTACIO-NAL PARA DETECÇÃO DO USO DE

TE-LEFONES CELULARES AO DIRIGIR

RAFAEL ALCESTE BERRI

(2)
(3)

RAFAEL ALCESTE BERRI

SISTEMA DE VISÃO COMPUTACIONAL PARA

DETECÇÃO DO USO DE TELEFONES CELULARES

AO DIRIGIR

Dissertação apresentada ao Pro-grama de Pós-Graduação em Com-putação Aplicada da Universidade do Estado de Santa Catarina, como requisito parcial para obtenção do grau de Mestre em Computação Aplicada.

Orientador: Alexandre Gonçalves Silva

(4)

B533s

Berri,Rafael Alceste

Sistema de Visão Computacional para Detecção do Uso de Telefones Celulares ao Dirigir / Rafael Berri. – 2014.

171 p. : il. ; 21 cm

Orientador: Alexandre Gonçalves Silva Bibliografia: p. 127-136

Dissertação (mestrado) – Universidade do Estado de Santa Catarina, Centro de Ciências Tecnológicas, Mestrado em Computação Aplicada, Joinville, 2014.

1. Visão por computador 2. Detectores óticos 3. Segurança no trânsito II. Silva, Alexandre Gonçalves III. Universidade do Estado de Santa Catarina. Programa de Pós-Graduação em Computação Aplicada IV.Título

(5)
(6)
(7)
(8)
(9)

Agradecimentos

Agradeço a Deus, por escolher para mim este caminho e nele me fazer caminhar. A meus pais, Laurindo e Salete, pelo apoio incondi-cional nos meus estudos, trabalho e demais desaĄos assumidos. Ao meu irmão Gabriel que, mesmo longe, buscou auxiliar sempre que possível. Ao tio Paulo, pelo incentivo e auxílios prestados.

Ao Professor Dr. Alexandre Gonçalves Silva pela orientação, proposta de trabalho e todas as contribuições e adequações ao trabalho. À CAPES, pelo auxílio Ąnanceiro durante a realização do tra-balho.

À UDESC-PPGCA, pelas oportunidades que o programa traz ao mestrando na aquisição e geração de conhecimento.

Aos alunos de iniciação cientíĄca, Elaine Girardi e Gabriel Na-kata, pelas contribuições realizadas nas experimentações.

Aos 25 colaboradores que disponibilizaram suas imagens, per-mitindo assim, a criação de um banco de treinamento, e dentre os quais, muitos não me conhecem pessoalmente.

(10)
(11)
(12)
(13)

RESUMO

BERRI, Rafael Alceste.Sistema de visão computacional para

de-tecção do uso de telefones celulares ao dirigir. 2014. 171 p.

(14)
(15)

ABSTRACT

In this work, three proposals of systems have been developed using a frontal camera to monitor the driver and enabling to identiĄcate if a cell phone is being used while driving the vehicle. It is estimated that 80% of crashes and 65% of near collisions involved drivers who were inat-tentive in traffic for three seconds before the event. Five videos in real environment were generated to test the systems. The pattern recogni-tion system (RP) uses adaptive skin segmentarecogni-tion, feature extracrecogni-tion, and machine learning to detect cell phone usage on each frame. The cell phone detection happens when, in periods of 3 seconds, 60% (thresh-old) of frames or more are identiĄed as a cell phone use, individually. The average accuracy on videos achieved was 87.25% with Multilayer Perceptron (MLP), Gaussian activation function, and two neurons of the intermediate layer. The movement detection system (DM) uses op-tical Ćow, Ąltering the most relevant movements of the scene, and three successive frames for detecting the movements to take the phone to the ear and take it off. The DM proposal was not demonstrated as being an effective solution for detecting cell phone use, reaching an accuracy of 52.86%. The third solution is a hybrid system. It uses the RP system for classiĄcation and the DM for choosing the RP parameters. The pa-rameters chosen for RP are the threshold and the classiĄcation system. The deĄnition of these two parameters occurs at the end of each period, based on movement detected by the DM. Experimentally it was estab-lished that, when the movement induces to use cell phone, it is proper to use the threshold of 60%, and the classiĄer as MLP/Gaussian with seven neurons of the intermediate layer; otherwise, it is used threshold 85%, and MLP/Gaussian with two neurons of the intermediate layer for classiĄcation. The hybrid solution is the most robust system with average accuracy of 91.68% in real environment.

Key-words: Cell phones. Computer Vision. Driver distraction. Genetic

(16)
(17)

Lista de ilustrações

Figura 1 Ű Percentual de veículos, nas rodovias americanas, sendo dirigidos por pessoas com o celular ao ouvido entre

2002 e 2010. . . 36

Figura 2 Ű Espaço de cor RGB. . . 40

Figura 3 Ű Espaço de cor HSV. . . 41

Figura 4 Ű Plano𝐶𝑏𝐶𝑟com𝑌 = 0,5. . . 44

Figura 5 Ű Exemplos de imagens e seus respectivos Momentos de Inércia (MI) calculados. . . 46

Figura 6 Ű Disposição dosHaar-like-featuresem uma região can-didata a face. . . 47

Figura 7 Ű Exemplo do cálculo do somatório de uma região usando integral da imagem. . . 48

Figura 8 Ű Cascata de classiĄcadores fortes. . . 48

Figura 9 Ű Esboço do conceito de classiĄcador proposto nas SVMs. 50 Figura 10 Ű Arquitetura da SVM. A função de kernel 𝐾 deter-mina o tipo de classiĄcador (ex: Polinomial). Todos os outros parâmetros são encontrados durante o trei-namento. . . 51

Figura 11 Ű Um diagrama esquemático de uma rede MLP de três camadas. . . 53

Figura 12 Ű Exemplo de uma roleta para a seleção de indivíduos de uma população. O indivíduo 1 recebe a maior parte da roleta por ser mais qualiĄcado. O indiví-duo 2 recebe a menor parte pelo seu baixo valor de retorno da função deĄtness. . . 57

Figura 13 Ű Exemplo de torneio para a seleção de indivíduos de uma população. . . 57

Figura 14 Ű Exemplo de imagem binária erodia (𝐴−𝐵), onde, é exempliĄcado em (a) o processo de erosão e em (b) seu resultado. . . 61

Figura 15 Ű Exemplo de imagem binária dilatada (𝐴⊕𝐵), onde, é exempliĄcado em (a) o processo da dilatação e em (b) seu resultado. . . 62

Figura 16 Ű Exemplo da operação de Abertura de uma imagem (𝐴◇𝐵), onde, é exempliĄcado em (a) o processo e em (b) seu resultado. . . 63

(18)

quadros e na inferior os seus respectivos Ćuxos. . . . 64 Figura 19 Ű Exemplo de pirâmide de escalas utilizada para

au-mentar a acurácia do Ćuxo ótico. . . 68 Figura 20 Ű Visão geral de alguns Sistemas Avançados de

Assis-tência ao Condutor (ADAS). . . 74 Figura 21 Ű Posição da câmera de captura. . . 79 Figura 22 Ű Modelo do sistema de reconhecimento do uso de

ce-lular ao dirigir por RP. . . 80 Figura 23 Ű Regiões de faces detectadas pelos classiĄcadores:

fron-tal (versão 1) em azul, fronfron-tal (versão 2) em vermelho e de perĄl em verde. . . 81 Figura 24 Ű Extração da região da face do motorista com

acrés-cimo de 40% horizontal de pixels para evitar o corte eventual das mãos ao telefone. . . 82 Figura 25 Ű Exemplo de redução para HSV e YCbCr com𝑁 = 32. 83 Figura 26 Ű Amostra de pele retirada da face do motorista. . . . 83 Figura 27 Ű Resultado da etapa de segmentação . . . 84 Figura 28 Ű Regiões onde os pixels da mão/braço são contados . 84 Figura 29 Ű Modelo do sistema de detecção de movimentos na

utilização de celular ao dirigir. . . 86 Figura 30 Ű Resultado da Equalização do Histograma. . . 87 Figura 31 Ű Exemplo de resultado da segmentação do sistema DM. 89 Figura 32 Ű Região da imagem onde o componente é declarado

como Şna borda inferiorŤ. . . 91 Figura 33 Ű Processo de escolha dos componentes que farão parte

da detecção do movimento de retirada do celular. Os componentes escolhidos estão com preenchimento na segunda linha de quadros. O componente que tocou a borda inferior no quadro atual está em azul. . . . 92 Figura 34 Ű Exemplo de sequência de quadros onde se detecta

(19)

Figura 35 Ű Processo de escolha dos componentes que farão parte da detecção do movimento de ŞCelular ao ouvidoŤ. Os componentes escolhidos estão com preenchimento na segunda linha de quadros. O componente que to-cou a borda inferior no quadro Anterior 2 está em azul. . . 94 Figura 36 Ű Exemplo de sequência de quadros onde se detecta o

movimento de ŞCelular ao ouvidoŤ, onde, (a), (b) e (c) são os quadro e (d), (e) e (f) seus respectivos com-ponentes encontrados (movimentos relevantes) pela funçãoComponentesLocalizar. Os componentes

pre-sentes dentro dos retângulos vermelhos foram esco-lhidos como relevantes e as Ćechas indicam a direção dos movimentos predominantes estimados pelo Ćuxo ótico para cada quadro. . . 95 Figura 37 Ű Modelo do sistema híbrido para reconhecimento do

uso de celular ao dirigir. . . 97 Figura 38 Ű Exemplos de imagens do banco de treinamento

utili-zado nos experimentos. Na primeira linha encontram-se imagens positivas e na encontram-segunda linha exemplo de imagens negativas. . . 100 Figura 39 Ű Exemplo de quadros com problema de

pré-processa-mento. Os quadros (a), (b) e (c) são exemplos do motorista não encontrado. Exemplos de localização inválida do motorista encontram-se nos quadros (d), (e) e (f), onde os retângulos em vermelho mostram a localização encontrada para o motorista. . . 105 Figura 40 Ű Acurácia média dos classiĄcadores nos quadros dos

vídeos. . . 106 Figura 41 Ű Acurácia do MLP/Gaussiana 2n por período e vídeo,

sendo na Ągura (a), (b), (c), (d) e (e) mostrados os gráĄcos para os Vídeos 1, 2, 3, 4 e 5, respectivamente.107 Figura 42 Ű Exemplos de quadros com problema de

segmenta-ção. Nas Ąguras (a), (b) e (c) são mostradas a face do motorista, sendo suas respectivas segmentações encontradas nas Ąguras (d), (e) e (f), respectivamente.108 Figura 43 Ű GráĄco da acurácia média (MLP/Gaussiana 2n) por

(20)

(15 segundos sequenciais). . . 110 Figura 45 Ű GráĄco da acurácia média da detecção de movimento

por vídeos e para todos os vídeos, variando-se o ta-manho dobuffer de movimentação. . . 111 Figura 46 Ű GráĄco dos resultados obtidos combuffer de 10

qua-dros. . . 111 Figura 47 Ű Exemplo de sequência de quadros onde se detecta

a movimentação inválida ocasionada pelo desloca-mento dos raios solares no interior do veículo. . . 112 Figura 48 Ű GráĄco da acurácia com buffer de 10 quadros na

detecção em cada movimento. . . 112 Figura 49 Ű GráĄco da acurácia média do sistema híbrido

utili-zando os parâmetros:𝑐𝑜𝑟𝑡𝑒de 60% e todos os classiĄ-cadores em risco alto; e, para risco baixo, ŞGaussiana 2nŤ como𝑐𝑙𝑎𝑠𝑠𝑖𝑓 𝑖𝑐𝑎𝑑𝑜𝑟e𝑐𝑜𝑟𝑡𝑒 entre 65% e 90%. . . 114 Figura 50 Ű GráĄco da acurácia média por período, com todos os

vídeos e utilizando os parâmetros: corte de 60% em risco alto; e, para risco baixo, ŞGaussiana 2nŤ como classiĄcador e corte entre 65% e 90%. Os classiĄca-dores para risco alto utilizados nas Ąguras foram: (a) ŞSigmoide 7nŤ, (b) ŞGaussiana 2nŤ e (c) ŞGaussiana 7nŤ. Mostram-se com a elipse o melhor corte de risco baixo encontrado. . . 115 Figura 51 Ű Exemplo de quadro para os Vídeos 6, 7, 8, 9, 10 e 11. 117 Figura 52 Ű Acurácia do sistema de reconhecimento de padrões

para os Vídeos 6, 7, 8, 9, 10 e 11. . . 118 Figura 53 Ű Exemplos de quadros com problema de segmentação.

As regiões demarcadas pelos retângulos são onde os problemas ocorrem. Nas Ąguras (a), (c) são mostra-das a face do motorista, sendo suas respectivas seg-mentações encontradas nas Ąguras (b) e (d), respec-tivamente. . . 119 Figura 54 Ű GráĄco dos resultados obtidos com a DM. . . 119 Figura 55 Ű GráĄco da acurácia com a DM na detecção de cada

movimento. . . 120 Figura 56 Ű Acurácia do sistema híbrido para os Vídeos 6, 7, 8,

(21)

Figura 59 Ű Exemplos de quadros de saída do sistema híbrido em tempo real utilizando o circuito de detecção do sinal de celular para ligar o sistemas. . . 139 Figura 60 Ű Modelo do sistema híbrido tendo como ativador o

circuito Detector de Sinal de Celular (Ativador). . . 140 Figura 61 Ű GráĄco dos classiĄcadores treinados por quadro e

ví-deo. . . 142 Figura 62 Ű Acurácia do SVM/Linear por período e vídeo, sendo

na Ągura (a), (b), (c), (d) e (e) mostrados os gráĄcos para os Vídeos 1, 2, 3, 4 e 5, respectivamente. A Ągura (f) apresenta a acurácia média por quadro em todos os vídeos. . . 146 Figura 63 Ű Acurácia do SVM/Polinomial por período e vídeo,

sendo na Ągura (a), (b), (c), (d) e (e) mostrados os gráĄcos para os Vídeos 1, 2, 3, 4 e 5, respectivamente. A Ągura (f) apresenta a acurácia média por quadro em todos os vídeos. . . 149 Figura 64 Ű Acurácia do SVM/RBF por período e vídeo, sendo

na Ągura (a), (b), (c), (d) e (e) mostrados os gráĄcos para os Vídeos 1, 2, 3, 4 e 5, respectivamente. A Ągura (f) apresenta a acurácia média por quadro em todos os vídeos. . . 152 Figura 65 Ű Acurácia do SVM/Sigmoide por período e vídeo, sendo

na Ągura (a), (b), (c), (d) e (e) mostrados os gráĄ-cos para os Vídeos 1, 2, 3, 4 e 5, respectivamente. A Ągura (f) apresenta a acurácia média por quadro em todos os vídeos. . . 155 Figura 66 Ű Acurácia do SVM/Sigmoide 2n por período e vídeo,

sendo na Ągura (a), (b), (c), (d) e (e) mostrados os gráĄcos para os Vídeos 1, 2, 3, 4 e 5, respectivamente. A Ągura (f) apresenta a acurácia média por quadro em todos os vídeos. . . 159 Figura 67 Ű Acurácia do SVM/Sigmoide 7n por período e vídeo,

(22)

gráĄcos para os Vídeos 1, 2, 3, 4 e 5, respectivamente. A Ągura (f) apresenta a acurácia média por quadro em todos os vídeos. . . 167 Figura 69 Ű Acurácia do SVM/Gaussiana 7n por período e vídeo,

(23)

Lista de tabelas

Tabela 1 Ű Correlação entre Evolução Natural e Algoritmo Ge-nético. . . 54 Tabela 2 Ű Tabela de comparação entre os trabalhos

relaciona-dos e os sistemas propostos no Capítulo 4. . . 77 Tabela 3 Ű Informações sobre os vídeos. . . 99 Tabela 4 Ű Parâmetros utilizados no AG para o SVM. . . 101 Tabela 5 Ű Parâmetros utilizados no AG para MLP. . . 101 Tabela 6 Ű Acurácia dos kernelsSVM. . . 102 Tabela 7 Ű Acurácia das funções de ativação do MLP. . . 103 Tabela 8 Ű Erros durante a procura pelo motorista (pré-processamento).

As colunas Şnão encontradoŤ e ŞincorretoŤ represen-tam quadros em que o motorista não foi localizado e quadros cuja localização é inválida, respectivamente.104 Tabela 9 Ű Número de períodos por vídeo. . . 104 Tabela 10 Ű Acurácia para o sistema de RP em cada vídeo em

ambiente real, utilizando corte de 60% e𝑐𝑙𝑎𝑠𝑠𝑖𝑓 𝑖𝑐𝑎𝑑𝑜𝑟 ŞGaussiana 2nŤ. . . 109 Tabela 11 Ű Acurácia do sistema híbrido para cada vídeo em

am-biente real utilizando os parâmetros: 𝑐𝑙𝑎𝑠𝑠𝑖𝑓 𝑖𝑐𝑎𝑑𝑜𝑟 ŞGaussiana 7nŤ e 𝑐𝑜𝑟𝑡𝑒 de 60% para risco alto; e 𝑐𝑙𝑎𝑠𝑠𝑖𝑓 𝑖𝑐𝑎𝑑𝑜𝑟ŞGaussiana 2nŤ e 𝑐𝑜𝑟𝑡𝑒 de 85% para risco baixo. . . 114 Tabela 12 Ű Informações sobre os vídeos (outros motoristas). . . 116 Tabela 13 Ű Número de períodos por vídeo. . . 117 Tabela 14 Ű Tabela de comparação entre os trabalhos

relaciona-dos e os sistemas propostos no Capítulo 4. . . 124 Tabela 15 Ű Acurácia para oskernels do SVM por quadro. . . . 141 Tabela 16 Ű Acurácia para as funções de ativação do MLP por

quadro. . . 142 Tabela 17 Ű Acurácia por corte no Vídeo 1 para okernel Linear. 143 Tabela 18 Ű Acurácia por corte no Vídeo 2 para okernel Linear. 143 Tabela 19 Ű Acurácia por corte no Vídeo 3 para okernel Linear. 144

Tabela 20 Ű Acurácia por corte no Vídeo 4 para okernel Linear. 144

Tabela 21 Ű Acurácia por corte no Vídeo 5 para okernel Linear. 144

Tabela 22 Ű Acurácia por corte nos Vídeos de 1 a 5 para okernel

Linear. . . 145 Tabela 23 Ű Acurácia por corte no Vídeo 1 para okernel

(24)

Tabela 25 Ű Acurácia por corte no Vídeo 3 para okernel Polino-mial. . . 147 Tabela 26 Ű Acurácia por corte no Vídeo 4 para okernel

Polino-mial. . . 147 Tabela 27 Ű Acurácia por corte no Vídeo 5 para okernel

Polino-mial. . . 147 Tabela 28 Ű Acurácia por corte nos Vídeos de 1 a 5 para okernel

Polinomial. . . 148 Tabela 29 Ű Acurácia por corte no Vídeo 1 para okernel RBF. . 148 Tabela 30 Ű Acurácia por corte no Vídeo 2 para okernel RBF. . 150 Tabela 31 Ű Acurácia por corte no Vídeo 3 para okernel RBF. . 150

Tabela 32 Ű Acurácia por corte no Vídeo 4 para okernel RBF. . 150

Tabela 33 Ű Acurácia por corte no Vídeo 5 para okernel RBF. . 151 Tabela 34 Ű Acurácia por corte nos Vídeos de 1 a 5 para okernel

RBF. . . 151 Tabela 35 Ű Acurácia por corte no Vídeo 1 para okernel Sigmoide.153 Tabela 36 Ű Acurácia por corte no Vídeo 2 para okernel Sigmoide.153 Tabela 37 Ű Acurácia por corte no Vídeo 3 para okernel Sigmoide.153

Tabela 38 Ű Acurácia por corte no Vídeo 4 para okernel Sigmoide.154

Tabela 39 Ű Acurácia por corte no Vídeo 5 para okernel Sigmoide.154 Tabela 40 Ű Acurácia por corte nos Vídeos de 1 a 5 para okernel

Sigmoide. . . 154 Tabela 41 Ű Acurácia por corte no Vídeo 1 para o MLP/Sigmoide

2n. . . 156 Tabela 42 Ű Acurácia por corte no Vídeo 2 para MLP/Sigmoide

2n. . . 156 Tabela 43 Ű Acurácia por corte no Vídeo 3 para MLP/Sigmoide

2n. . . 157 Tabela 44 Ű Acurácia por corte no Vídeo 4 para MLP/Sigmoide

2n. . . 157 Tabela 45 Ű Acurácia por corte no Vídeo 5 para MLP/Sigmoide

2n. . . 157 Tabela 46 Ű Acurácia por corte nos Vídeos de 1 a 5 para MLP/Sigmoide 2n. . . 158 Tabela 47 Ű Acurácia por corte no Vídeo 1 para MLP/Sigmoide

7n. . . 160 Tabela 48 Ű Acurácia por corte no Vídeo 2 para MLP/Sigmoide

(25)

Tabela 49 Ű Acurácia por corte no Vídeo 3 para MLP/Sigmoide 7n. . . 161 Tabela 50 Ű Acurácia por corte no Vídeo 4 para MLP/Sigmoide

7n. . . 161 Tabela 51 Ű Acurácia por corte no Vídeo 5 para MLP/Sigmoide

7n. . . 161 Tabela 52 Ű Acurácia por corte nos Vídeos de 1 a 5 para MLP/Sigmoide 7n. . . 162 Tabela 53 Ű Acurácia por corte no Vídeo 1 para MLP/Gaussiana

2n. . . 164 Tabela 54 Ű Acurácia por corte no Vídeo 2 para MLP/Gaussiana

2n. . . 164 Tabela 55 Ű Acurácia por corte no Vídeo 3 para MLP/Gaussiana

2n. . . 165 Tabela 56 Ű Acurácia por corte no Vídeo 4 para MLP/Gaussiana

2n. . . 165 Tabela 57 Ű Acurácia por corte no Vídeo 5 para MLP/Gaussiana

2n. . . 165 Tabela 58 Ű Acurácia por corte nos Vídeos de 1 a 5 para MLP/Gaussiana

2n. . . 166 Tabela 59 Ű Acurácia por corte no Vídeo 1 para MLP/Gaussiana

7n. . . 168 Tabela 60 Ű Acurácia por corte no Vídeo 2 para MLP/Gaussiana

7n. . . 168 Tabela 61 Ű Acurácia por corte no Vídeo 3 para MLP/Gaussiana

7n. . . 169 Tabela 62 Ű Acurácia por corte no Vídeo 4 para MLP/Gaussiana

7n. . . 169 Tabela 63 Ű Acurácia por corte no Vídeo 5 para MLP/Gaussiana

7n. . . 169 Tabela 64 Ű Acurácia por corte nos Vídeos de 1 a 5 para MLP/Gaussiana

(26)
(27)

Lista de algoritmos

(28)
(29)

Lista de abreviaturas e siglas

ADAS Sistemas Avançados de Assistência ao Condutor ( Ad-vanced Driver Assistance Systems)

AG Algoritmo Genético DM Detecção de Movimento EE Elemento Estruturante EH Equalização do Histograma

HB Sistema Híbrido

HSV Espaço de cor que utiliza, na formação de cores, as componentes Matiz (Hue), Saturação (Saturation) e

Brilho (Value)

MI Momento de Inércia (ver Seção 4.1.3)

MLP Rede Neural Multicamadas de Perceptrons ( Multi-layer Perceptron)

MM Morfologia Matemática nm Nanômetros ou 10⊗9 metros

PM Percentual de Mão (ver Seção 4.1.3)

RGB Espaço de cor que utiliza, na formação de cores, as componentes Vermelha (Red), Verde (Green) e Azul

(Blue)

RP Reconhecimento de Padrão

SVM Máquinas de Vetores de Suporte (Support Vector Ma-chines)

(30)
(31)

Lista de símbolos

◇ Abertura morfológica

𝜕 Derivada parcial

à Desvio Padrão

⊕ Dilatação morfológica

− Erosão morfológica

∙ Fechamento morfológico

∇ Gradiente

Û Momento Regular Central (imagem)

Ö Momento Regular Central Normalizado (imagem)

e Número de Euler

(32)
(33)

Sumário

(34)

4.1.1 Pré-processamento . . . 80 4.1.2 Segmentação . . . 81 4.1.3 Extração das Características . . . 84 4.2 Detecção de Movimento . . . 85 4.2.1 Pré-processamento . . . 85 4.2.2 Segmentação . . . 88 4.2.3 Análise de Movimento . . . 88 4.3 Proposta Híbrida . . . 93

5 EXPERIMENTOS, RESULTADOS E DISCUSSÕES 99

5.1 Aplicação em Ambiente Real e Parametrização . . . . 99 5.1.1 Proposta de Reconhecimento de Padrões . . . 100 5.1.1.1 Análise em Períodos . . . 104 5.1.1.2 Solução em Tempo Real . . . 106 5.1.2 Proposta de Detecção de Movimento . . . 109 5.1.3 Proposta Híbrida . . . 113 5.2 Aplicação das Propostas em Outros Motoristas . . . 116 5.2.1 Proposta de Reconhecimento de Padrões . . . 116 5.2.2 Proposta de Detecção de Movimento . . . 118 5.2.3 Proposta Híbrida . . . 119 5.3 Considerações . . . 121 6 CONSIDERAÇÕES FINAIS . . . 123 6.1 Conclusões . . . 123 6.2 Contribuições . . . 125 6.3 Trabalhos Futuros . . . 126 Referências . . . 127 APÊNDICE A Circuito Detector de Sinal de Celular . 137 APÊNDICE B Informações Complementares dos

(35)
(36)
(37)

35

1

INTRODUÇÃO

A distração ao volante (REGAN; LEE; YOUNG, 2008; PEIS-SNER; DOEBLER; METZE, 2011), ou seja, uma ação que leve o mo-torista a desviar a atenção da pista por alguns segundos, representa aproximadamente metade dos casos de acidentes no trânsito. Discar um número de telefone, por exemplo, consome cerca de 5 segundos, implicando em 140 metros percorridos por um automóvel a 100 km/h (BALBINOT; ZARO; TIMM, 2011). Em um estudo feito em Washing-ton por Virginia Tech Transportation Institute revelou, após 43 mil horas de testes, que quase 80% das colisões e 65% das quase colisões envolveram motoristas que não estavam prestando a devida atenção ao trânsito por três segundos antes do evento.

Em outubro 2011, quando os aparelhos de uma operadora de Abu Dhabi (Emirados Árabes) estiveram fora do ar por três dias, os acidentes foram reduzidos em 40%, indicando a grande responsabilidade do celular como uma distração ao volante. No Brasil, o número de multas no trânsito pelo uso de celulares aumentou em 150% em 5 anos (SALVADOR, 2011).

O Conselho Nacional de Segurança dos EUA indica que o uso de celular e escrita de mensagens na direção causam ao menos 28% dos acidentes de trânsito naquele país (NSC, 2010). Cerca de 85% dos mo-toristas americanos já usaram celular enquanto dirigiam (GOODMAN et al., 1997). Na Figura 1, mostra-se o gráĄco do percentual médio de veículos em circulação entre os anos de 2002 a 2010 nas rodovias ameri-canas, sendo conduzidos por pessoas em ligação telefônica. Durante este período, a cada instante, entre 4% e 6% dos motoristas estavam usando celular no trânsito (NHTSA, 2011). Falar ao celular enquanto dirige au-menta o risco de colisão de 4 a 6 vezes (REDELMEIER; TIBSHIRANI, 1997; STRAYER; DREWS, 2004).

Em alguns países permite-se efetuar ligações telefônicas em

hands-free (fones de ouvido ou viva-voz), porém seu uso distrai o

mo-torista de modo similar à utilização do celular ao ouvido (ISHIGAMI; KLEIN, 2009). Conversas entre o motorista e passageiro do veículo não causam distrações, em algumas ocasiões, até ajudam alertando aos motoristas de perigos iminentes (DREWS; PASUPATHI; STRAYER, 2008).

(38)

Figura 1 Ű Percentual de veículos, nas rodovias americanas, sendo di-rigidos por pessoas com o celular ao ouvido entre 2002 e 2010.

0 2 4 6 8 10

2002 2003 2004 2005 2006 2007 2008 2009 2010

(%

)

Ano

Fonte: (NHTSA, 2011).

Drews e Johnston (2003) nota-se uma redução no processamento de informações visuais quando os participantes estavam conversando ao celular. Falar ao celular representa um aumento signiĄcativo da distra-ção cognitiva (STRAYER et al., 2013).

Neste trabalho são apresentadas três propostas de soluções: uma utilizando reconhecimento de padrões, outra a partir da detecção de movimento e, por Ąm, uma híbrida mesclando as duas primeiras propostas.

1.1 Objetivos

Nas subseções a seguir seguem o objetivo geral e os especíĄcos deste trabalho.

1.1.1

Geral

(39)

1.2. Escopo 37

1.1.2

Específicos

∙ Buscar formas de segmentação da pele humana em imagens colo-ridas, possibilitando assim obter a área da imagem onde o moto-rista está;

∙ Escolher características que, extraídas do vídeo, permitam a iden-tiĄcação da utilização do celular frontalmente;

∙ Testar algoritmos de classiĄcação que permitam a maximização

da acurácia do sistema;

∙ Efetuar análise de movimento em relação ao posicionamento de mãos com base em Ćuxo ótico;

∙ Buscar equipamentos e arquiteturas disponíveis que possibilitem

a utilização do sistema de detecção em tempo real.

1.2 Escopo

O escopo do trabalho está limitado a Computação GráĄca, na tarefa de detectar o uso do telefone celular ao ouvido por motoristas de veículos. Devem-se utilizar imagens adquiridas frontalmente ao mo-torista. A pesquisa deve empregar câmeras passivas e, por esta razão, o sistema resultante é para uso apenas durante a parte clara do dia.

1.3 Resultados Esperados

(40)

1.4 Estrutura do Texto

(41)

39

2

CONCEITOS

Este capítulo apresenta os conceitos necessários à compreensão da abordagem que será utilizada neste trabalho.

2.1 Modelos de Cores

Cor é uma reação cerebral a um estímulo especíĄco visual (FORD; ROBERTS, 1998), ou seja, é uma maneira pela qual a visão humana mede ou percebe parte do espectro eletromagnético. Células sensíveis a luz vermelha, verde e azul, combinadas, são responsáveis por identiĄcar as cores nos seres humanos, estando aptos a ver entre 300 e 830 nm (nanômetros) do espectro eletromagnético (TKALCIC; TASIC, 2003). O cérebro tende a agrupar variações de cores próximas como iguais já que possui limitação de percepção.

Em termos computacionais pode-se deĄnir cor como sendo um atributo de percepção visual que consiste em combinação de conteúdo cromático e acromático (FAIRCHILD, 2005). Precisa-se adotar uma notação especíĄca de cores, com o intuito, de padronizar de alguma forma seu uso. Surge então a ideia do espaço de cor.

Espaço de cor é um método para se especiĄcar cores (POYN-TON, 1997; FORD; ROBERTS, 1998; TKALCIC; TASIC, 2003). Exis-tem diversos espaços de cor, alguns deles visam facilitar a percepção (pela semelhança com o sistema visual humano), já outros possuem características tecnológicas (facilidade de representação e transmissão) (FONSECA, 2009). Tkalcic e Tasic (2003) propuseram uma categori-zação, conforme sua Ąnalidade ou utilicategori-zação, dos espaços de cores em:

Sistema visual humano: São espaços de cores que se baseiam nas

propriedades do sistema visual humano. RGB (ver Seção 2.1.1) e HSV (ver Seção 2.1.2) pertencem a esta classiĄcação.

Espaços de cores de aplicação específica: Incluem espaços de

co-res adotados em sistemas de televisão, sistemas de foto e sistemas de impressão. São espaços criados com um objetivo especíĄco. YCbCr (ver Seção 2.1.3) está nesta categoria.

Espaços CIE: São espaços da CIE ou Comissão Internacional de

Ilu-minação que possui propostas com propriedades especíĄcas e re-levantes.

(42)

2.1.1

Espaço de Cor RGB

RGB (Red,Green,Blue) é um espaço de cor baseado na combi-nação (sistema aditivo) de três componentes:𝑅(vermelho),𝐺(verde) e 𝐵(azul). Da combinação dessas componentes surgem todas as cores do espectro, conforme exempliĄcado na Figura 2. O espaço de cor RGB representa a cor de maneira similar ao olho humano, por essa razão pertence a categoria de sistemas visual humano (TKALCIC; TASIC, 2003).

Figura 2 Ű Espaço de cor RGB.

Vermelho

Verde Azul

Fonte: Adaptado de (FONSECA, 2009).

O valor de cada componente é descrito pela soma da respectiva função de sensibilidade e a luz conforme descrita nas Equações 2.1, 2.2 e 2.3 (TKALCIC; TASIC, 2003), onde𝑆(Ú) é o espectro da luz,𝑅(Ú), 𝐺(Ú) e 𝐵(Ú) são as funções de intensidade para sensores R, G e B respectivamente.

∫︁ 830

300

(43)

2.1. Modelos de Cores 41

∫︁ 830

300

𝑆(Ú)𝐺(Ú)dÚ (2.2)

∫︁ 830

300

𝑆(Ú)𝐵(Ú)dÚ (2.3)

O RGB é um dos espaços de cores mais comuns, sendo usado em sistemas computacionais como televisão, vídeos, etc.

2.1.2

Espaço de Cor HSV

HSV é um espaço de cor transformado linearmente do RGB e formado por três componentes: Hue (matiz/tonalidade), Saturation

(saturação) e Value (intensidade/brilho). A grande vantagem do HSV para o RGB está na maneira intuitiva de se especiĄcar a cor. É mais simples selecionar uma tonalidade desejada e, em seguida, modiĄcá-la levemente pelo ajuste da saturação e brilho (FORD; ROBERTS, 1998). Na Figura 3, mostra-se a ideia empregada pelo HSV para gerar cores.

Figura 3 Ű Espaço de cor HSV.

Saturação

Valor

Matiz ou Tonalidade

Fonte: Adaptado de (TKALCIC; TASIC, 2003).

(44)

Matiz: Atributo da sensação visual de acordo com o qual áreas apre-sentam-se com similar percepção das cores: vermelho, amarelo, verde e azul, ou qualquer combinação entre duas dessas.

Saturação: Pode-se entender a saturação também como a ŞpurezaŤ

da cor. Quanto menor for seu valor mais cinza será apresentada na imagem. Quanto maior for seu valor menos alteração se dá na cor (mais ŞpuraŤ).

Brilho: Quantidade de luz emitida em uma área.

Na conversão de RGB para HSV utiliza-se diretamente as Equa-ções 2.4 e 2.5 para encontrar os valores das componentes 𝑆 e 𝑉, res-pectivamente; para encontrar a tonalidade (𝐻), primeiramente deve-se encontrar os valores de𝑅, 𝐺e𝐵usando as Equações 2.6, 2.7 e 2.8 e,

em seguida, aplicar o algoritmo descrito no Algoritmo 1 (FORD; RO-BERTS, 1998). As equações e algoritmos resultam em valores entre 0 e 1 para𝑆 e𝑉 e entre 0 e 360 graus para𝐻.

𝑆= max(𝑅, 𝐺, 𝐵)⊗min(𝑅, 𝐺, 𝐵)

max(𝑅, 𝐺, 𝐵) (2.4)

𝑉 = max(𝑅, 𝐺, 𝐵) (2.5)

𝑅′= max(𝑅, 𝐺, 𝐵)⊗𝑅

max(𝑅, 𝐺, 𝐵)⊗min(𝑅, 𝐺, 𝐵) (2.6)

𝐺′= max(𝑅, 𝐺, 𝐵)⊗𝐺

max(𝑅, 𝐺, 𝐵)⊗min(𝑅, 𝐺, 𝐵) (2.7)

𝐵′= max(𝑅, 𝐺, 𝐵)⊗𝐵

max(𝑅, 𝐺, 𝐵)⊗min(𝑅, 𝐺, 𝐵) (2.8) A separação entre a informação de luminância (luz -𝑉) e da crominância (cor -𝐻 e𝑆) é mais vantajosa para aplicações de proces-samento de imagens (FORD; ROBERTS, 1998).

2.1.3

Espaço de Cor YCbCr

(45)

2.2. Momentos de Hu 43

Algoritmo 1 Obtenção do H (tonalidade), onde,𝑅, 𝐺′ e𝐵′ são

cal-culados pelas Equações 2.6, 2.7 e 2.8, respectivamente.

1: se𝑆 = 0então

2: 𝐻𝑛𝑢𝑙𝑜 Sem tonalidade

3: senão se𝑅=𝑚𝑎𝑥(𝑅, 𝐺, 𝐵)e𝐺=𝑚𝑖𝑛(𝑅, 𝐺, 𝐵)então

4: 𝐻 ⊂5 +𝐵

5: senão se𝑅=𝑚𝑎𝑥(𝑅, 𝐺, 𝐵)e𝐺̸=𝑚𝑖𝑛(𝑅, 𝐺, 𝐵)então

6: 𝐻 ⊂1⊗𝐺

7: senão se𝐺=𝑚𝑎𝑥(𝑅, 𝐺, 𝐵)e𝐵=𝑚𝑖𝑛(𝑅, 𝐺, 𝐵)então

8: 𝐻𝑅+ 1

9: senão se𝐺=𝑚𝑎𝑥(𝑅, 𝐺, 𝐵)e𝐵̸=𝑚𝑖𝑛(𝑅, 𝐺, 𝐵)então

10: 𝐻 ⊂3⊗𝐵

11: senão se𝑅=𝑚𝑎𝑥(𝑅, 𝐺, 𝐵)então

12: 𝐻 ⊂3 +𝐺

13: senão

14: 𝐻 ⊂5⊗𝑅

15: fim se

16: 𝐻𝐻×60 Conversão para graus

Fonte: Baseado em (FORD; ROBERTS, 1998).

Na conversão de RGB para YCbCr utiliza-se diretamente as Equações 2.9, 2.10 e 2.11 para se obter os valores de 𝑌, 𝐶𝑏 e 𝐶𝑟, respectivamente (as componentes do RGB devem estar previamente normalizadas entre 0 e 1) (BHASKARAN; KONSTANTINIDES, 1997). Na Figura 4, mostra-se o plano𝐶𝑏𝐶𝑟com𝑌 = 0,5.

𝑌 = 0.299(𝑅⊗𝐺) +𝐺+ 0.114(𝐵⊗𝐺) (2.9)

𝐶𝑏= 0.564(𝐵⊗𝑌) (2.10)

𝐶𝑟= 0.713(𝑅⊗𝑌) (2.11)

2.2 Momentos de Hu

(46)

Figura 4 Ű Plano𝐶𝑏𝐶𝑟 com𝑌 = 0,5.

Fonte: Wikipedia, artigo YCbCr

(http://en.wikipedia.org/wiki/YCbCr acessado em 14/08/2013).

PROKOP; REEVES, 1992; MUKUNDAN; RAMAKRISHNAN, 1998). Hu (1962) apresentou 7 momentos que são conhecidos como Momentos Invariantes de Hu. Estes momentos são invariantes à escala, rotação e reĆexão (BRADSKY; KAEHLER, 2008).

O cálculo do Momento de Hu inicia-se com o Momento Regular que em uma imagem se dá pela Equação 2.12, onde,𝑝e𝑞são as ordens do momento, 𝑓(𝑥, 𝑦) a intensidade (0 ou 1 em imagens binárias) do

(47)

2.3. Viola-Jones 45

e altura da imagem. O centro de gravidade ou centroide da imagem (𝑥𝑐, 𝑦𝑐) são deĄnidos por (𝑚𝑚1000,𝑚𝑚0100), sendo𝑚00a área segmentada em imagens binárias. Momentos Centrais (Û𝑝𝑞) são deĄnidos pela Equa-ção 2.13, onde o momento é calculado levando-se em conta o centroide da imagem, obtendo-se então invariância à rotação e à reĆexão. Para que os momentos sejam invariantes à escala, deve-se normalizá-los com a Equação 2.14.

𝑚𝑝𝑞= 𝑛x ∑︁ 𝑥=1 𝑛y ∑︁ 𝑦=1

𝑥𝑝𝑦𝑞𝑓(𝑥, 𝑦) (2.12)

Û𝑝𝑞= 𝑛x ∑︁ 𝑥=1 𝑛y ∑︁ 𝑦=1

(𝑥⊗𝑥𝑐)𝑝(𝑦𝑦𝑐)𝑞𝑓(𝑥, 𝑦) (2.13)

Ö𝑝𝑞= Û𝑝𝑞

Û(1+

n+q 2 )

00

(2.14) De todos os 7 Momentos de Hu o primeiro Momento de Inércia (𝑀 𝐼) é o único utilizado neste trabalho. O 𝑀 𝐼 mede a dispersão dos pontos na imagem. Em outras palavras, resume a forma da imagem em um valor numérico. O resultado do 𝑀 𝐼 para o mesmo objeto em escalas diferentes é um valor próximo. No caso de objetos com formas distintas, os valores de𝑀 𝐼tendem a se distanciar entre si. DeĄne-se o momento de inércia 𝑀 𝐼, enĄm, pela Equação 2.15.

𝑀 𝐼=Ö20+Ö02 (2.15)

O objetivo de se optar pelo 𝑀 𝐼 é observar padrões diferentes para pessoas utilizando ou não o celular na imagem segmentada. Nas Figuras 5 (a) e (b), simulam-se a segmentação da cabeça de uma pessoa em escala e posição distintas, obtendo-se o valor de 0,162 para𝑀 𝐼em ambas as imagens. A segmentação simulada de uma pessoa com um de seus braços levantado (representando a situação da mão segurando o celular ao ouvido) são mostradas nas Figuras 5 (c), (d), (e) e (f), sendo para todas, 𝑀 𝐼 igual a 0,170. O valor de 𝑀 𝐼 para quadrados, não importando tamanho, posição ou escala, é de 0,166 como são mostrados nas Figuras 5 (g) e (h). Este valor é útil, portanto, para discriminar as formas de interesse deste trabalho.

2.3 Viola-Jones

(48)

Figura 5 Ű Exemplos de imagens e seus respectivos Momentos de Inér-cia (MI) calculados.

(a) MI=0,162 (b) MI=0,162 (c) MI=0,170 (d) MI=0,170

(e) MI=0,170 (f) MI=0,170 (g) MI=0,166 (h) MI=0,166

Fonte: produção do próprio autor.

brancos e pretos, para detectar a face (BRADSKY; KAEHLER, 2008). Na Figura 6, um exemplo de janela com características dispersas é mos-trado. Estas características podem ter dimensões e posições arbitrárias dentro da janela candidata a face. A saída de uma característica é cal-culada pela equação𝑓(𝑤) =√︁𝑤

𝑅𝑝𝑟𝑒𝑡𝑎⊗√︁𝑤𝑅𝑏𝑟𝑎𝑛𝑐𝑎, onde:

𝑓(𝑤) é o valor da característica na janela 𝑤; √︁𝑤

𝑅𝑝𝑟𝑒𝑡𝑎 é o somatório dos ní-veis dos pixels na região preta; e √︁𝑤

𝑅𝑏𝑟𝑎𝑛𝑐𝑎, o somatório dos pixels

na região branca. Se𝑓(𝑤)< 𝑐𝑜𝑟𝑡𝑒, então a característica está presente (válida). O valor de𝑐𝑜𝑟𝑡𝑒 é encontrado durante a fase de treinamento do classiĄcador, utilizando-se imagens positivas (com face) e negativas (sem face).

Uma das principais contribuições do método se dá pela utili-zação da Şintegral da imagemŤ (CROW, 1984) na soma dos níveis de cinza de uma região retangular. Cada pixel, da integral da imagem, representa a soma dos valores dos pixels à esquerda, acima e de seu correspondente valor na imagem original. Com a Equação 2.16, gera-se a integral da imagem, onde: 𝑖𝑖(𝑥, 𝑦) é o valor do pixel com localiza-ção (𝑥, 𝑦), na integral da imagem, e𝑖(𝑥, 𝑦) é o nível correspondente a

posição (𝑥′, 𝑦) da imagem original. Para se obter o somatório de uma

(49)

2.3. Viola-Jones 47

Figura 6 Ű Disposição dosHaar-like-features em uma região candidata a face.

Exemplo de Haar-like-features

Fonte: produção do próprio autor.

em que as regiões 𝐴,𝐵 ou𝐶 tenham área nula, seus respectivos valo-res para 𝑖𝑖(𝐴), 𝑖𝑖(𝐵) e 𝑖𝑖(𝐶) são 0 (zero). Com este método, o tempo gasto no cálculo do somatório dos pixels de uma região retangular é

constante, não importando a área da região. 𝑖𝑖(𝑥, 𝑦) = ∑︁

𝑥′⊘𝑥,𝑦′⊘𝑦

𝑖(𝑥, 𝑦) (2.16)

∑︁

(𝑥,𝑦)∈𝐷

𝑖(𝑥, 𝑦) =𝑖𝑖(𝐷) +𝑖𝑖(𝐴)𝑖𝑖(𝐵)⊗𝑖𝑖(𝐶) (2.17)

(50)

Figura 7 Ű Exemplo do cálculo do somatório de uma região usando in-tegral da imagem.

A

B

C

D

ii(A) ii(B)

ii(C) ii(D)

Fonte: produção do próprio autor.

não executando os classiĄcadores subsequentes. Para os cinco primeiros nós da cascata sugere-se, então, utilizar 1, 10, 25, 25 e 50 classiĄcadores fracos, respectivamente (VIOLA; JONES, 2001).

Figura 8 Ű Cascata de classiĄcadores fortes.

V

F F F

V V

1

2

3

Entrada da Janela

Janela Rejeitada

Processamento Adicional

Fonte: (ZHANG; ZHANG, 2010).

(51)

2.4. Reconhecimento de Padrões 49

analisada. Ao Ąnal têm-se todas as faces existentes na imagem.

2.4 Reconhecimento de Padrões

O Reconhecimento de Padrão (RP) preocupa-se com a detec-ção automática de regularidades (padrão) nos dados pela utilizadetec-ção de algoritmos computacionais que possibilitam a classiĄcação de dados em classes ou categorias distintas (BISHOP; NASRABADI, 2006; THEO-DORIDIS; KOUTROUMBAS, 2009). RP pode ser integrado a sistemas de Visão Computacional dotando-os da capacidade de classiĄcar (reco-nhecer) objetos ou padrões capturados.

Nas subseções a seguir, ferramentas de suporte à classiĄcação em RP são apresentadas.

2.4.1

Máquinas de Vetores de Suporte (SVM)

A SVM (Máquinas de Vetores de Suporte) foi introduzida por Vapnik em 1995 e é uma ferramenta de classiĄcação binária (VAPNIK, 1995). Considerando um conjunto de dados¶(𝑥⃗1, 𝑦1),≤ ≤ ≤,(⃗𝑥𝑢, 𝑦𝑢)♢ de entrada𝑥𝑖⃗𝑅𝑑(sendo𝑑o espaço dimensional) e saída𝑦𝑖 ∈ ¶⊗1,+1♢, a ideia central da técnica é gerar um hiperplano ótimo para separar duas classes de objetos. O hiperplano é escolhido para maximizar separação entre duas classes, gerado com base em vetores de suporte (WANG, 2005). A fase de treinamento consiste na escolha dos vetores de suporte entre os dados de treinamento previamente rotulados. Na Figura 9, tem-se uma visão geral do funcionamento do SVM para duas características (C1 e C2) e duas classes (círculos e quadrados).

Com a SVM é possível utilizar algumas funções dekernelspara

tratar dados não lineares (não possuem margem de separação linear entre classes). A função de kernel transforma os dados originais em um espaço de características de alta dimensionalidade, onde as sepa-rações não lineares podem se apresentar sob forma linear (STANIMI-ROVA et al., 2010). Dentre os kernels existentes pode-se citar: Line-ar (Equação 2.18), Polinomial (Equação 2.19), Radial basis function

(Equação 2.20) e Sigmoide (Equação 2.21). A escolha de uma função adequada (mais acurada) e de parâmetros (Ò, 𝑑𝑒𝑔𝑟𝑒𝑒 e 𝑐𝑜𝑒𝑓0) corre-tos são importantes passos para atingir a alta acurácia do sistema de classiĄcação.

(52)

Figura 9 Ű Esboço do conceito de classiĄcador proposto nas SVMs.

Margem

Hiperplano de Separação

Vetores de Suporte C2

C1

Fonte: Adaptado de (MEYER, 2012).

𝐾(⃗𝑥𝑖, ⃗𝑥𝑗) = (Ò(⃗𝑥𝑖⃗𝑥𝑗) +𝑐𝑜𝑒𝑓0)𝑑𝑒𝑔𝑟𝑒𝑒, Ò >0 (2.19)

𝐾(⃗𝑥𝑖, ⃗𝑥𝑗) = eÒ‖(⃗𝑥i+⃗𝑥j)‖2, Ò >0 (2.20)

𝐾(⃗𝑥𝑖, ⃗𝑥𝑗) =𝑡𝑎𝑛ℎ(Ò(⃗𝑥𝑖⃗𝑥𝑗) +𝑐𝑜𝑒𝑓0) (2.21) Após a escolha da função de kernel adequada para o classiĄ-cador, pode-se iniciar o seu treinamento. Na Equação 2.22, precisa-se maximizar os valores do vetor⃗Ð. Este é um problema em otimização de programação quadrática (HEARST et al., 1998) e sujeito as restrições (para qualquer 𝑖 = 1, ..., 𝑢, sendo𝑢a quantidade de dados de treina-mento): 0⊘Ð𝑖𝐶 e√︁𝑢

𝑖=1Ð𝑖𝑦𝑖= 0. O parâmetro de penalização 𝐶é um controle da relação entre a complexidade do algoritmo e o número de amostras do treinamento classiĄcados erroneamente.

𝑊(⃗Ð) = 𝑢

∑︁

𝑖=1 Ð𝑖⊗1

2 𝑢

∑︁

𝑖,𝑗=1

(53)

2.4. Reconhecimento de Padrões 51

O cálculo do limiar𝑏se dá por meio da Equação 2.23. Deve-se calcular para todos os vetores de suporte⃗𝑥𝑗 (0⊘Ð𝑗𝐶) e adota-se a média de todos os cálculos como valor de 𝑏.

𝑏=𝑦𝑗

𝑙

∑︁

𝑖=1

𝑦𝑖Ð𝑖𝐾(⃗𝑥𝑖, ⃗𝑥𝑗) (2.23) Para executar a classiĄcação de um novo vetor de característica

𝑥utiliza-se a Equação 2.24, sendoÚ𝑖=𝑦𝑖Ð𝑖e a função matemática𝑠𝑖𝑔𝑛 responsável pela extração do sinal de um número real, apresentando

⊗1 para valores negativos, 0 para valor igual a zero e +1 para valores positivos. Na Figura 10, mostra-se, de maneira geral, a arquitetura da SVM utilizando 4 vetores de suporte (⃗𝑥1,⃗𝑥2,⃗𝑥3 e⃗𝑥4) e os comparando a um novo vetor de entrada (⃗𝑥𝑖).

𝑓(⃗𝑥) =𝑠𝑖𝑔𝑛(∑︁ 𝑖

Ú𝑖𝐾(⃗𝑥, ⃗𝑥𝑖) +𝑏) (2.24)

Figura 10 Ű Arquitetura da SVM. A função de kernel 𝐾 determina o tipo de classiĄcador (ex: Polinomial). Todos os outros parâmetros são encontrados durante o treinamento.

f(x) = sign( + b)

K K K K

7 1 4 1

1

1 2 3 4

classificação

pesos

comparação (kernel)

entrada do vetor x

vetores de suporte

x1 ... x4

Fonte: (SCHÖLKOPF, 1997).

2.4.2

Multilayer Perceptron (MLP)

(54)

in-ventou o perceptron que é uma rede neural de alimentação simples (MEHROTRA; MOHAN; RANKA, 1996). Com um perceptron pode-se resolver problemas linearmente pode-separáveis. Perceptrons com mais de uma camada de ligações variavelmente ponderadas são referidos como

perceptronsmulticamadas (MLP) (JAIN; MAO; MOHIUDDIN, 1996).

A rede MLP pode resolver problemas não lineares e é uma ferramenta de classiĄcação multiclasses.

Existem três tipos de camadas presentes em uma rede MLP (JAIN; MAO; MOHIUDDIN, 1996). A primeira camada é responsável por receber os dados, não realizando nenhum tipo de processamento e seu número de neurônios é igual à quantidade de variáveis (característi-cas). A última camada é denominada camada de saída, pois é a camada responsável por retornar a resposta calculada pela rede. A quantidade de neurônios desta camada depende da quantidade de saídas da rede. Entre estas pode haver uma ou mais camadas intermediárias (ocultas), dependendo da complexidade do problema. Na Figura 11, é mostrado um exemplo de uma rede MLP com 4 neurônios na camada de entrada, 3 neurônios na camada intermediária e 2 neurônios na camada de saída. Individualmente, um neurônio tem as ligações de entrada (que recebem da camada anterior) e ligações de saída (passa a resposta para a camada seguinte). Cada valor de entrada do neurônio é multiplicado pelo seu respectivo peso e os resultados são somados e adicionados ao

bias (peso do neurônio) (MEHROTRA; MOHAN; RANKA, 1996). A soma resultante 𝑠 é transformada utilizando uma função de ativação 𝑓(𝑠). Nas Equações 2.25, 2.26 e 2.27 são mostradas, respectivamente, as funções de ativação: Identidade, Sigmoide Simétrica e Gaussiana. A camada de entrada utiliza a função de ativação Identidade, pois esta camada possui função apenas de propagação dos valores de entrada (ca-racterísticas) para a camada seguinte. A escolha da função de ativação correta e dos parâmetros (Ð e Ñ) ajustados ao problema, nas demais camadas, levam a alta acurácia do classiĄcador.

𝑓(𝑠) =𝑠 (2.25)

𝑓(𝑠) = Ñ(1⊗e

Ð𝑠)

(1 + e⊗Ð𝑠) (2.26)

𝑓(𝑠) =ÑeÐ𝑠2 (2.27)

(55)

2.4. Reconhecimento de Padrões 53

Figura 11 Ű Um diagrama esquemático de uma rede MLP de três ca-madas.

x1

x2

x3

x4

y1

y2

Camada de entrada

Camada Intermediária

Camada de Saída

Fonte: produção do próprio autor.

melhoram a acurácia da rede e se dá pela redução gradual do erro da rede. Os erros são estimados utilizando-se os valores de treinamentos já previamente rotulados.

2.4.3

Validação Cruzada

Validação cruzada (cross-validation) avalia a competência de

generalização de um modelo, partindo-se de um conjunto de dados in-dependentes (KOHAVI, 1995). Esta técnica é principalmente empre-gada em sistemas preditivos e quando se quer estimar o quão acurado é o modelo na prática.

(56)

treinamento (várias vezes) e testes (uma única vez), resultando em 𝑃 classiĄcadores (treinamentos distintos). Usando validação cruzada aumenta-se o custo computacional pela necessidade de se gerar vários classiĄcadores em vez de apenas um (WEBB, 2002).

2.5 Algoritmo Genético

O Algoritmo Genético (AG) (GOLDBERG, 1989) é inspirado na biologia evolutiva e consiste na simulação da evolução de uma po-pulação (soluções candidatas) ao longo de algumas gerações (iterações) em busca do melhor indivíduo. Cada solução candidata tem suas pro-priedades (cromossomo) que, tradicionalmente, são representadas em cadeias binárias de zeros e uns, ou outras codiĄcações (WHITLEY, 1994). Na Tabela 1 mostra-se o relacionamento entre os elementos pre-sentes na evolução natural comparado ao AG.

Tabela 1 Ű Correlação entre Evolução Natural e Algoritmo Genético.

Evolução Natural Algoritmo Genético

genótipo sequência codiĄcada

fenótipo ponto decodiĄcado

cromossomo cadeia de valores

gene posição da cadeia

alelo valor em uma determinada posição

aptidão do indivíduo (Ątness) valor da função objetivo e restrições Fonte: (BODENHOFER, 2003).

AG é uma meta-heurística e costuma ser utilizado em soluções de otimização e problemas de busca (MITCHELL, 1999). As etapas de seu funcionamento são descritas no Algoritmo 2.

A transição de uma geração à próxima em AG possui quatro componentes básicos (BODENHOFER, 2003):

Seleção: Seleciona indivíduos para reprodução usando valores da

fun-ção deĄtness(Algoritmo 2 - linha 4).

Cruzamento: Combina a informação genética de dois indivíduos

(57)

2.5. Algoritmo Genético 55

Algoritmo 2 Etapas do Algoritmo Genético.

1: 𝑡⊂0;

2: computar oĄtness dos indivíduos da população inicial;

3: enquantocondição de parada não satisfeita faça

4: selecionar indivíduos para reprodução; 5: criar decendentes por cruzamento; 6: eventualmente mutar alguns indivíduos;

7: computar oĄtnessdos indivíduos da nova geração;

8: 𝑡𝑡+ 1;

9: fim enquanto

Fonte: (BODENHOFER, 2003).

Mutação: Realiza deformação randômica do código genético dos

in-divíduos usando uma determinada probabilidade. Tem efeito po-sitivo de preservar a diversidade e evitar máximos locais (Algo-ritmo 2 - linha 6).

Substituição: Computa uma nova geração partindo-se de uma

gera-ção anterior (Algoritmo 2 - linha 7).

2.5.1

População Inicial

A população inicial (Algoritmo 2 - linha 2) é usualmente ge-rada de forma aleatória, permitindo assim, que o espaço de busca seja melhor ocupado pelas soluções candidatas. Em alguns casos, quando se tem noção de onde estão as melhores soluções, pode-se ŞsemearŤ a população inicial em um espaço reduzido ou, até mesmo, escolher dire-tamente os indivíduos iniciais. O tamanho da população (𝑝𝑜𝑝) depende da natureza do problema. Quanto maior o número de indivíduos da po-pulação, o AG tende a gerar uma melhor ocupação do espaço de busca. Por outro lado, quanto menor for o número de indivíduos, mais rápida é a convergência do AG (muitas vezes para máximos regionais).

2.5.2

Seleção

(58)

Ątnessde cada indivíduo, que é a qualidade da solução do problema (o

quão adaptável é ao ambiente) (GOLDBERG, 1989).

Existem alguns métodos diferentes para realizar seleção e que podem inĆuenciar na solução Ąnal. Os métodos da roleta e torneio são mostrados nas seções seguintes.

2.5.2.1 Roleta

A roleta ou método de seleção proporcional baseia-se na pro-babilidade de seleção individual (𝑃𝑠𝑖). A 𝑃𝑠𝑖 é calculada conforme a Equação 2.28 (JENKINS, 1991), onde,𝑓𝑖é a função deĄtnessdo indi-víduo e𝑝𝑜𝑝 é o número de indivíduos existentes na população.

𝑃𝑠𝑖= 𝑝𝑜𝑝𝑓𝑖

√︁

𝑘=1 𝑓𝑘

(2.28)

Cada indivíduo da população recebe uma área proporcional (𝑃𝑆𝐼) da roleta, de modo que indivíduos mais qualiĄcados apresentem maiores oportunidades de seleção (GOLDBERG, 1989). Esta estraté-gia de seleção dá chance a todos os indivíduos de serem selecionados. Na Figura 12, a utilização da roleta é exempliĄcada. Após a roleta vir-tual estar formada, Şgira-seŤ várias vezes para selecionar os indivíduos que darão origem à próxima geração. A complexidade de execução da seleção por roleta é de𝑂(𝑝𝑜𝑝2) (GOLDBERG; DEB, 1991).

2.5.2.2 Torneio

(59)

2.5. Algoritmo Genético 57

Figura 12 Ű Exemplo de uma roleta para a seleção de indivíduos de uma população. O indivíduo 1 recebe a maior parte da roleta por ser mais qualiĄcado. O indivíduo 2 recebe a menor parte pelo seu baixo valor de retorno da função deĄtness.

Ponto Selecionado

1 2

3

4

Fonte: produção do próprio autor.

Figura 13 Ű Exemplo de torneio para a seleção de indivíduos de uma população.

Vencedores Participantes

Vs Vs

Vs Vs

A B C

D E F

A

E

Fonte: produção do próprio autor.

2.5.3

Cruzamento

(60)

indiví-duos (pais) que combinados produzem um novo indivíduo. Em AG as formas mais comuns de cruzamento são: o cruzamento em um ponto, o cruzamento em dois pontos e o cruzamento em múltiplos pontos (MIT-CHELL, 1999).

O método mais simples é o cruzamento em um ponto ou single-point crossover, onde o ponto de quebra do cromossomo é selecionado de forma aleatória e, partindo-se desse ponto, se realiza a troca de material genético entre os dois indivíduos.

O cruzamento em dois pontos outwo-point crossover funciona de modo similar ao método de um ponto, sendo apenas adicionado mais um ponto de troca de segmentos dos cromossomos. O método de dois pontos de cruzamento é mais indicado a cromossomos maiores, comparando-se ao de um único ponto (MITCHELL, 1999).

A reprodução em múltiplos pontos ouuniform crossoverutiliza uma máscara de cruzamento gerada aleatoriamente. Nas posições onde houver 1 na máscara copia-se o gene correspondente do primeiro pai, havendo 0 na máscara o gene do segundo pai é copiado. Para produzir o segundo descendente do cruzamento inverte-se a máscara aleatória. Para cada cruzamento uma nova máscara é gerada.

O cruzamento não ocorre obrigatoriamente. Depende da taxa de cruzamento (𝑃 𝑐) que deĄne a probabilidade de acontecer, sendo valores sugeridos por Spears e Jong (1991) entre 0,5⊘𝑃 𝑐⊘0,9.

2.5.4

Mutação

Goldberg (1989) aĄrma que a mutação introduz e mantém a diversidade genética na população. Processa alterando arbitrariamente, após o cruzamento, alguns genes dos novos indivíduos, fazendo com que novos locais do espaço de busca (introdução de material genético) tenham suas qualidades testadas (HOLLAND, 1975).

A taxa de mutação (𝑃 𝑚) dita a ocorrência ou não de mutação em determinado gene.𝑃 𝑚 deve ser bastante baixa para evitar que o AG se comporte de modo caótico (similar a busca aleatória) (BODE-NHOFER, 2003).

2.5.5

Elitismo

(61)

2.6. Morfologia Matemática 59

2.5.6

Condição de Parada

Existem muitas condições de paradas disponíveis, dentre as mais tradicionais pode-se citar (MICHALEWICZ, 1996):

∙ Número máximo de gerações atingido;

∙ Limite máximo de quantidade de avaliações da função deĄtness;

∙ Chance de se alcançar mudanças signiĄcativas nas próximas

ge-rações é baixa.

2.6 Morfologia Matemática

A Morfologia Matemática (MM), elaborada inicialmente por Georges Matheron e Jean Serra, foca o estudo das formas geométricas das entidades de uma imagem (FILHO; NETO, 1999). Haralick, Stern-berg e Zhuang (1987) a deĄnem como sendo uma forma de simpliĄca-ção dos dados da imagem, preservando suas características essenciais da forma e eliminando irrelevâncias. O signiĄcado literal da palavra morfologia, que vem do grego, é estudo (logia) das formas (morphos)

(BANON; BARRERA, 1998).

Existem algumas operações morfológicas que podem ser efe-tuadas em imagens. Dilatação e Erosão são chamadas de operações básicas. Por meio dessas, outras operações são derivadas como Aber-tura e Fechamento (HARALICK; STERNBERG; ZHUANG, 1987). A MM é aplicada, neste trabalho, apenas a imagens binárias (0 e 1) (mas pode ser utilizada em outros tipos de imagens como níveis de cinza ou coloridas).

A ideia básica de funcionamento de uma operação morfológica é descrita no Algoritmo 3, onde, recebe-se uma 𝐼𝑚𝑎𝑔𝑒𝑚e Elemento Estruturante (𝐸𝐸), efetua-se translação do𝐸𝐸 por todos ospixels da 𝐼𝑚𝑎𝑔𝑒𝑚, efetuando uma soma de multiplicações (peso vezes a respec-tiva intensidade) a cada passo e, por Ąm, retorna-se a imagem alterada (ImagemNova). A translação é descrita pela Equação 2.29, onde, todos os elementos𝐴são deslocados pelo vetor𝑧.

𝐴𝑧𝑐𝑐𝑎+𝑧,para𝑎𝐴♢ (2.29)

(62)

Algoritmo 3Operação da máquina morfológica binária básica.

1: funçãommOperacao(𝐼𝑚𝑎𝑔𝑒𝑚,𝐸𝐸)

2: 𝐼𝑚𝑎𝑔𝑒𝑚𝑁 𝑜𝑣𝑎𝑍𝑒𝑟𝑜𝑠() Mesmo tamanho da Imagem

3: para cada𝑝𝑖𝑥𝑒𝑙𝐼𝑚𝑎𝑔𝑒𝑚faça

4: 𝑉 𝑖𝑧𝑃 𝑖𝑥𝑒𝑙𝑣𝑖𝑧𝑖𝑛ℎ𝑎𝑛ç𝑎(𝑝𝑖𝑥𝑒𝑙, 𝐸𝐸) Matriz de vizinhos

5: 𝐼𝑚𝑎𝑔𝑒𝑚𝑁 𝑜𝑣𝑎𝐸𝐸_𝑠𝑎𝑡𝑖𝑠𝑓 𝑒𝑖𝑡𝑜(𝑉 𝑖𝑧𝑃 𝑖𝑥𝑒𝑙, 𝐸𝐸) VeriĄca se EE é ŞsatisfeitoŤ para o𝑝𝑖𝑥𝑒𝑙, retorna 0 ou 1 para𝐼𝑚𝑎𝑔𝑒𝑚𝑁 𝑜𝑣𝑎

6: fim para

7: devolve𝐼𝑚𝑎𝑔𝑒𝑚𝑁 𝑜𝑣𝑎

8: fim função

Fonte: produção do próprio autor.

𝐸𝐸, ou seja, o custo computacional eleva-se a medida que se aumen-tam as dimensões de𝐸𝐸. Outro ponto fundamental para as operações morfológicas é a escolha da origem do𝐸𝐸. Para se obter a vizinhança posiciona-se a origem do 𝐸𝐸 coincidindo com o pixel analisado. 𝐸𝐸 dita ainda as alterações feitas de formas efetuadas em uma operações morfológica, por exemplo, caso o𝐸𝐸seja um quadrado, elementos cur-vos da imagem tendem a se tornar mais ŞretosŤ. Portanto, a escolha e deĄnições pertinentes ao𝐸𝐸 são cruciais para a obtenção do resultado esperado e com o desempenho adequado.

Nas subseções seguintes, são deĄnas as operações morfológicas de erosão, dilatação, abertura e fechamento.

2.6.1

Erosão

A erosão é uma operação morfológica que tende a diminuir a área dos objetos da imagem. Segundo Soille (2003) pode-se deĄnir a erosão como mostrado na Equação 2.30, onde,𝐴é a imagem a ser ero-dida, 𝐵 é o 𝐸𝐸, − é o símbolo que representa a erosão e 𝑧 o pixel

analisado (que translada o𝐸𝐸). Portanto, para que um𝑝𝑖𝑥𝑒𝑙da ima-gem𝐴 seja mantido após a erosão, o 𝐸𝐸 posicionado sobre ele deve se encaixar (nenhum de seus 𝑝𝑖𝑥𝑒𝑙𝑠 deve tocar o fundo) na sua vizi-nhança. Na Figura 14, exempliĄca-se o procedimento ocorrido durante uma Erosão.

(63)

2.6. Morfologia Matemática 61

Figura 14 Ű Exemplo de imagem binária erodia (𝐴−𝐵), onde, é exem-pliĄcado em (a) o processo de erosão e em (b) seu resultado.

B A

(a) Processo

A B

(b) Resultado

Fonte: produção do próprio autor.

Os efeitos e utilidades da erosão morfológica sobre a imagem são: diminuição da área dos objetos existentes, eliminação objetos de tamanho inferiores ao tamanho do𝐸𝐸(que não se encaixem), aumento dos buracos e é útil na separação (divisão) de objetos (GONZALEZ; WOODS, 2008).

2.6.2

Dilatação

A operação morfológica da dilatação tende aumentar a área dos objetos da imagem. Pode-se deĄnir a dilatação pela Equação 2.31 (SOILLE, 2003), onde,𝐴 é a imagem a ser dilatada,𝐵 é o𝐸𝐸 e⊕é símbolo que representa a dilatação. A equação mostra que, ao mover o 𝐸𝐸 por todos os pixels de uma imagem, sempre que ao menos um

pixel do 𝐸𝐸 ŞtocarŤ 𝐴 a origem do 𝐸𝐸 passa a ser incorporada a 𝐴 (receber valor 1, ou seja, deixa de ser fundo), levando-se em conta que a origem do𝐸𝐸deve estar dentro do domínio da imagem. Na Figura 15, exempliĄca-se o processo da Dilatação.

𝐴𝐵 = ⋃︁ 𝑎𝐴

(𝐵)𝑎 (2.31)

(64)

Figura 15 Ű Exemplo de imagem binária dilatada (𝐴⊕𝐵), onde, é exempliĄcado em (a) o processo da dilatação e em (b) seu resultado.

A

B

(a) Processo

A B

(b) Resultado

Fonte: produção do próprio autor.

2.6.3

Abertura

A operação de Abertura segue a Equação 2.32 (GONZALEZ; WOODS, 2008), ou seja, a Abertura (símbolo◇) de𝐴por𝐵 (𝐸𝐸) é a Erosão de𝐴por𝐵, seguida pela Dilatação do resultado por𝐵. Pode-se fazer uma interpretação geométrica simples da Abertura binária, onde, 𝐵 é deslocado pelo interior de todos os objetos existentes na imagem e as regiões onde𝐵 não consegue estar por completo são removidas. A interpretação geométrica é descrita pela Equação 2.33 e na Figura 16, exempliĄca-se o processo da Abertura.

𝐴𝐵= (𝐴−𝐵)𝐵 (2.32)

𝐴𝐵=⋃︁¶(𝐵)𝑎♣(𝐵)𝑎𝐴♢ (2.33) A Abertura pode ser utilizada para eliminar saliências, separar objetos e alisar contornos (GONZALEZ; WOODS, 2008).

2.6.4

Fechamento

(65)

2.6. Morfologia Matemática 63

Figura 16 Ű Exemplo da operação de Abertura de uma imagem (𝐴◇

𝐵), onde, é exempliĄcado em (a) o processo e em (b) seu resultado.

Limites onde B chega sem encostar no fundo

A

B

(a) Processo

A B

(b) Resultado

Fonte: Baseado em (GONZALEZ; WOODS, 2008).

por completo ŞfechadasŤ (passam a compor os objetos). Na Figura 17, exempliĄca-se o processo de Fechamento.

𝐴𝐵= (𝐴⊕𝐵)𝐵 (2.34)

Figura 17 Ű Exemplo da operação de Fechamento de uma imagem (𝐴∙

𝐵), onde, é exempliĄcado em (a) o processo e em (b) seu resultado.

A B

(a) Processo

A B

(b) Resultado

Fonte: Baseado em (GONZALEZ; WOODS, 2008).

(66)

2.7 Fluxo Ótico

O Fluxo Ótico (Optical Flow) é a aproximação do movimento ocorrido na cena em um determinado período (MARZAT; DUMOR-TIER; DUCROT, 2009). O movimento pode ocorrer por conta do des-locamento espacial de um objeto, ou mesmo, por um reposicionamento da câmera de captura.

O cálculo utiliza dois quadros consecutivos de um vídeo, onde, os pontos do quadro anterior são localizados no quadro posterior. O resultado do cálculo são os vetores de movimento, relativos a cadapixel,

contendo a velocidade e direção do deslocamento em cada dimensão da imagem. Na Figura 18, mostram-se exemplos de cálculo de dois Ćuxos óticos para uma sequência de três quadros.

Figura 18 Ű Exemplo de Ćuxo ótico calculado em uma sequência de quadros. Na linha superior mostram-se os três quadros e na inferior os seus respectivos Ćuxos.

Quadro 1 Quadro 2 Quadro 3

Fluxo Ótico - Quadros1-2 Fluxo Ótico - Quadros 2-3

Fonte: produção do próprio autor.

(67)

res-2.7. Fluxo Ótico 65

pectivamente.

𝐼(𝑥, 𝑦, 𝑡) =𝐼(𝑥+Ó𝑥, 𝑦+Ó𝑦, 𝑡+Ó𝑡) (2.35) Assumindo-se que o deslocamento de umpixel entre dois qua-dros consecutivos é muito baixo, pode-se utilizar a expansão de Taylor de primeira ordem para gerar a Equação 2.36. A Equação 2.36 pode ser simpliĄcada pelas Equações 2.37 e 2.38.

𝐼(𝑥, 𝑦, 𝑡) =𝐼(𝑥, 𝑦, 𝑡) +𝜕𝐼 𝜕𝑥Ó𝑥+

𝜕𝐼 𝜕𝑦Ó𝑦+

𝜕𝐼

𝜕𝑡Ó𝑡 (2.36)

𝜕𝐼 𝜕𝑥Ó𝑥+

𝜕𝐼 𝜕𝑦Ó𝑦+

𝜕𝐼

𝜕𝑡Ó𝑡= 0 (2.37) 𝜕𝐼 𝜕𝑥 Ó𝑥 Ó𝑡 + 𝜕𝐼 𝜕𝑦 Ó𝑦 Ó𝑡 + 𝜕𝐼 𝜕𝑡 Ó𝑡

Ó𝑡= 0 (2.38) Tomando-se como base a Equação 2.38, pode-se deĄnir a ve-locidade do pixel em (𝑥, 𝑦) como sendo ⃗𝑣 = (Ó𝑥

Ó𝑡, Ó𝑦

Ó𝑡), o gradiente de intensidade por ∇𝐼 = 𝜕𝐼

𝜕𝑥 + 𝜕𝐼

𝜕𝑦 (mede a rapidez em que a mudança da intensidade ocorre pela imagem) e a derivada temporal da imagem é deĄnida por 𝜕𝐼

𝜕𝑡 (o quão rápido a intensidade de um pixel se altera em relação ao tempo). A Equação 2.39 deĄne o Ćuxo ótico para to-das as propostas classiĄcato-das como ŞDiferencialŤ (BARRON; FLEET; BEAUCHEMIN, 1994) (classe de Ćuxo ótico que computa a veloci-dade do movimento por meio das derivadas espaço-temporais), porém, utilizando-se apenas esta equação obtêm-se inúmeras soluções possíveis para ⃗𝑣. Devem ser criadas outras restrições com o objetivo de se en-contrar apenas uma solução de ⃗𝑣, sendo este ponto o diferencial das diversas abordagens de estimação do Ćuxo ótico.

𝐼⃗𝑣+𝜕𝐼

𝜕𝑡 = 0 (2.39)

Neste trabalho, emprega-se o método proposto por Farnebäck (2003) (FB) que se utiliza de imagens em níveis de cinza para o cál-culo do Ćuxo. A escolha de FB se dá pela maior eĄciência computacio-nal, extremamente importante para operar em tempo real, comparado a outras técnicas existentes, e sua alta acurácia na geração do Ćuxo (MANCAS et al., 2011).

Figure

Updating...

Download now (173 pages)