Análise de evidências embutidas em imagens


Luis Sales Rabelo*

OCR, sigla em inglês para Optical Character Recognition, é uma tecnologia que permite reconhecer caracteres de texto em imagens, transformando-nos em texto editável. Esta tecnologia é muito popular hoje em dia, pois a grande maioria dos scanners acompanha pelo menos um programa de OCR, que pode ser usado para obter texto de páginas impressas, substituindo a digitação manual.

As fontes True Type utilizadas pelos editores de texto são gravadas em modo vetorial, uma descrição matemática das curvas e linhas que compõem o caracter. Esse recurso permite que o tamanho da fonte seja alterado livremente, sem perda de qualidade. Um programa de OCR atua basicamente comparando os caracteres digitalizados com estas fontes gráficas.





Inicialmente, o programa examina a página para mapear os espaços em branco, reconhecendo títulos, colunas, parágrafos e imagens, o que permite manter a ordem correta do texto. Programas de OCR mais avançados, são capazes de manter toda a formatação da página. O segundo passo, consiste em comparar cada caracter com modelos de fontes suportadas pelo OCR. Havendo uma certa porcentagem de coincidência, o caracter é reconhecido. Como este primeiro processo demanda uma semelhança muito grande entre as fontes e os caracteres digitalizados, muitos acabam não sendo reconhecidos. Mas ainda não é o fim do mundo =)

Nos caracteres não reconhecidos, é aplicado um segundo processo bem mais minucioso, que consiste em analisar geometricamente cada caracter, calculando a altura, largura, e combinações de retas, curvas e áreas em branco. Novamente, é usada a lei da probabilidade: um caracter com uma curva em forma de meia lua que continua na forma de uma reta, por exemplo, tem uma grande chance de ser um "d" minúsculo.

Esse segundo processo é muito mais demorado, pois para cada letra é preciso gerar todo um novo conjunto de caracteres gráficos. Se mesmo com o exame minucioso, não for possível reconhecer o caracter, o programa poderá utilizar um corretor ortográfico para corrigir erros bobos, ou preecher espaços vazios. Com a ajuda do corretor, "Ca1e-se" seria substituído por "Cale-se" e "Paralele#Ìpe~o" seria alterado para "Paralelepípedo".

Uma última alternativa para reconhecer caracteres ilegíveis, pode ser mostrar individualmente o bitmap de cada caracter não reconhecido e, pedir ao usuário que o substitua pela letra correspondente, ou então, simplesmente, usar um s;imbolo como ~,% ou # no lugar do caractere para que o usuário possa corrigir o erro manualmente depois.

Em computação forense, algumas vezes nos deparamos com casos que a evidência principal está embutida em uma figura, como por exemplo um print screen de uma tela suspeita, ou várias paginas digitalizadas de um arquivo. Esses conteúdos dos arquivos de imagens não são responsivos a uma busca por palavra-chave.



Print Screen, você está fazendo isso errado...


Para resolver esta questão, a AccessData implementou o recurso OCR que reconhece caracteres dentro de um arquivo de imagens e fotos no HD suspeito. Seu uso é bastante simples, e uma vez processado e indexado, o FTK utiliza o Index Search para que as palavras sejam localizadas nas figuras. Para processar as evidências com o OCR, o perito deve, ao adicionar a evidência, clicar em "Refinement Options":




Depois de abrir o "Refinement Options"o perito deve marcar a opção "Optical Character Recognition" e depois clicar em "OCR Options...".










Como se pode ver, na tela OCR Options o perito pode escolher os tipos de arquivos que serão analisados pela engine do OCR. O engine é o algorítimo que será utilizado para processar os arquivos. Dependendo da sua licença, estará disponível o Tesseract (http://4n6.cc/QdPt6) ou GlyphReader (http://4n6.cc/3dT2W).




Depois de processar a evidência com a opção OCR marcada, o perito deve ir até o Index Search para fazer sua busca.


A pesquisa é feita normalmente sem distinção entre busca em arquivo de texto e arquivo de imagem. Simples, basta processar o caso/evidência com OCR e depois realizar as buscas desejadas. Caso a palavra-chave seja encontrada em um arquivo gráfico, este arquivo será responsivo ao critério de busca!

Veja uma demonstração do recurso no vídeo a seguir:








*Luiz Sales Rabelo é analista de Segurança e consultor em computação forense da Techbiz Forense Digital. Desde outubro de 2010, é instrutor autorizado pela AccessData a transmitir os conhecimentos sobre a ferramenta FTK 3. É MCP (Microsoft Certified Professional) e ACE (AccessData Certified Examiner).Autor do blog: http://forensics.luizrabelo.com.br/


Comentários