Mas os cérebros eletrônicos da Google vão além de ler dados em imagens e aprendem outros truques, como a compreensão de comandos de voz, já bastante integrada ao sistema Android e recursos do Google+, além, é claro, do seu clássico serviço de busca.
No caso das imagens, o processo para fazer com que os computadores do Google lessem os números exigiu que engenheiros "mostrassem" ao computador imagens previamente recortadas de números de residências e prédios já identificados e inseridos na base de dados do Street View por equipes humanas. Para identificar o que é número residencial e diferenciar de outros dados, como números quaisquer pintados na fachada, o sistema se limita a 5 dígitos, o que é um padrão razoável para a maioria dos lugares no mundo. Então primeiro é feito o descarte de imagens onde o volume de dígitos ultrapassa este limite, depois o computador aprendeu a ler os números onde aparecem menos de 5 dígitos, comparando as imagens com o que encontrava na mesma posição geográfica, nos registros do sistema. Com o tempo o software passa a mostrar os frutos do aprendizado, sendo capaz de realizar o serviço em outras áreas em que os dados ainda não tenham sido processados por humanos e inseridos na base de dados do Street View.
Este nerd é Ian Goodfellow, um dos
engenheiros responsáveis pelas
inovações com inteligência artificial
no Street View
|
Embora o sistema de inteligência desenvolvido para a Google seja fenomenal a primeira vista, ele não é perfeito. Seus Desenvolvedores esperam uma eficiência semelhante a de equipes humanas em relação a capacidade de detecção de números, coisa de 98%. A vantagem estaria na velocidade com a qual o sistema automato é capaz de realizar o serviço. Além do mais, a possibilidade de o mesmo sistema vir a ser adaptado para leitura de outros tipos de numeração, com mais de 5 dígitos é bem difícil.
Contudo, o sistema tem um grande destaque por realizar tudo o que faz a partir de uma única rede neural. Isto certamente trará melhorias para outros departamentos, como o reconhecimento de voz e até mesmo de texto escaneado.
Fonte: MIT Tecnology Review
Postar um comentário