Os Artigos Perdidos

Meu blog antigo se foi. E não fiz questão de guardar o que escrevi. Mas alguns artigos estão no iMasters. Segue a lista:

O que é Web Crawler?

Recentemente recebi um e-mail de dúvida do leitor Adair Martins. Não é o primeiro sobre esse (interessante) assunto. Vou publicá-lo, junto com minha resposta, para sanar uma duvida comum.

Quem quiser complementar minha resposta é bem-vindo, use os comentários.

Bom dia Wagner,

Sou estudante do Curso de Sistemas de Informação, e estou no ultimo período. Tenho que terminar meu TCC, estou fazendo sobre web semântica e o professor que me orienta me sugeriu que eu fizesse uma aplicação que conseguisse pegar as informações sobre futebol, por exemplo, de varios sites.

Estou a procura, já faz quase um mês, e nao encontrei nada. Vendo seu artigo no iMasters, me pareceu muito interessante. Gostaria de saber se você não tem algum material que pudesse me ajudar a criar essa aplicação, se possível em java, pois é a linguagem que tivemos mais contato no curso.

Desde já agradeço a atenção.

Bem legal o assunto do seu TCC, isso (semântica) é o futuro da internet.

O que você vai desenvolver é técnicamente chamado de Web Crawler. Exemplo disso é o GoogleBot, crawler que o google desenvolveu para ficar varrendo a internet, indexando conteúdo para pesquisarmos através do famigerado Google.com.

O artigo da wikipedia sobre Web Crawler é bem completo. No fim do artigo existe uma lista de implementações de crawlers em linguagens e plataformas diferentes, inclusive em java.

Existe bastante material sobre esse assunto, até em português.

Abraço!