Usando robots.txt Imprimir E-mail

 

Utilizando o arquivo robots.txt você pode orientar os sites de busca a não indexarem determinadas páginas ou pastas do seu site. O conteúdo que for específicado não aparecerá nas buscas.

Sempre que o software de indexação de uma busca visita seu site ele primeiro tenta acessar um arquivo texto chamado robots.txt em busca de alguma orientação que você possa ter deixado. Este arquivo deve ficar na pasta raiz do seu site, ou seja, no mesmo local onde fica sua primeira página (index.htm)

No exemplo abaixo estamos informando a todos os indexadores de busca (User-agent: *) que arquivos e páginas que estiverem em /cgi-bin e /fotos e /documentos não devem ser acessados e indexados.

  User-agent: *
Disallow: /documentos/
Disallow: /fotos/

O campo "User-agent" pode indicar o nome de um indexador específico. O indexador do Google se chama googlebot. Se desejar pode especificar isto veja este exemplo:

  User-agent: googlebot
Disallow: /

No exemplo acima nenhum conteúdo do seu site será indexado pelo googlebot, ou seja, não aparecerá no Google. Para saber quais páginas do seu site estão no Google entre em www.google.com.br e faça uma busca por site:www.seudominio.com.br. Todas as páginas que estiverem indexadas serão exibidas.

No site abaixo existe uma lista de diversos user-agent conhecidos:
http://www.useragentstring.com/pages/Crawlerlist/

No site robotstxt.org você encontra informações sobre este assunto.
http://www.robotstxt.org/wc/robots.html 

 

OBS: Qualquer mudança feita em um robots.txt pode levar semanas ou até meses para gerar algum efeito.

 
< Artigo anterior

web stats