Como criar robots.txt
Filed Under (hospedagem de sites) by admin on 25-09-2010
O robots.txt é responsável por indicar aos motores de busca, quais as páginas do seu website que deverão sofrer o crawl e consequentemente serem indexadas.
Muitos websites e blogs integram diversas páginas que não interessam aos motores de busca, como páginas de administração e de imagens por exemplo, ou seja, criar um arquivo robots.txt irá ajudá-lo a melhorar a indexação do seu website, com toda a certeza!
Se tiver um blog em WordPress, um arquivo robots.txt simples poderia ser algo como
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /trackback/
User-agent:* é o comando que diz aos motores de busca (Google, Bing, Yahoo e outros) de que devem seguir as instruções seguintes para fazerem crawl ao seu website. A não ser que o seu website seja demasiado complexo, você não irá necessitar de criar diversos robots para os diversos motores de busca.
O Disallow:/wp- irá fazer com que os motores de busca não façam o crawl dos seus arquivos do WordPress. O robot irá evitar todas as pastas e sub-pastas começadas por “wp-”, não executando o crawl em conteúdo duplicado ou em arquivo de administração.
Se pretender criar um arquivo Robots.txt especialmente para o seu blog WordPress, então sugiro-lhe a opção:
Ao desabilitar a pasta das imagens, não está a cometer nenhum erro. O Google faz a indexação das imagens através dos posts, integrando posteriormente a informação unitária de cada imagem, como o texto ALT, título, nome da foto, etc.
Se tiver um blog em WordPress, sugiro a criação de um arquivo robots.txt com a seguinte configuração:
User-agent: *
# disallow all files in these directories
Disallow: /cgi-bin/
Disallow: /z/j/
Disallow: /z/c/
Disallow: /stats/
Disallow: /dh_
Disallow: /about/
Disallow: /contact/
Disallow: /tag/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /contact
Disallow: /manual
Disallow: /manual/*
Disallow: /phpmanual/
Disallow: /category/
User-agent: Googlebot
# disallow all files ending with these extensions
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# disallow all files with ? in url
Disallow: /*?*
# disable duggmirror
User-agent: duggmirror
Disallow: /
# allow google image bot to search all images
User-agent: Googlebot-Image
Disallow:
Allow: /*
# allow adsense bot on entire site
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
(É só copiar e salvar com o nome Robots.txt.)
Agora, se não utiliza o WordPress e tem um website sobre um assunto qualquer, sugiro a criação de um arquivo com a seguinte configuração:
User-agent: *
Disallow: /images/
Disallow: /cgi-bin/
Disallow: /any other folder to be excluded/Desabilita-se apenas as pastas não importantes. Você próprio pode definir manualmente quais as pastas que não quer considerar importantes ao crawler do Google.
Para isso basta copiar a linha Disallow: /, seguida do nome da pasta que não pretende ver executada durante o crawl.Depois de ter o seu arquivo Robots.txt criado, deverá fazer o upload dele para raiz do FTP, que normalmente está dentro da pasta “www”.




