Com percep Google el fitxer robots.txt i la seva funció al SEO?

És molt important tenir en compte que per aparèixer als resultats de cerca, el primer que hem d’aconseguir és que Google (o qualsevol altre motor de cerca) pugui interpretar el nostre lloc web de manera efectiva.

Per això, hem de tenir en compte diferents elements que s’han de considerar pel que fa a la indexació web. El primer, i un dels més importants, és el fitxer robots.txt, que és l’encarregat d’indicar als robots quines pàgines i fitxers poden accedir al nostre lloc web.

Què és un fitxer robots.txt?

El fitxer robots.txt és l’encarregat de proporcionar informació als robots (bots, rastrejadors…) sobre les pàgines o fitxers que poden sol·licitar informació o no en un lloc web. Mitjançant aquest fitxer podrem “comunicar-nos” directament amb els rastreajadors.

Per què serveix el fitxer robots.txt?

Principalment, l’arxiu robots.txt s’utiliza per no sobrecarregar el servidor amb sol·licituds i així gestionar el tráfico de los robots en la página web, ya que en este archivo indicamos el contenido que deben rastrear y el que no.

*Es importante tener en cuenta que bloquear o no bloquear páginas, tiene un uso distinto al de la etiqueta «no-index», que explicaremos a continuación.

Com veure el fitxer robots.txt?

L’ arxiu robots.txt es troba a l’ arrel del domini principal com per exemple: www.nombreweb.com/robots.txt. És aqui on inclourem diversos elements per indicar als bots, rastrejadors, etc. quines pàgines han de ser rastrejades, i quines pàgines no. Aquest fitxer es pot crear en qualsevol editor web, simplement tenint en compte que es poden crear fitxers de text UTF-8 estàndard.

Com implementar/modificar el fitxer robots.txt a WordPress?

El fitxer robots.txt s’implementarà de forma general a WordPress:

Com atraure l’atenció del robot de Google perquè visiti la meva web?

Com hem comentat prèviament, el sitemap és la porta d’entrada d’una pàgina web i que a partir d’aquí i mitjançant una bona estratègia d’enllaçat intern és essencial per a un posicionament web correcte. A més, el robot de Google tendeix a visitar pàgines amb contingut fresc, actualitzat i continu, de manera que tenir una estratègia de continguts web és fonamental.

Però com pots modificar-ho? Descobreix a continuació com fer-ho a WordPress:

En primer lloc, des del FTP del hosting o mitjançant diferents plugins que es poden instal·lar a WordPress com Yoast SEO o Rank Math. És important tenir present que editar el fitxer de manera incorrecta pot afectar considerablement els resultats del posicionament web. Per això, és molt important conèixer què significa cada paràmetre i com cadascun d’aquests afecta la nostra web.

Si utilitzes Rank Math a WordPress hauràs d’anar a Configuració General > Editar arxiu robots.txt

texto-robots

Què cal tenir en compte per a una implementació correcta del fitxer robots.txt?

És molt important tenir en compte diferents aspectes que Google destaca per dur a terme una correcta implementació:

Només hi pot haver un fitxer per web i ha d’estar sota el nom robots.txt.
Es pot implementar de manera individual a cada subdomini d’una pàgina web.
El fitxer robots.txt consta d’un o diversos grups amb directives concretes (una per línia, sempre), que incloguin:
- a qui van aplicats (user-agent)
- als directoris o llocs que aquest user-agent pot accedir i als que no

Els user-agent poden rastrejar totes les pàgines que no s’indiquen com a disallow. Aquests grups es processaran per l’ordre que estiguin escrits al text. Per tant, el grup que inclogui la regla més específica i sigui el primer, serà el que seguirà.
Si hi ha dues normes que entren en conflicte, per a Google i Bing sempre “guanya” la directiva amb més caràcters. totes dues tenen la mateixa longitud prevaldrà la menys restrictiva.

Coneix els paràmetres principals del fitxer robots.txt!

Ara que ja saps què és, per a què serveix, com implementar el fitxer robots.txt i què tenir en compte per fer-ho correctament, descobreix a continuació, els elements principals que són importants conèixer per poder interpretar i implementar el fitxer:

User-agent (agent d’usuari): és la manera d’identificar els rastrejadors, definir les directives que seguiran i que s’han d’incloure sempre a cada grup. És molt important conèixer els diferents motors de cerca com el de Google amb el nom “Robots de Google” o “Googlebot”, Bing compta amb “Bingbot” i Baidu amb “Baiduspider”. Aplicar el caràcter (*), permet aplicar la directiva a tots els rastrejadors.
Directivas allow y disallow:aquestes directivespermeten indicar concretament al user-agent pàginas que ha de (allow) y pàgines o arxius que no s’han de rastrejar (disallow). És important que hi hagi com a mínim una directiva a cada grup.
- Allow: és ideal per indicar als rastrejadors que poden rastrejar algun apartat concret dun directori bloquejat per la directiva disallow.
- Disallow: per bloquejar una pàgina amb aquesta directiva cal especificar el nom complet incloent (/) al final.

Directives allow i disallow: com donar o denegar accés als robots de forma personalitzada

A l’hora de configurar les diferents directives allow i disallow és important tenir en compte diferents aspectes:

*Una incorrecta implementació puede afectar los resultados de la página en los motores de búsqueda.

Si dejamos el archivo robots.txt de la siguiente forma, no bloqueará ningún directorio:

Tot i això, si per algun motiu s’afegeix la barra (/), es bloquejaria el rastreig de tota la pàgina web de manera que no apareixeria en els motors de cerca. Això no és recomanable, tret que sigui per un motiu consistent.

Si es defineix un directori i s’afegeix entre /_/, només es bloquejarà a aquest del rastreig. Per exemple, /wp-admin/. És molt important destacar, que si no s’hi inclou la / final, els robots no podran rastrejar cap pàgina que començarà amb /wp-admin.

En cas de voler excloure algun subdirectori que poguessin rastrejar, s’inclouran com a directiva Allow.

Altres paràmetres que cal tenir en compte per al fitxer robots.txt

Prèviament hem explicat com, a través del user-agent, així com directoris o URLs i les directrius allow o disallow, es poden indicar als robots els diferents paràmetres que poden rastrejar o no d’una pàgina web.

Tanmateix, a continuació detallarem altres paràmetres que podràs trobar i que et seran de gran utilitat. És important que sàpigues que cada web és diferent, i que en funció dels objectius hauràs d’analitzar bé si t’interessa algun d’aquests paràmetres i per què.

**El (*): permet indicar “qualsevol”**

Perquè els robots puguin rastrejar tot el lloc web, haureu d’utilitzar “User-agent: *”. Això actua com a comodí i permet indicar que “qualsevol” robot pot rastrejar el lloc web. Utilitzar-lo a “usar-agent” et permetrà indicar a tots els robots que poden rastrejar el lloc web i mitjançant el paràmetre disallow, podràs especificar els directoris que no vols que hi accedeixin els robots.

robots-6

També, es pot utilitzar (*) a les URLS, ja sigui en principi o mitjà, i permetrà realitzar el mateix que el mètode anterior: “tots/qualsevol” Així es podrà bloquejar qualsevol URL com www.miweb.com/retail/red/jumper o www.miweb.com/retail/small/jumper.

El ($): indica el final d’una URL

Amb el símbol $ indicaràs als robots el final d’una URL. Per exemple, al paràmetre disallow, si afegeixes “*.php$”, bloquejaràs l’URL acabada així. d’aquests fitxers.

Bloquejar l’accés als rastrejadors del lloc web

Si volem indicar que algun robot concret no rastregi el lloc web, ja sigui per estratègia o perquè no ens interessa, cal indicar de la manera següent:

robots-9

La (#): permet explicar comentaris

En el cas de voler fer comentaris sobre qualsevol aspecte sense adreçar-te als robots, ho hauràs de fer mitjançant el símbol #. Els robots no llegeixen tot el que hi ha després de #.

robots-10

Quina diferència Disallow de l’etiqueta “No-index”?

En el fitxer robots.txt es poden utilitzar altres paràmetres que t’ajudaran a bloquejar l’entrada dels robots a URLs, com per exemple a URLs amb paràmetres, que es creen quan els usuaris utilitzen un cercador d’una pàgina web o filtren productes amb uns paràmetres concrets. O també quan no vulguem que alguna pàgina es indexi als cercadors perquè no és rellevant, com per exemple pot ser la pàgina d’avís legal, política de privacitat, etc.

Tot i així, abans d’afegir una directiva disallow al fitxer robots.txt, és important analitzar si la seva inclusió beneficia l’estratègia de la pàgina web, depenent dels objectius específics de cada pàgina.

Control d’indexació amb la metaetiqueta robots

La metaetiqueta “robots” permet especificar, a nivell de pàgina, com s’ha de tractar el contingut als resultats de cerca, sobretot quan no volem que una pàgina aparegui. Tot i això, perquè un robot apliqui la directiva correctament és imprescindible que la pugui llegir. Per això, bloquejar una URL al fitxer robots.txt amb l’etiqueta “no-index” seria un error, impedint l’accés a aquesta pàgina ia la lectura de la directiva.

Disallow vs “No-index”: Quina és la millor opció per a URLs amb paràmetres?

És important que et preguntis el següent, ja que la millor opció variarà en funció dels objectius de cada pàgina web:

És rellevant que els robots analitzin les URLs amb paràmetres que es creen quan un usuari utilitza el cercador del lloc web?
És rellevant que els robots analitzin les URLs amb paràmetres que es creen quan un usuari utilitza el cercador del lloc web?

A partir de les respostes, és el moment per començar a dissenyar lestratègia:

robots-11

Per acabar, tot i decidir que t’interessa de les cerques al lloc web fetes pels usuaris estiguin bloquejades, es poden fer excepcions concretes, ja que poden ser termes d’interès, que t’ajudin a augmentar la visibilitat. A continuació detallem un exemple:

robots-12

Com bloquejar els URL amb l’etiqueta canonical?

La etiqueta canonical és ideal per evitar el contingut duplicat en un lloc web. Sovint, s’aplica aquesta etiqueta a les URLs amb paràmetres que tenen contingut molt similar a la pàgina principal d’un producte o categoria, per tal d’evitar problemes de contingut duplicat.

Tanmateix, en bloquejar les URLs amb paràmetres al fitxer robots.txt, es dificultarà l’accés dels robots a la informació i, per tant, no podran identificar la pàgina “principal”. John Mueller de Google afirmava que això és especialment rellevant quan s’utilitzen filtres de productes.

etiqueta robots

Finalment, una altra de les opcions que podem plantejar és la de bloquejar les URLs amb paràmetres concrets, mitjançant l’eina de Google Search Console.

És obligatori incloure el sitemap al fitxer robots.txt?

Incloure el sitemap al fitxer robots.txt no és obligatori. Tot i això, proporciona informació sobre l’estructura de la pàgina web, i es recomana incloure’l, per així indicar a Google el contingut que ens interessa rastrejar.

Com verificar una implementació correcta del fitxer robots.txt?

Finalment, i un cop revisats i ajustats tots els aspectes esmentats prèviament, quedarà assegurar que el fitxer robots.txt s’està implementant correctament al lloc web. Mitjançant l’eina “Probador de Robots.txt” de Google Search Console o directament de forma manual cada URL.

robots-14

Més informació sobre el fitxer robots.txt i com Google ho interpreta

Si vols més informació sobre com Google interpreta el fitxer robots.txt de la teva pàgina web, pots posar-te en contacte amb nosaltres.