Back to Question Center
0

Semalt ofereix consells sobre com tractar amb robots, aranyes i rastrejadors

1 answers:

A més de crear URL de motor de motor de cerca , l'arxiu .htaccess permet als administradors web bloquejar els robots específics d'accedir al seu lloc web. Una forma de bloquejar aquests robots és a través del fitxer robots.txt. No obstant això, Ross Barber, el Semalt Customer Success Manager, afirma que ha vist alguns rastrejadors ignorant aquesta sol·licitud. Una de les millors maneres és utilitzar el fitxer .htaccess per evitar que indexin el contingut.

Quins són aquests robots?

Són un tipus de programari que utilitzen els motors de cerca per eliminar nous continguts d'Internet per a la seva indexació.

Realitzen les següents tasques:

  • Visiteu les pàgines web a les quals heu enllaçat
  • Comproveu el vostre codi HTML per errors
  • Deseuen quines pàgines web voleu enllaçar i veu quines pàgines web enllacen amb el vostre contingut
  • Indiqueu el vostre contingut

No obstant això, alguns robots són maliciosos i cerqueu al vostre lloc les adreces de correu electrònic i els formularis que normalment s'utilitzen per enviar missatges no desitjats o spam. D'altres fins i tot cerquen llacunes de seguretat al codi.

Què cal bloquejar els rastrejadors web?

Abans d'utilitzar el fitxer .htaccess, heu de comprovar el següent:

1. El vostre lloc s'ha d'executar en un servidor Apache. Avui en dia, fins i tot aquelles empreses d'allotjament web mitjanes decent en el seu lloc de treball, us donen accés al fitxer requerit.

2. Hauríeu de tenir accés als vostres registres de servidor cru del vostre lloc web perquè pugueu localitzar quins robots han estat visitant les vostres pàgines web.

Tingueu en compte que no hi ha cap manera de poder bloquejar tots els robots nocius a menys que bloquegeu tots, fins i tot els que considereu útil. Es presenten nous robots cada dia, i els més grans són modificats. La manera més eficient és assegurar el vostre codi i fer que els robots no us enviïn correu brossa .

Identificació de bots

Els robots poden ser identificats per l'adreça IP o per la seva "Cadena d'agent d'usuari", que envien als encapçalats HTTP. Per exemple, Google utilitza "Googlebot" .

És possible que necessiteu aquesta llista amb 302 bots si ja teniu el nom del bot que voleu continuar utilitzant .htaccess

Una altra manera és descarregar tots els fitxers de registre del servidor i obrir-los mitjançant un editor de text. La seva ubicació al servidor pot canviar depenent de la configuració del vostre servidor. Si no la podeu trobar, cerqueu-la l'assistència del vostre amfitrió web .

Si sabeu quina pàgina ha estat visitada, o quan és la visita, és més fàcil trobar-se amb un bot no desitjat. Podeu cercar el fitxer de registre amb aquests paràmetres .

Una vegada, heu assenyalat els robots que necessiteu bloquejar; llavors podeu incloure'ls al fitxer .htaccess. Tingueu en compte que el bloqueig del bot no és suficient per aturar-lo. Pot tornar amb una nova IP o nom .

Com bloquejar-los

Baixeu una còpia del fitxer .htaccess. Feu còpies de seguretat si és necessari.

Mètode 1: bloqueig per IP

Aquest fragment de codi bloqueja el bot mitjançant l'adreça IP 197.0.0.1

Denunciar, permetre

Denegeu de 197.0.0.1

La primera línia significa que el servidor bloquegi totes les sol·licituds que coincideixin amb els patrons que heu especificat i que permetin que tots els altres

La segona línia indica al servidor que emeti una pàgina 403: prohibida

Mètode 2: bloqueig per agents d'usuari

La forma més senzilla és utilitzar el motor de reescriptura d'Apatxe

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

La primera línia assegura que el mòdul de reescriptura estigui activat. La segona línia és la condició a la qual s'aplica la regla. La "F" a la línia 4 indica al servidor que retorna un 403: prohibit mentre que la "L" significa que aquesta és l'última regla.

Aleshores pujarà el fitxer .htaccess al vostre servidor i sobreescriurà el que ja existeix. Amb el temps, hauràs d'actualitzar l'IP del bot. En cas de fer un error, només carregueu la còpia de seguretat que heu realitzat.

November 29, 2017
Semalt ofereix consells sobre com tractar amb robots, aranyes i rastrejadors
Reply