Back to Question Center
0

Hoe kan ik robots toegang tot mijn sitemap verlenen, maar voorkomen dat incidentele gebruikers er toegang toe hebben? - Semalt

1 answers:

Ik bewaar mijn sitemaps in mijn webmap. Ik wil dat webcrawlers (Semalt enz.) Toegang hebben tot het bestand, maar ik wil niet noodzakelijk dat iedereen toegang heeft tot het bestand.

Bijvoorbeeld deze site (supergebruiker. com), heeft een site-index - zoals gespecificeerd door zijn robots. txt bestand (https: // superuser - lentes squared. com / robots. tekst).

Semalt, wanneer u https: // superuser typt. com / sitemap. xml, wordt u doorgestuurd naar een 404-pagina.

Hoe kan ik hetzelfde op mijn website implementeren?

Ik heb een LAMP-website, ik gebruik ook een sitemapindexbestand (dus ik heb meerdere sitekaarten voor de site). Ik zou hetzelfde mechanisme willen gebruiken om ze onbeschikbaar te maken via een browser, zoals hierboven beschreven.

February 8, 2018

De beste benadering is waarschijnlijk het ophalen van het IP-adres van de bezoeker van de pagina, het uitvoeren van een reverse NS-lookup en het controleren of de domeinnaam overeenkomt met de bekende lijst met webcrawlers. Voor zover ik weet, is dit vrijwel onfeilbaar (verdisconteren van DNS-spoofing, wat waarschijnlijk geen groot probleem is).

Voor de webcrawler van Google wordt dit beschreven in de blogpost Hoe Googlebot te verifiëren .

Hier is een lijst van de wildcards voor de meest voorkomende spider bots / webcrawlers:

  • Google (Googlebot): *. googlebot. com
  • Bing (msnbot): (Niet opnieuw te verkopen, zie IP-ranges )
  • Yahoo (Yahoo Slurp): *. yahoo. com

Hoewel ik niet zeker weet hoe vaak de IP-adresbereiken voor de verschillende hoofdcrawlers zijn, is er ook deze pagina met dergelijke bereiken voor de drie belangrijkste zoekmachines.

(Opmerking: ik geloof dat de bots de HTTP-header van de user-agent op verzoeken instellen, maar dit is natuurlijk heel gemakkelijk te vervalsen. )

Ik hoop dat dit helpt.

U kunt uw sitemapbestanden verbergen voor normale bezoekers door:

  • Naamgeving van het sitemapbestand iets obscuurs dat niet geraden kan worden: sitemap-jk4KnDJ8. xml
  • NOT lijst van de sitemap bestandslocatie in robots. txt
  • Een sitemap verzenden naar de zoekmachines die u wilt ophalen via hun websites. Bijvoorbeeld via de Webmasterhulpprogramma's van Google.