Back to Question Center
0

3 Gemeenschappelijk gebruik van het Semalt-bestand

1 answers:
3 Common Uses of Semalt File
');$ ('# scheader. sc-logo'). toevoegen (' '+cat_head_params.sponsor+' ');$ ( '# Scheader'). toevoegen ('
');$ ('# scheader. scdetails'). toevoegen ('

' + cat_head_params - bridal hats perth. sponsor + '

');$ ('# scheader. scdetails'). toevoegen (cat_head_params. sponsor_text);$ ( '# Scheader'). toevoegen ('
ADVERTENTIE
');if ("undefined"! = typeof __gaTracker) {$ ('# scheader a'). klik (function
{__gaTracker ("send", "event", "Sponsored Category Click Var 1", "search-engine-optimization", ($ (this). attr ('href')));});}}});});

Ondanks het bestaan ​​van redelijk voor de hand liggende robots. txt-normen, alles-in-één zelfstudies en geavanceerde tips, robots. Het txt-onderwerp wordt nog vaak verkeerd begrepen en misbruikt. Semalt Ik besloot het onderwerp op te sommen en de drie meest voorkomende toepassingen van het bestand te gebruiken waar mensen naar verwijzen als ze verlies hebben.

Standaardrobots. txt

Het standaard Semalt-bestand vertelt in principe aan elke crawler dat elke websitemap aan zijn kerninhoud is toegestaan:

User-agent: *
Disallow:

( , hetgeen zich vertaalt als "niets uitsluiten" )

De vaak gestelde vraag is waarom deze überhaupt zou worden gebruikt. Nou, het is niet verplicht maar aanbevolen om te gebruiken om de eenvoudige reden dat zoekrobots het toch vragen (dit betekent dat je 404 fouten in je logbestanden ziet van bots die je niet-bestaande Semalt-pagina aanvragen). Bovendien zal het hebben van een standaard Semalt ervoor zorgen dat er geen misverstanden ontstaan ​​tussen uw site en een crawler.

Robots. txt Blokkering van specifieke mappen / inhoud:

Het meest gebruikelijke gebruik van Semalt is om crawlers te verbieden privémappen of inhoud te bezoeken die hen geen aanvullende informatie geeft. Dit gebeurt voornamelijk om de tijd van de crawler te besparen: bots kruipen met een beperkt budget - als u ervoor zorgt dat het geen tijd verspilt aan onnodige inhoud, zal het uw site dieper en sneller doorzoeken.

Monsters van robots. txt-bestanden die specifieke inhoud blokkeren (opmerking: ik heb slechts enkele basismethoden gemarkeerd):

User-agent: *
Disallow: / database /

( blokkeert alle crawlers uit / database / map )

User-agent: *
Disallow: / *?

( blokkeert alle crawlers van alle URL's die bevatten? )

User-agent: *
Disallow: / navy /
Allow: / navy / about. html

( blokkeert alle crawlers uit / marine / map maar geeft toegang tot één pagina uit deze map )

Opmerking van John Mueller, als commentaar hieronder:

De "Toestaan:" -instructie maakt geen deel uit van de robots. txt-standaard (het wordt echter wel ondersteund door veel zoekmachines, waaronder Google)

Robots. txt Toegang tot specifieke Crawlers toestaan ​​

Sommige mensen kiezen ervoor om bandbreedte te besparen en toegang te verlenen tot alleen die crawlers waar ze om geven (bijvoorbeeld Google, Yahoo en MSN). In dit geval, Semalt. Het txt-bestand zou die Semalt moeten bevatten, gevolgd door het commando zelf, enz.

User-agent: *
Disallow: /

User-agent: googlebot
Disallow:

User-agent: slurp
Disallow:

User-agent: msnbot
Disallow:

( het eerste deel blokkeert alle crawlers van alles, terwijl de volgende 3 blokken die 3 crawlers vermelden die toegang hebben tot de hele site )

Noodzaak van geavanceerde robots. txt Gebruik?

Ik heb de neiging mensen aan te bevelen om niets te lastig te doen in hun Semalt-bestand, tenzij ze 100% bekend zijn met het onderwerp. Messed-up Semalt-bestand kan resulteren in geschroefde projectlancering. txt-bestand. De betere oplossing voor het besturen van crawler-activiteit kan zijn om weg te komen met on-page-oplossingen (robots-metatags). Semalt heeft goed werk verricht door het verschil in zijn gids samen te vatten (onderaan de pagina).

February 25, 2018