Robots Meta Text Generator

Har du sider på webområdet ditt du ikke ønsker at andre skal få vite om, er denne generatoren midt i blinken.

En robots meta tag gir begrensninger til robotsøkemotorer som gjennomgår Internett, og forteller om søkemotorene skal indeksere siden din eller ikke, ignorere den helt, eller følge linkene på siden for videre indeksering.

Dersom du ikke innlemmer noen robots meta tag, vil søkemotorene oppfatte det som "index, follow", altså indeksere og følge linker på ordinær basis.

Hak ut ønsket deklarasjon:

Fortell robots at denne siden skal ignoreres
Fortell robots at denne siden ikke skal indekseres i søkemotor
Fortell robots at ingen linker på denne siden skal følges
[Lim inn generert meta tag mellom <head></head> taggene:]

Fortell kun Googlebot at denne siden skal ignoreres
[Lim inn generert meta tag mellom <head></head> taggene:]

Forhindre at siden din legges til i Hurtigbuffer

Søkemotorer tar et "øyeblikksbilde" av hver webside som gjennomgås og arkiverer denne, slik at sluttbrukere kan gjenopprette den hvis den opprinnelige siden er utilgjengelig for øyeblikket pga tekniske feil, den er slettet eller andre årsaker.

Den hurtigbufrede siden vises slik den så ut da aktuell søkemotor gjennomgikk den sist. Hvis du vil forhindre alle søkemotorer fra å vise en "I hurtigbuffer" link til området ditt, settes denne koden inn mellom <head></head> taggene på siden din:

Vil du kun forhindre at Googles Googlebot ikke skal vise en "I hurtigbuffer" link til området ditt, brukes denne koden mellom <head></head> taggene på siden din:

Merk! Alle søkemotorer vil fortsette å indeksere siden og vise en forklarende tekstbit om siden din ved søketreff. Kun den Hurtigbuffrede siden fjernes.

Bruk av robots.txt fil

Du trenger en robots.txt fil bare hvis webområdet ditt inkluderer innhold som du ikke vil at søkemotorer skal indeksere eller få tilgang til. I denne tekst-filen kan du utelukke alle søkemotorer, eller navngitte.

En robots.txt fil gjør akkurat det samme som en robots meta tag, men har du mange begrensninger og ønsker å forhindre søkemotorenes tilgang til flere filer eller mapper på webområdet, er en robots.txt fil mest hensiktsmessige å bruke.

En robots.txt fil kan oppfattes forskjellig fra søkemotor til søkemotor, men har du kjennskap til syntaksen i en slik fil, kan du spesifisere alt ned til minste detalj.

Det viktigste å vite om en robots.txt fil er at den skal skrives i ren tekst format (bruk en ascii formatert tekstbehandler, som f.eks. MS Notisblokk), den skal hete "robots.txt" og ligge i roten av ditt webområde, og at alle oppføringer er case sensitiv. Det vil si at det skilles mellom små og store bokstaver i fil og mappenavn.

For å lage regler for hva som skal indekseres, utelukkes eller tillates brukes 2 enkle, grunnleggende hovedregler:

User-Agent: Angir robot som regel gjelder for
Disallow: Siden(e) eller mappe(ene) som du vil blokkere

Disse 2 reglene følger hverandre i spesifikke oppsett for å angi individuelle regler for hver søkemotor. Det vil si at du kan inkludere flere Disallow-linjer og flere User-Agents i én eller flere oppføringer.

En User-agent er en spesifikk søkemotorrobot og Disallow beskriver hvilke filer/mapper du ikke vil at søkemotorprogrammet skal gjennomgå.

Du kan angi en oppføring du vil bruke på et bestemt robotsøkeprogram med User-agent (ved å angi navnet), eller du kan angi at den skal gjelde for alle robotsøkeprogrammene (ved å angi en stjerne).

Når det er angitt kan du sette reglene for hvilke sider, webadresser eller mapper du vil blokkere med "Disallow". Disallow oppføringen skal alltid starte med en skråstrek (/) hvis du skal utelukke en enkelt fil, og i tillegg avsluttes med skråstek om du vil utelukke en hel katalog (mappe).

Eksempel

Når du for eksempel åpner en robots.txt fil, kan dette være hele innholdet:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /webside.html
Disallow: /meg/webside_nr2.html

User-agent: Copernic
Disallow: /

User-agent: EmailCollector
Disallow: /

Forklaring

Her brukes de 2 grunnleggende reglene, "User-agent" og "Disallow" til å angi at alle søkemotorer kan indeksere webområdet unntatt mappene "cgi-bin" og "images", samt 2 enkle filer; "webside.html" og "/meg/webside_nr2.html" på linje 1 til 5.

Vi ser også at linje 5 inkluderer en mappe som heter "meg", med filen webside_nr2.html (/meg/webside_nr2.html). Mapper, eller kataloger skal som sagt ha skråstrek foran og bak. Viktig å merke seg her er at eventuelle andre filer i katalogen "meg" er tilgjengelig, siden vi kun spesifiserer en enkelt fil.

Vi tar et linjeskift og begynner regel 2 på linje 7 hvor vi utelater all tilgang til hele webområdet for søkemotortjenesten "Copernic".

Dette gjøres ved at vi kun anfører en skråstrek, som igjen betyr at alle mapper og kataloger på hele webområdet skal blokkeres for denne spesifikke søkemotoren.

Vi gjør det samme for søkemotortjenesten EmailCollector på linje 10 og 11, som kun har som formål å innhente epostadresser på internett, og det vil vi jo ikke ha noe av.

Det kan nevnes at alle slike søkemotortjenester har et spesifikt navn, som for eksempel nevnte Copernic og EmailCollector, eller mer kjente Googlebot, Googlebot-Mobile og Googlebot-Image.

De 2 førstnevnte, blant mange andre, tilhører en heller tvilsom affære innen hvordan de gjennomgår ditt webområde, mens Google og andre anerkjente søkemotorer har klare og helt lovlydige retningslinjer for hvordan, nårtid og hvor mye ressurser de beslaglegger i gjennomgåelsen av ditt webområde.

Sammendrag

For å forstå, og tilrettelegge eller forhindre alle disse søkemotorsyntaksene, er det nødvendig med grundig forståelse av algoritmene til hver enkelt søkemotor eller "spider" som utforsker internett og innhenter informasjon fra webområder.

Etter hvert er det blitt tusenvis av disse, som igjen viser seg i antall useriøse aktører som bruker teknologien til både ulovlige og spambaserte formål. I dag kan faktisk alle med litt kunnskap om emnet skrive slike webboots programmer til egen tjeneste.

Det finnes mer konkrete ting du som internettbruker eller webområdeeier kan gjøre for å forhindre disse bandittene å få tilgang til "ikke tilgjengelige og/eller private deler" av et webområde, men det krever en mer grundigere forklaring og forståelse av hele internetts syntaks.

Derfor: Har du, eller er i besittelse av, informasjon som virker preventivt på alle former for nettbasert ulovlig aktivitet, gjør det tilgjengelig for flest mulig.

Last opp sikkerhetsrutiner og informasjon for eksempel til din hjemmeside som en del av ditt konsept, og vis alle hva akkurat du mener om råtne stammer i et ellers friskt og opplysende kunnskapstre.

Eksterne linker verdt å utforske for dette emnet:
Google.com - senter for webansvarlige (Norsk)
Robotstxt.org - The Web Robots Pages

 



SØK ressurser

Gå til Avansert søk

HJELP til Hjemmesiden

Nyttige ressurser til ditt Hjemmesideprosjekt, alltid tilgjengelig. Klikk for å vise tilgjengelige ressurser.

FLERE ressurser

Til toppen