Überlegungen zu robots.txt

colinax · 22.09.2019 13:13:26

hamburgerhans schrieb:

Technisch sinnvoll ist eine robots.txt aber allemal, beispielsweise zur Kennzeichnung von CMS-Systemverzeichnissen und- dateien. Leider fehlt die bei WB/WBCMS.

Wieso sollten wir auch was mitliefern das wir nicht steuern können (wie z.B. den Pfad zur Sitemap)?

Der ganze Inhalt der robots.txt ist ja nur eine Empfehlung mehr nicht, OK Google hält sich prinzipiell daran außer wenn Google erkennt dass es das rein muss.

Beispiel: Ein Webseiten Betreiber hat in der robots.txt das Media Verzeichnis mit Disallow: /media/ gekennzeichnet damit Google die Bilder nicht in die Suche mit aufnimmt. Hat der Betreiber ein Bild aus dem Media Verzeichnis in seiner Seite eingebunden, dann gibt's beim ersten crawlen einen Fehler da er ja nicht rein darf, beim nächsten crawlen weis der Bot bereits dass das Media Verzeichnis crawl relevant ist, und ignoriert die Disallow Anweisung.

Was die meta Angeht mit denen Beschäftige ich mich gar nicht mehr, die Wichtigsten und ein paar Weitere bringt WBCE über das simplepagehead Modul mit.

hamburgerhans · 22.09.2019 13:54:52

colinax schrieb:

Wieso sollten wir auch was mitliefern das wir nicht steuern können

Die WB/WBCE Systemverzeichnisse sind vorgegeben, den Suchmaschinen angeboten, können diese beispielsweise im Sinne von Effizienz entscheiden. Bei nicht wenigen CMS wird das so über die Serverdatei robots.txt gehandhabt; man könnte sagen "seit ewigen Zeiten". Da braucht es kein Goggel für.
Von Steuern ist überhaupt nicht die Rede, zumal das selbstredend nicht funktioniert.

Was jemand individuell als Meta-Tag nutzt oder bleiben läßt, bleibt jedem selbst in eigener Verantwortung überlassen. Ob sinnvoll, oder als Vorgabe.

Gruß, HH..

Beitrag geändert von hamburgerhans (22.09.2019 14:06:46)

colinax · 22.09.2019 14:03:07

hamburgerhans schrieb:

Bei bei nicht wenigen CMS wird das so über die Serverdatei robots.txt gehandhabt; man könnte sagen "seit ewigen Zeiten".

Hast du Beispiele für solche CMS die eine robots.txt dabei haben?

Wenn man es gut portieren kann, sag ich mal dazu: why not.

hamburgerhans · 22.09.2019 14:15:43

Da müßte ich aber in unserem Archiv "wühlen". Oft liegt die Systemstruktur aber als Empfehlung in beigefügten texten schon vor.
Nur ein erstes Beispiel -nach kurzem Goggeln:

https://www.saphirsolution.de/robotstxt-seo/

Schon im ersten Beispiel zeigt man die Vorgehensweise in WordPress mit:
User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /readme.html

So, oder ähnlich zieht sich das durchs Netz, mit langem Bart.
Rasieren ist nicht angesagt. big_smile

Gruß, HH.

ps. Apropos "portieren". Ein einfaches DIR-Kommando mit Umleitung in eine Datei ergibt die Struktur, die nur ein wenig ergänzt werden muß. Das muß nicht unbedingt beim Hoster geschehen, läßt sich genauso lokal mit einem portablen Server unter Win realisieren. Einmal vorhanden >>hier reinstellen yikes

Beitrag geändert von hamburgerhans (22.09.2019 14:22:40)

colinax · 22.09.2019 14:33:17

hamburgerhans schrieb:

Schon im ersten Beispiel zeigt man die Vorgehensweise in WordPress ...

Der Inhalt mag zwar stimmen aber dass ist eine 0815 Empfehlung bzw. Vorgehensweise von einer Agentur die WP verwendet, WordPress selbst hat keine robots.txt dabei.

Der Grund warum ein CMS keine robots.txt dabei hat ist einfach, es gibt keinen Standard, die Suchmaschinen müssen sich nicht daran halten und der wichtigste Grund ist: Als Entwickler weis man nicht was die Kunden alles machen.

Im Forum zu helfen ist einfacher als wenn das CMS eine robots.txt mitliefert und bei einem Upgrade der Version die vom Kunden erstellte robots.txt überschreibt.

Es ist aber kein Problem so eine Anleitung bei uns in der User-Doku einzubauen, falls das gewünscht wäre.

hamburgerhans · 22.09.2019 14:52:54

Ob nun WordPress oder ein beliebiges anderes CMS ist nicht relevant.
Das Beispiel zeigte sich als erstes als Suchergebnis.
Ein wenig Recherche - vorausgesetzt man bemüht sich und nimmt sich Zeit für's Lesen - zeigt wie etabliert dieses Verständnis von robots.txt im Kontext mit einem CMS steht.

Die Vorgehensweise ist bekannt, die Gründe sind benannt. Wenn dabei nur der Hinweis auf 0815 herauskommt, ist das mit Verlaub, dürftig. Soweit ich erinnere waren die ersten Hinweise immer erst im begleitenden Text, nämlich die Struktur zu erfassen, und standen irgendwann dann auch als "fertige" robots.txt zur Verfügung.

Darüber eine robots.txt zu überschreiben, entscheidet das Installationsscript.
Aber wenn nun schon eine Dateiumleitung ein Problem darstellt, kommen mir Zweifel, ob das je gelingt.
Gruß, HH.

ps.
Robertos.txt in (WB-)root. Bei anderem Content Dir als "pages", ändern! Wenn root = wb-root, dann sowieso nur Disallow: auf eigene Systemverzeichnisse.

User-Agent: *
Disallow: /account
Disallow: /admin
Disallow: /config
Disallow: /config.php
Disallow: /framework
Disallow: /google_sitemap.php
Disallow: /include
Disallow: /index.php
Disallow: /languages
Disallow: /log
Disallow: /media
Disallow: /modules
Disallow: /search
Disallow: /temp
Disallow: /templates
Disallow: /var
Allow: /pages

Beitrag geändert von hamburgerhans (22.09.2019 15:32:20)

florian · 22.09.2019 15:12:44

Eine robots.txt im Installationspaket mit in den Root zu legen, ist eine gute Idee, bislang kopiere ich mir immer eine bei mir lokal gespeicherte fertig/universal-robots.txt in den Root (wenn ich's nicht vergesse).

Zwei Fragen zu Deinem robots.txt-Vorschlag:

Warum
Disallow: /google_sitemap.php
Disallow: /media
Disallow: /index.php
?

Und
Allow: /pages
ist doch eigentlich nicht erforderlich, da ja prinzipiel mMn alles erlaubt ist, was nicht verboten wurde?

Ich würde es übrigens begrüßen, wenn alle Beteiligten sachlich blieben und nicht so herumrumpelten.

Beitrag geändert von florian (22.09.2019 15:15:01)

thanks

colinax · 22.09.2019 15:18:11

Dass man in der heutigen Zeit eine robots.txt braucht bzw. haben sollte ist mir bekannt, nur darum ging es hier ja nicht.

Es ging meines Verständnisses darum ob ein CMS eine robots.txt mitliefern sollte oder nicht.

hamburgerhans schrieb:

Darüber eine robots.txt zu überschreiben, entscheidet das Installationsscript.

Leider Nein, zumindest im WB/WBCE Umfeld, hier entscheidet der User was er über FTP hochläd.

Leider geht es auch nicht die robots.txt über ein Admin-Tool zu managen, da diese auf der root Ebene keine Berechtigung haben

Falls du mit Dateiumleitung den Dir Befehl meinst, den können nur Admins oder User die dass benötigen.

Da wir auch den DAU berücksichtigen müssen, ist es einfacher dies über das Forum oder über eine Anleitung zu erledigen.

Also wie gesagt eine Anleitung zu erstellen ist kein Problem, eine Beispiel robots.txt im Paket mitzuliefern wird schwer.

Zur Erklärung: 0815 war nicht als abwertend gedacht, sondern dass es so viele Seiten gibt die es erklären dass man da eigentlich nicht nachhelfen müsste.

florian, thanks

hamburgerhans · 22.09.2019 15:29:53

@florian
No "rumble in the Forum" - !
Ansonsten war ich mit dem Beispiel "da oben" noch garnicht fertig, es war die erste erzeugte Liste - hätte wohl besser fertig statt gemütlich, aber dann, dann kamen schon Eure Beiträge.
florian:"alles erlaubt ist, was nicht verboten wurde?"
Ja, das ist so. Ich denke an so manch gesehene mögliche weitere Verzeichnisse mit "Apps" die beispielsweise mit in WB/WBCE eingebunden werden. Darauf könnte, sollte, müßte eine Installationsroutine vorbereitet sein. (WP macht's übrigens grottenschlecht)

Also nochmal von vorn.

User-Agent: *
Disallow: /account/
Disallow: /admin/
Disallow: /config/
Disallow: /config.php
Disallow: /framework/
Disallow: /google_sitemap.php
Disallow: /include/

Disallow: /languages/
Disallow: /log/
Disallow: /media/
Disallow: /modules/
Disallow: /search/
Disallow: /temp/
Disallow: /templates/
Disallow: /var/

@colinax
Es ist egal, ob nun per FTP. Die Dateien bzw. das Paket sollen auf den Server. Dabei muß eine robots.txt VOR der Installation nicht zwingend in (wb)-root liegen.

colinax:" Also wie gesagt eine Anleitung zu erstellen ist kein Problem, eine Beispiel robots.txt im Paket mitzuliefern wird schwer."
So kann es gerne sein big_smile

colinax:" Zur Erklärung: 0815 war nicht als abwertend gedacht, sondern dass es so viele Seiten gibt die es erklären dass man da eigentlich nicht nachhelfen müsste."
Manchmal bin ich zu ungeduldig - vergesse dabei, daß ich selbst ja nur "gesammelte Werke" überfliege, dann zu schnell etwas voraussetze - und dann ist es passiert. Also kurz: Nichts Bösartiges oder Abwertendes beabsichtigt.

Gruß, HH. Soeben noch entdeckt: die Disallow: /index.php dürfte natürlich nicht sein. Gelöscht!

ps. wer /media/ freigeben mag, kann das natürlich (Zeile löschen)
Wer /media/ sperren und nur Unterverzeichnisse in /media/ freigeben mag, kann dies natürlich auch.
Disallow: /media/ Allow: /media/Katzenfotos
Das läßt sich natürlich nicht automatisieren.

Beitrag geändert von hamburgerhans (22.09.2019 16:06:48)

colinax · 22.09.2019 16:08:41

Aus Interesse hab ich die Disallow Vorschläge mit https://varvy.com/ überprüft.

Was neu ist dass geschützte Bild Verzeichnisse, laut diesem Tool, keine SEO Probleme mehr erzeugen

Raus kam dass die folgenden Disallow, ohne SEO Probleme zu erzeugen, gesetzt werden können.

User-Agent: *
Disallow: /account/
Disallow: /admin/
Disallow: /config/
Disallow: /config.php
Disallow: /framework/
Disallow: /languages/
Disallow: /log/
Disallow: /media/
Disallow: /search/
Disallow: /temp/
Disallow: /var/

Ich hab nur die Startseite überprüft und meine Seite hat keine Suche oder Frontend Login.

Daher wäre ich um einen Vergleich mit einer Seite froh die sowohl Suche als auch Frontend Login hat.

hamburgerhans · 22.09.2019 18:29:45

Mit diesen Werten wurde geprüft.

[== robots.txt ==]
User-Agent: *
Disallow: /account/
Disallow: /admin/
Disallow: /config/
Disallow: /config.php
Disallow: /framework/
Disallow: /include/
Disallow: /languages/
Disallow: /log/
Disallow: /media/
Disallow: /modules/
Disallow: /search/
Disallow: /temp/
Disallow: /templates/
Disallow: /var/
Allow: /media/woerterbuch/images

Wichtig hierbei zu berücksichtigen, daß die Verzeichnisse und Dateien nicht über Serverrechte (unter Apache, IIS, NGINX oder andere Server) eingeschränkt wurden - entspricht 777. Weshalb /modules/ und /include/ natürlich drin bleiben! Wer weiß schon welche Dir per default vom Server gesperrt werden, weshalb man sich nicht darauf verlassen darf.

Die Datei google_sitemap.php wurde nicht "verboten", da diese erwünschten XML-Dateninhalt generiert.

Die angegebenen Verzeichnisse inklusive deren Unterverzeichnisse sind nun alle "verboten".

Ausnahmen für Unterverzeichnisse können angelegt werden, wie im Beispiel.
Beim Verzeichnis /media sieht's nun so aus.

Alles - Verzeichnisse und Dateien - unter /media/ ist "verboten",
Disallow: /media/
mit Ausnahme des Verzeichnisses /media/woerterbuch/images.
Allow: /media/woerterbuch/images

Hier könnte man noch weiter regulieren, indem man nur einzelne Bilder im Verzeichnis /images freigibt.
Derartige Regulierungen sind natürlich nur individuell zu treffen.
Gruß, HH.

Beitrag geändert von hamburgerhans (22.09.2019 19:18:57)

kleo · 22.09.2019 23:24:16

Ich erlaube mir vielleicht eine blöde Frage zu stellen:

woher wissen die Suchmaschienen, welche Verzeichnisse bei mir existieren?

Durch einfaches "Ausprobieren" allen denkbaren Namen?

colinax · 23.09.2019 00:01:44

Indem sie nach einer Auflistung der Verzeichnisstruktur fragen.

Drücke unter Windows auf Start, tippe cmd ein und öffne die Eingabeaufforderung. In dieser tippe dir ein und drücke Enter, Windows listet dir dann die Verzeichnisse des Users auf.

Sowas gibt’s auch unter Linux, wobei man mit einer robots.txt dies managen kann.

Eine andere Variante ist dass die Suchmaschinen deine Webseite analysieren und dadurch automatisch die wichtigsten Strukturen kennen, da die URL (also Adresse) nichts anderes ist als ein Ordnerpfad auf einem anderen Rechner.

*Diese Erklärung wurde zum erklären vereinfacht dargestellt.*

Beitrag geändert von colinax (23.09.2019 00:19:50)

hamburgerhans

berny · 23.09.2019 10:35:17

bei all der ganzen Geschichte mit der robot.txt sollte nicht vergessen werden, dass diese sehr oft als Tool für Hacker verwendet werden kann.
Dir-List sollte ebenfalls aus Sicherheitsgründen deaktiviert werden.

ich verstehe diesen Hype um diese Date nicht wirklich.

colinax · 23.09.2019 10:47:21

Als Hacker Tool, weis nicht, was soll ich mit einer Liste die mir nur bestimmte Ordner anzeigt?

Hacker müssen sich eher mit php und co. auskennen.

Achtung wir reden hier im/vom Windows Umfeld mit localem Server. Unter einem Linux Webserver hat der Besucher ja eh nur Lese Berechtigung, alles andere wäre kriminell.

berny · 23.09.2019 11:09:30

Einfaches Beispiel, ich verlege aus Sicherheitsgründen das admin Verzeichnis woanders hin.
Die robot.txt machts gleich wieder bekannt.

Oder um zu erfahren, welches System läuft einfach anhand der Ausschlüsse zeigen lassen.
Oder mal einfach eine shop-robots hergenommen:
https://www.shop-apotheke.at/robots.txt (ist jetzt nur ein Beispiel)
und vieles mehr.

Die Datei alleine bringt nichts, aber der Inhalt lässt unter Umständen auf Dinge hinweisen, die ein Hacker verwenden könnte.

Bei einem lokalen Server? welchen Sinn hat da die robots.txt? Da sollte ja google und co ausgesperrt sein....

Ich verwende sie nicht, braucht man nicht, google hat eine Sitemap und die Links, die der Bot durchforstet und folgt.

boeseroeser

hamburgerhans · 23.09.2019 11:09:57

berny schrieb:

ich verstehe diesen Hype um diese Date nicht wirklich.

1.) besteht hier kein Hype, es wird über etwas gesprochen, das seit der Existenz des WWW eine sinnvolle Funktion bereitstellt.
2.) Die robots.txt als Gefährdung darzustellen - Stichwort Hacken - kommt aus der Ecke der Weltverschwörungstheoretiker, die von nichts eine Ahnung, aber auf alles eine Antwort haben.

Ich habe so langsam den Verdacht, daß hier getrollt wird, wie auch hier:

berny schrieb:

Dir-List sollte ebenfalls aus Sicherheitsgründen deaktiviert werden

Das ist Veräppelung pur - oder doch nicht?
Ansonsten gibt es Aufklärung bei den Stichwörtern "Directory-Listung"+" Webserver" und andererseits "Betriebssystem"+"Dir", wobei letzteres PC-Benutzern seit es PC's mit OS - z.B. mit DOS - gibt bekannt ist,

Gruß, HH.

Beitrag geändert von hamburgerhans (23.09.2019 11:13:07)

berny · 23.09.2019 11:14:23

Auf die Schnelle gefunden:
https://tipstrickshack.blogspot.com/201 … tstxt.html

gibt sicher noch bessere Ausführungen, wie man die robots.txt missbrauchen kann...

@HH: mir geht es nicht um Weltverschwörung, aber wozu benutzen wenn sie eigentlich gar nicht mehr relevant ist, im Gegensatz zu früher, wo die robots.txt ein wichtiges Tool war.
Ich habe ja die Sitemap, die ich bei google anmelde, wozu also noch zusätzlich eine robots.txt?
Die dissallowed sollten in der sitemap ja eh nicht drinnen stehen....

Beitrag geändert von berny (23.09.2019 11:16:56)

berny · 23.09.2019 11:20:12

Und noch eins:
google eingeben: robots.txt disallow phpmyadmin

und schon habe ich zB diese hier:
https://www.trustedcars.com/robots.txt

und schon weiß ich, dass diese Url phpmyadmin installiert hat.

Um das gehts offensichtlich den Weltverschwörern ;-)

hamburgerhans · 23.09.2019 11:22:27

Wenn man derartige Seiten zitiert, sollte man den Text komplett lesen und verstehen.
Auf den dortigen Unsinn bekommt man einen anderen Blick, wenn man z.B. einigen - hier im Topic vorzufindenen - technischen Angaben und Empfehlungen folgt.
Mit ein wenig Weiterbildung löst sich solch ein Unsinn im Nu auf.

Und zu "Deiner" sichtbaren robots.txt gibt's auch nur eines zu sagen: Die muß der Webseitenbetreiber mit den erforderlichen Dateirechten versehen, und entsprechend wieder freigeben, was meist über die Control Panels schon voreingestellt ist bzw selbst konfiguriert werden kann. Das liegt aber in alleiniger Verantwortung des Webseitenbetreibers. Auch hier ist es wie meist: "Weiterbildung hilft"

Rechtlich gesehen, gibt's auch noch etwas zu beachten, wie z.B. Bedeutung der "robots.txt" - nur ein Beispiel.

Gruß, HH.

Beitrag geändert von hamburgerhans (23.09.2019 11:35:27)

colinax · 23.09.2019 11:22:51

berny schrieb:

Ich habe ja die Sitemap, die ich bei google anmelde, wozu also noch zusätzlich eine robots.txt?

Für alle anderen Suchmaschinen

berny · 23.09.2019 11:24:37

colinax schrieb:

berny schrieb:
Ich habe ja die Sitemap, die ich bei google anmelde, wozu also noch zusätzlich eine robots.txt?
Für alle anderen Suchmaschinen

Da könnte ich ebenfalls sitemaps anmelden.
Ebenso mit der htaccess bekannte Bots umleiten.
Unbekannte will ich eh nicht auf meiner Seite haben.

Natürlich, eine robots.txt ist leichter zu erstellen.

florian · 23.09.2019 11:59:29

Das nimmt hier ja gerade etwas Fahrt auf. Ich will nicht schon wieder durch Thementeilungen für unliebsame Überraschungen sorgen, aber ursprünglich ging es darum, ob, und wenn ja in welchem Umfang, eine robots.txt im Installationspaket von WBCE vorgehalten werden soll.

Und zu "Deiner" sichtbaren robots.txt gibt's auch nur eines zu sagen: Die muß der Webseitenbetreiber mit den erforderlichen Dateirechten versehen, und entsprechend wieder freigeben, was meist über die Control Panels schon voreingestellt ist bzw selbst konfiguriert werden kann. Das liegt aber in alleiniger Verantwortung des Webseitenbetreibers.

Hierzu mal eine Rückfrage, vermutlich oute ich mich damit dann auch als Noob:
Auf was müssen die Zugriffsrechte der robots.txt denn eingestellt werden, damit sie von den SuMa-Bots gelesen, aber nicht über SuMas gefunden werden kann? Geht das überhaupt?

thanks

colinax · 23.09.2019 12:02:50

florian schrieb:

Geht das überhaupt?

Da der Bot wie jeder andere Besucher nur lesen oder nicht lesen kann, kann man da nichts zusätzlich einstellen.

Beitrag geändert von colinax (23.09.2019 12:03:08)

florian

colinax · 23.09.2019 12:10:43

Falls wer Lesestoff braucht wie Google robots.txt und metas verwendet:

https://support.google.com/webmasters/a … 1943?hl=de

WBCE CMS Forum

#1 22.09.2019 13:13:26

Überlegungen zu robots.txt

#2 22.09.2019 13:54:52

Re: Überlegungen zu robots.txt

#3 22.09.2019 14:03:07

Re: Überlegungen zu robots.txt

#4 22.09.2019 14:15:43

Re: Überlegungen zu robots.txt

#5 22.09.2019 14:33:17

Re: Überlegungen zu robots.txt

#6 22.09.2019 14:52:54

Re: Überlegungen zu robots.txt

#7 22.09.2019 15:12:44

Re: Überlegungen zu robots.txt

#8 22.09.2019 15:18:11

Re: Überlegungen zu robots.txt

#9 22.09.2019 15:29:53

Re: Überlegungen zu robots.txt

#10 22.09.2019 16:08:41

Re: Überlegungen zu robots.txt

#11 22.09.2019 18:29:45

Re: Überlegungen zu robots.txt

#12 22.09.2019 23:24:16

Re: Überlegungen zu robots.txt

#13 23.09.2019 00:01:44

Re: Überlegungen zu robots.txt

#14 23.09.2019 10:35:17

Re: Überlegungen zu robots.txt

#15 23.09.2019 10:47:21

Re: Überlegungen zu robots.txt

#16 23.09.2019 11:09:30

Re: Überlegungen zu robots.txt

#17 23.09.2019 11:09:57

Re: Überlegungen zu robots.txt

#18 23.09.2019 11:14:23

Re: Überlegungen zu robots.txt

#19 23.09.2019 11:20:12

Re: Überlegungen zu robots.txt

#20 23.09.2019 11:22:27

Re: Überlegungen zu robots.txt

#21 23.09.2019 11:22:51

Re: Überlegungen zu robots.txt

#22 23.09.2019 11:24:37

Re: Überlegungen zu robots.txt

#23 23.09.2019 11:59:29

Re: Überlegungen zu robots.txt

#24 23.09.2019 12:02:50

Re: Überlegungen zu robots.txt

#25 23.09.2019 12:10:43

Re: Überlegungen zu robots.txt

Fußzeile des Forums