Robots.txt
Definition:
Die Datei robots.txt ist eine Textdatei, die im Hauptverzeichnis einer Website platziert wird, um Suchmaschinen-Robots (Crawler) zu steuern, welche Bereiche der Website sie indizieren dürfen und welche nicht. Diese Datei dient als Leitfaden für Suchmaschinen, welche Inhalte sie erfassen sollten und welche ausgeschlossen werden sollen, um die Crawling-Ressourcen effektiver zu nutzen und sensitive Daten zu schützen.
Beispiel:
Ein Webseitenbetreiber möchte nicht, dass bestimmte Verzeichnisse seiner Website, wie z.B. interne Benutzerdatenbanken, von Suchmaschinen indiziert werden. Er kann dies erreichen, indem er folgende Anweisungen in die robots.txt Datei aufnimmt:
User-agent: *
Disallow: /verzeichnis/
Disallow: /interne-daten/
29 Apr 2024