Crawler

In dieser Lektion wird beschrieben, wie Crawler erstellt, bearbeitet, getestet und ausgeführt werden können. Gehen Sie dafür zunächst im Seitenmenü auf “Ratsinfo-Crawler”.

  1. Crawler erstellen
    • Klicken Sie auf “Neuer Crawler”
    • Falls sie im unteren Bereich die Überschrift “Individuelle Felder” sehen, gehen Sie oben rechts auf die drei senkrechten Punkte → “Voreinstellungen” und deaktivieren Sie “Individuelle Felder”. Klicken Sie anschließend auf “Ausblenden und Seite neu laden
    • Vergeben Sie einen Titel für den Crawler. Ein Crawler ist immer für eine bestimmte Region zuständig. Er kann also gut den Namen der Region tragen.
    • Der weitere Inhaltstext des Crawlers hat keine weitere Bedeutung und wird nirgendwo angezeigt. Sie können hier bei Bedarf interne Informationen und Notizen hinzufügen.
    • Weitere Felder ausfüllen
      • URL: Tragen Sie hier die URL ein, die zu einer Webseite führt, auf der Beiträge aufgelistet sind, die für die Suche enstsprechend abgespeichert werden sollen.
      • Autorun (Cron): Tragen Sie hier zunächst eine 0 ein. Nach Ihren Tests dann eine 1, damit der Crawler automatisch mit dem Cron-Aufruf startet.
      • Warte auf Selektor: Ggf. werden beim Aufruf der URL durch Javascript Inhalte nachgeladen, die wir crawlen wollen. Um sicher zu gehen, dass diese nachgeladen wurden, bevor der Crawler mit seiner Arbeit beginnt, kann dieser Tag hier angegeben werden. Ein Beispiel wäre “table“.
      • Hat Tiefenlink: Kann aktuell ignoriert werden
      • Domain: Meistens werden innerhalb der zu crawlenden Webseite nur relative Pfade zu z.B. PDFs angegeben. In diesem Feld kann angegeben werden, was beim Abspeichern des Pfades davor geschrieben werden soll.
      • URL-Host: Hier kann eine Information angegeben werden, unter welcher Instanz der Crawler lief. Dient nur der Rückverfolgung.
      • Datei-Typ: Hier wird angegeben, welchen Dateityp ein Eintrag bereithält. Entweder PDF oder HTML.
      • Datumsformat: Das Format, in dem ein Datum auf der Webseite angezeigt wird. (https://www.php.net/manual/de/datetime.format.php)
    • Veröffentlichen Sie den Crawler
    • Gehen Sie im Seitenmenü auf “Ratsinfo CrawlerWizzard” und wählen Sie beim neu erstellten Crawler das Zeichen ganz rechts, um dessen Wizzard zu öffnen.
    • Prüfen Sie im Reiter “Allgemein” noch einmal die Einstellungen.
    • Im Reiter “Crawler-Startseite” sehen Sie den reinen HTML-, Json, oder sonstigen Text der zu crawlenden Webseite.
    • Füllen sie die Felder für Starter und Stopper der jeweiligen Parameter aus. Dies können sie auch machen, indem Sie den Pinsel hinter dem jeweiligen Feld aktivieren und dann den entsprechenden Bereich markieren.
    • Gehen Sie oben rechts auf “Änderungen speichern” und prüfen Sie anschließend, ob alle Markierungen die Parameter wie Titel, Datum, Typ und URL korrekt umschließen. Scrowlen Sie ggf. an die passende Stelle.
  2. Crawler testen
    Gehen Sie im Seitenmenü auf “Testen”. Der Crawler läuft nun durch, ohne die gefundenen Einträge in OpenSearch zu speichern und schickt einen entsprechenden Bericht an die unter Admin-Mail angegebenen Mail-Adresse. Bitte beachten Sie, dass die Admin-Mail angegeben ist und ggf. das SMTP-Plugin korrekt eingestellt ist.
  3. Crawler scharf schalten
    Nachdem der Crawler getestet wurde und läuft, wie er soll, kann der für den Autorun schafgeschaltet werden. Damit der neue Crawler automatisch aufgerufen wird, muss noch der Haken bei “Autorun (Cron)”. Gesetzt werden. Gehen Sie dafür im Seitenmenü auf “Ratsifo Crawler-Wizzard” und wählen den zu bearbeitenden Crawler aus. Im Reiter “Allgemein” setzen Sie den Haken bei “Autorun (Cronjob)” und gehen auf “Änderungen speichern”.
  4. Crawler bearbeiten
    Sie können vorhandene Crawler jederzeit bearbeiten. Wir empfehlen, Änderungen ausschließlich über den Crawler-Wizzard vorzunehmen. Gehen Sie dafür im Seitenmenü auf “Ratsifo Crawler-Wizzard” und wählen den zu bearbeitenden Crawler aus.