Sort by Date / GIS / Solr Update

Hi All

  1. Weshalb sind die Ergebnisse, wenn ich “sort by date” wähle, nicht nach Datum sortiert?
  2. Wie kann ich von Aussen (per API oder Java) die neuesten / frisch gecrawlten Ergebnisse selektieren.
  3. Wie kann ich GIS Infos (Geografische Länge / Breite) den Index Einträgen hinzufügen?
  4. Kann ich überhaupt (wie) bestehende Solr Einträge updaten?

Ich plane, einen GIS Tagger (News mit Geonames zu GIS Info) zu bauen.
Wenn sich jemand bereit erklärt, den JAVA Teil für YaCy zu übernehmen, würde ich gerne die GIS-Daten und den erforderlichen Matcher liefern.

Feedback erwünscht!

LG

Markus

sollte es, beim p2p-Mode kann es aber wegen später eintrudelnden Ergebnissen Unordnung geben.

dazu haben wir glaube ich nichts, wofür wäre das gut?

Das gibts bislang nur aufgrund von Lokationsnamen (Städte etc). Kann man in den Semantik-Einstellungen dazuklicken.

Solr Dokumente kann man nur überschreiben, so weit ich mich erinnere (mache jetzt fast nur noch elasticsearch, da geht das auch nicht wirklich)

Sort by date funktioniert tatsächlich korrekt, aber nur im privacy mode. Ich brauche das aus verschiedenen Gründen für die Nachbearbeitung:

  1. Zum Aufbau und Pflege der Starturl und Blacklist Datenbank - Man weiss ja nie, was gecrawlt wird, und nach einiger Zeit ist der Index so zugemüllt, dass ein Neuanfang erforderlich ist. Blacklist Neueinträge werden ja nur für neue Crawls aktiv.
  2. Ich nutze das Internet als Datenbank und zur Datenextraktion. YaCy ist mein Crawler, aber für meinen Harvester muss ich wissen, was das Delta der Neuzugänge ist. Hierzu eignet sich der /date search, allerdings braucht der mindestens einen Suchbegriff. Das wäre ein halbweges brauchbarer Workaround.
  3. GIS ist hochinteressant für mich, da ich ein Portal für Katastrophenmeldungen aufbaue. Ich erinnere mich, das YaCy da was hatte - werde ich gleich testen. Ein GIS Tagger ist nicht trivial. Um die neuen URLs zu taggen, werde ich wohl einen eigenen Tagger bauen. Dafür wieder -> siehe Punkt2.