Dokumentation des Abschluss-Workshops am 1.3.2016 in Hamburg

Anlass und Zielstellung des Workshops

Dokumentation_LibRank-Workshop

Im Rahmen eines Abschlussworkshops, der am 1. März 2016 in den Räumlichkeiten der HAW Hamburg stattgefunden hat, wurden der Verlauf und die Ergebnisse des Projekts LibRank ausgewiesenen ExpertInnen und VertreterInnen für bibliografische Informationssysteme, Suchmaschinentechnologien und Information Retrieval vorgestellt und gemeinsam diskutiert. Die folgende kurze Dokumentation gibt außer den eigentlichen Vorträgen die wichtigsten Thesen und Aussagen wieder, und stellt somit eine redaktionell aufbereitete Form der Diskussionen dar. Die Präsentationsfolien sind jeweils als PDF hier abrufbar.

Thesenhafte Zusammenfassung der wesentlichen Diskussionspunkte zu den Workshop-Präsentationen

Hintergrund: Web Search & Ranking in Websuchmaschinen (Dirk Lewandowski, HAW Hamburg)

  • Suchverhalten der NutzerInnen ist grundlegend für die Konzeption und Entwicklung von Suchmaschinen (da NutzerInnen erfahrungsgemäß nicht willens sind, viel Zeit und Mühe in Suche zu investieren)
  • Eine gute Suchmaschine beherrscht beides: populäre sowie Long-Tail-Suchanfragen
  • Google News als Antwort auf Ereignisse des 11. Septembers, da Aktualität der Dokumente damals nicht gegeben war
  • Navigationsorientierte Suchanfragen dominieren (Top 10 der Suchanfragen). Dabei steht Google deutlich vor Bing. Bing verliert sehr stark bei den Nutzern, in jedem vierten Fall werden NutzerInnen enttäuscht
  • Wie Suchergebnisse zustande kommen, bleibt intransparent, auch für die Betreiber selbst (maschinelles Lernen). Daher kann im Detail niemand benennen, wie Suchergebnisse zustande kommen. Auch ist die Annahme der Existenz einer geheimen ‘Coca-Cola-Formel‘ abwegig.
  • Zum Verständnis der Rolle von NutzerInnenprofilen beim Ranking gibt es dagegen Literatur. Es sind Ansätze vorhanden, die NutzerInnenprofile automatisch zu erstellen. Studien sind jedoch noch nicht weit gediehen. Auswirkungen der NutzerInnenprofile sollten ermittelt werden.
  • Ranking ist ein prinzipiell intransparentes Verfahren, auch im Umfeld der kommerziellen Bibliothekssysteme und „Discovery Services“. Durch LibRank sollen diese Verfahren weitestgehend transparent gemacht werden.
  • LibRank zielt auf die Entwicklung quelloffener Rankingfaktoren.

Rankingfaktoren für Bibliothekssysteme (Christiane Behnert, HAW Hamburg)

  • Kombination unterschiedlicher Faktoren eine Frage der Gewichtung und Kompromiss-Lösung.
  • Relevanz-Ranking soll verstehen, was bei Nutzung passiert. Framework soll geliefert werden, wodurch Heuristiken entstehen.

Übertragbarkeit auf EconBiz (Kim Plassmeier, ZBW Hamburg)

  • Frage: Kann das unterschiedliche Nutzungsverhalten von Studierenden und ProfessorInnen in einem Rankingmodell abgebildet werden? Antwort: Der Projektplan sah dies ursprünglich vor. Wären aber getrennte Daten z.B. zu den beiden Nutzergruppen „Studierenden“ und „ProfessorInnen“ erhoben worden, hätten auch zwei Rankingmodelle erstellt werden müssen.

Query Understanding in EconBiz (Alexandra Linhart, Master-Studentin, HAW Hamburg)

  • Suchanfragen in einem Fachportal: Nutzer verwenden häufig allgemeine Suchbegriffe wie z.B. „Marketing“ oder „Controlling“, bzw. jeweilige Synonyme.
  • Frage: Wie lange dauerte eine Session? Antwort: Lediglich der Abstand zwischen zwei angeklickten Seiten ist messbar. Daher ist nicht bekannt, wie lange die Person auf der letzten Seite verweilte.

Diskussion: Übertragbarkeit auf andere Informationsumgebungen (Timo Borst, ZBW Kiel)

  • Das Problem bei den sog. Discovery-System gegenüber den klassischen OPACs ist, dass einige hoch relevante sowie viele einfache Treffer angezeigt werden. Daher werden zusätzliche Parameter benötigt, um Relevantes aus einer großen Textmenge herauszufiltern. Daher wurden an einer UB drei Parameter eingeführt, die über reine Textstatistik hinausgehen. Dies war zudem schnell umsetzbar und sorgte für eine deutliche Verbesserung.
  • Ein weiteres Problem ist das breite Fächerspektrum. Ebenso die Frage, ob der Treffer auf ein Buch wichtiger ist, als der auf eine (elektr.) Zeitschrift. Das Bewertungsverfahren muss unabhängig von den Materialien bzw. Dokumenttypen sein.
  • Das vorgestellte Ziel bei der OTTO-Produktsuche ist in seiner Klarheit beeindruckend. Manchen Discovery-Systemen fehlt demgegenüber eine ähnlich klare Vision. Auch durch verschiedene Bedarfe (seitens Bibliotheks-Beschäftigten: „Wir wollen das System so benutzen können wie einen OPAC“…) würden die Anforderungen eher schwammig.
  • Die Vision, was erreicht werden soll (wer ist NutzerIn, was will und macht sie/er) ist genau das, was beim Design bibliothekarischer Informationssysteme fehlt!
  • Vorschlag für eine Vision: „Leuten, die zu faul sind, gescheit zu suchen, muss geholfen werden.“
  • Das Informationsbedürfnis wird seitens der NutzerInnen so formuliert, wie es für sie bequem ist. Ein „Erziehen“ der NutzerInnen dagegen ist nicht möglich. Daher hoch informationswissenschaftliche Fragestellung, wie man den jeweiligen Nutzer bei seiner Recherche unterstützen kann.
  • Weiterer Vorschlag: Lasst uns sinnvolle Unterstützungsverfahren bauen. Denn es ist messbar und transparent, ob eine Session positiv verläuft. Im Falle offensichtlichen ‘Herumirrens‘ sollten Recommender-Verfahren entsprechend greifen. Dabei ist nicht nur ein bestimmtes Verfahren einzusetzen, sondern eine gewisse Pluralität an Hilfsmitteln anzustreben. Z.B. ist nicht alles zu empfehlen, was gesucht und gefunden werden kann, sondern nur das, was zu einem erfolgreichen Treffer geführt hat (Seitenaufruf/Download).
  • Wie kann eine Suche als erfolgreich oder nicht erfolgreich eingeschätzt werden? Auch die Frage, was die Nutzer eben nicht finden, ist interessant.
    Nutzeranalyse nun erforderlich, um nicht nur Bibliothek im eigenen Haus, sondern auch die Nutzer zufriedenzustellen. Dabei ist noch unklar, woran man eine erfolgreiche Suche von einer nicht erfolgreichen Suche unterscheiden kann.
  • Die OTTO-Produktsuche hat es hier leichter aufgrund der naheliegenden Erfolgskriterien. Gedankenexperiment zur Veranschaulichung: „Ein Buch, das seit 2 Jahren nicht mehr ausgeliehen wurde, wird im Ranking „geboostet“, um die Bestandsentwicklung zu rechtfertigen.“ -> Bibliothekarische Informationssysteme können hier weniger auf „intrinsische“ Faktoren zurückgreifen.
  • Andererseits geht OTTO deutlich komplexer vor, als ursprünglich angenommen. Ähnliche Szenarien wie bei der OTTO-Produktsuche zu entwickeln wäre ein gangbarer und guter Weg. Informationsverhaltenstheorie: Defizit, weil niemand weiß, was NutzerInnen hinterher mit den Informationen machen.
  • Anzahl der Downloads könnte durchaus ein Erfolgs- bzw. Relevanzkriterium sein. Im eigenen Kontext wurde auf ein Relevanzranking bewusst verzichtet. Als Alternative wurde das Erscheinungsjahr stark „geboostet“, das Ranking entspricht also eher einer chronologischen Sortierung.
  • Praktische Erfahrung im eigenen Umfeld: Mehr BenutzerInnen schalten von Relevanzranking auf chronologische Sortierung um, als von chronologischer Sortierung auf Relevanzranking.
  • Die Idealformel im Sinne eines ‘Super-Rankings‘ zu entwickeln ist schwierig – ist es sinnvoll, an diesem Punkt viel Arbeit zu investieren?

Relevanzbewertungen mit dem RAT (Sebastian Sünkler, HAW Hamburg, präs. von Dirk Lewandowski, HAW Hamburg)

  • Das Relevance Assessment Tool (RAT) ist eine modular aufgebaute, web-basierte Software, mit der Relevanzstudien entwickelt und durchgeführt werden können. Die Ergebnisse unterschiedlicher Suchsysteme können automatisch erfasst und anonymisiert miteinander verglichen werden.
  • RAT-Scraper wird nach Bedarf angepasst, RAT modular aufzubauen war sehr gut, da dies die Weiterentwicklung und Erweiterung des Tools ermöglichte.
  • Frage: Wie werden Suchaufgaben bei Tests festgelegt, um Ergebnisse nicht zu verfälschen? Antwort: Aus 10 Segmenten werden Suchanfragen herausgezogen und aus diesen wir ein Sample gebildet.

Evaluierungsläufe (Christiane Behnert, HAW Hamburg)

  • Die Annahme ist, dass Relevanz individuell pro Dokument bewertbar ist. Da nicht die Relevanz des einzelnen Dokuments für sich bewertet werden soll, sondern die Qualität des Rankings als Sammlung oder Liste von Dokumenten, könnten Verfälschungen in den Relevanz-Bewertungen insofern vorliegen, als dass die Trefferliste durch das Zusammenführen von Einzelbewertungen nicht mehr betrachtet werden kann.
  • Im Rahmen der Evaluierung wurde die Position des Dokuments in der Liste dem Juror verschleiert, dabei war aber eine Zuordnung in der Gesamtsicht der Trefferliste für die Datenauswertung möglich.

Ergebnisse und Lessons learned (Kim Plassmeier, ZBW Hamburg)

  • Frage: Wäre eine Bewertung anhand des Abstracts besser geeignet als aufgrund von Titel und Autor? Antwort: Was man zum Test anbietet, soll das sein, was das System liefert; das System müsste eher angereichert werden, damit die Suchsituation realer dargestellt wird.
  • Die Ergebnisse sind gar nicht überraschend, da textstatistische Verfahren generell als gut gelten.
  • Ein positives Ergebnis des LibRank-Projekts ist, dass je nach Gewichtung damit auch andere relevante Dokumente generiert werden können (Stichwort Diversity: Wenn es zu einer Suchanfrage mehrere mögliche Interpretationen gibt).