Lupe

Die Suche im Web hat unsere Vorstellung davon nachhaltig geprägt, wie “Suchen” und “Finden” generell, also auch im Intranet zu funktionieren hat. Obwohl die Suchmöglichkeiten im Internet immer umfangreicher werden (Suche nach Orten, Büchern, Personen etc.) und quasi immer intelligenter (Suchmaschinen finden auch “Oracle Database”, obwohl man nur “Oracle DB” eingegeben hat), entwickeln Hersteller von Enterprise Search Engines grundlegend andere Methoden als Google & Co., um gute Suchresultate zu liefern. Der Schlüssel bei der erfolgreichen Suche nach Informationen speziell im professionellen Umfeld liegt vielmehr im Einsatz von semantischen Technologien als dies im Web notwendig ist. Gründe dafür und aktuelle Trends bei Enterprise Search Technologien soll dieser Beitrag von Andreas Blumauer diskutieren. Der Autor berät Unternehmen aus unterschiedlichen Branchen bei der Einführung von Enterprise Search Systemen.


Google, die Mutter aller Suchmaschinen?

Wenn man heute über Suchmaschinen spricht, dann gibt es eine, die als De-facto Standard gilt: Google. Google ist ausser in China in nahezu allen großen Internetmärkten die klare Nummer 1, zumindest was die Zugriffszahlen anbelangt. Die Vision einer funktionierenden Suchmaschine wurde bereits in zahlreichen Science-Fiction Filmen der 70er und 80er Jahren entwickelt, also lange vor dem Internetzeitalter: Systeme wie Deep Thought berechneten dabei Antworten auf die komplexesten Fragen, ähnliches erwartet man nunmehr auch von modernen Suchmaschinen. Google´s simple Eingabemaske erwartet jedoch Suchbegriffe und keineswegs Fragen – eine Suchmaschine ist also ein fundamental anderes Konzept als eine so genannte Frage-/Antwort-Maschine (Question answering bzw. QA Systeme). Dass Computer-Systeme aber tatsächlich in der Lage sind, Antworten auf z.T. natürlichsprachige Fragen zu liefern, wird einerseits durch konkrete Beispiele bewiesen, und ist andererseits speziell im professionellen Umfeld, also im Enterprise-Kontext ein zukunftsträchtiges Thema.

Testet man gängige Suchmaschinen wie Google oder Yahoo!, ob sie auf z.T. zwar noch sehr einfache Fragen Antworten liefern können, so bekommt man teilweise verblüffende Ergebnisse. Noch umfassendere Möglichkeiten findet der Fragende, wenn er QA Systeme wie Powerset oder Wolfram Alpha ausprobiert. Hier ein Überblick über ein paar Testläufe:

search_analysis

Zwischenfazit: Sowohl Suchmaschinen als auch QA Systeme “verstehen” in manchen Fällen schon sehr gut den Hintergrund einer Suchanfrage bzw. einer Frage und interpretieren diesen richtig. Dennoch liefern herkömmliche Suchmaschinen vorwiegend Links zu weiterführenden Dokumenten, jedoch keine konkreten Antworten. Der User muss als nach wie vor die Antworten aus einem oder mehreren Dokumenten extrahieren und manuell zusammenfügen. Sowohl die Aktualität der Information als auch Quellenangaben bleiben dabei dabei oft im Verborgenen, eine Einschätzung der Informationsqualität lässt sich häufig nicht bewerkstelligen, aus diesen Gründen eignen sich herkömmliche Suchmaschinen oft nicht als professionelle Recherche-Werkzeuge.

Was kann nun daraus geschlossen werden, wenn ein Unternehmen eine Enterprise Search Plattform betreiben will?

Enterprise Search ist eine Schlüsseltechnologie für wissensintensive Branchen

Was paradox klingt, in konkreten Fällen aber tatsächlich passiert: Suchen Mitarbeiter in großen, global agierenden Unternehmen nach Experten und Ansprechpartnern aus ihren eigenen Reihen, so existieren dafür oft keine betriebsinternen Suchwerkzeuge. Man greift also auf Web-Dienste wie Google, XING oder LinkedIn zurück. Geht das wirklich nicht besser?

Vor dem Hintergrund der rasant steigenden Informationsmengen in nahezu jeder Branche, haben zahlreiche Unternehmen in den letzten Jahren die Bemühungen intensiviert, Projekte im Bereich Intranet-Suche anzustoßen. Enterprise Search wurde als zentraler Dienst eines Wissensmanagement-Systems identifiziert und laut Gartner wächst dieser Markt bis zum Jahr 2013 auf 1.9 Mrd. US$ bei 1.1 Mrd. US$ im Jahr 2008 (Quelle: Gartner – Magic Quadrant for Information Access Technology, September 2009). Auffällig bei dieser Entwicklung ist auch, dass speziell Europa in diesem Trend dem US-Markt nur folgt, dass am “alten Kontinent” z.B. bislang wenig Know-How bei Beratern und Integratoren über Enterprise Search Technologien aufgebaut wurde.

Auch seitens der Anbieter ist der Markt im Wachstum begriffen: Neben den größten Herstellern wie IBM (Omnifind), Microsoft (FAST), Autonomy (IDOL) oder Endeca (IAP) rücken zahlreiche innovative Unternehmen mit interessanten Angeboten nach, darunter Exalead (CloudView) oder Sinequa (Corporate Search). Letzere zeichnen sich u.a. mit neuartigen Möglichkeiten aus, strukturierte und unstrukturierte Daten auf benutzerfreundliche Weise zu durchsuchen und navigierbar zu machen, wobei teilweise Ansätze aus Business Intelligence mit Methoden des Information Retrieval verknüpft werden.

Eine leistungsstarke Suche nach Informationen im professionellen Umfeld hat u.a. folgende Grundeigenschaften, die zumindest von den größten Anbietern weitgehend nahtlos abgedeckt werden:

  • Konnektivität zu bestehenden Systemen, wie Datenbanken, Portal-Systemen, CMS, DMS oder Enterprise Wikis
  • Security-Mechanismen, die nur jene Suchresultate liefern, die auch vom User gesehen werden dürfen
  • Skalierbarkeit & hohe Performance auch bei großen User-Zahlen
  • Flexibilität in Hinblick auf Integration von Suchdiensten in Drittanwendungen und Anpassbarkeit der Benutzeroberflächen
  • Leistungsstarkes Web-Crawling, um auch Informationen aus dem Web in die Intranet-Suche einbinden zu können
  • Intelligente Algorithmen, um die Relevanz eines Dokuments zu einer Suchanfrage bestimmen zu können

Warum Enterprise Search nicht wie die Internet-Suche funktioniert

Anders als im Web (siehe: PageRank Algorithmus) kann die Relevanz eines Suchergebnisses nicht auf Basis des Verlinkungs-Grades eines Dokumente berechnet werden, da Firmen-Intranets bei weitem weniger Link-Strukturen aufweisen als das Internet. Umso wichtiger wird daher die semantische Analyse jedes zu indizierenden Dokuments mit Hilfe linguistischer Verfahren und mit Verfahren des Text-Minings. Damit kann das System nicht nur besser “verstehen”, welche Inhalte ein Dokument hat, sondern auch lernen, wie Begriffe, Phrasen bzw. Entitäten (Orte, Personen, Produkte, Branchen etc.) eines Unternehmen zueinander in Beziehung stehen. Damit können Suchmaschinen z.B. Personen als Experten für gewisse Produkte oder Branchen identifizieren und zusätzlich zu relevanten Dokumenten ausgeben.

Aufbauend auf den zuvor aufgezählten Grundeigenschaften liegt der Kern eines leistungsstarken Such-Systems für das unternehmerische Umfeld also in der Möglichkeit, Texte und ihre Bedeutung analysieren zu können und mit Hilfe intelligenter Suchdialoge bzw. -assistenten durchsuchbar zu machen. Ein wesentliches Element dabei ist das Erkennen und Extrahieren jener Entitäten (Geschäftsobjekte), die für ein Unternehmen von besonderer Bedeutung sind. Dazu zählen zumeist Produktnamen, Unternehmen (Kunden, Partner, Tochter- und Schwesterfirmen), Projekte, Personen usw. Sind diese erstmals jedem Dokument zuordenbar, können komplexere Suchanfragen abgesetzt werden, die zumeist schon einem QA System nahe kommen, z.B.: Wer ist Ansprechpartner für ein bestimmtes Produkt? Oder welche Projekte wurden am Standort X in einem gewissen Zeitraum durchgeführt?

Trends und Cutting Edge Technologien am Suchmaschinenmarkt

Niemand geht in ein Restaurant und sagt zum Kellner: “Essen!”. Vielmehr entsteht ein Dialog zwischen dem Kunden und dem Ober, der dazu führt, dass Speisen und Getränke aufeinander abgestimmt und dem Kundengeschmack entsprechend schließlich serviert werden können. Dieser Beratungssituation entspricht in vielen Fällen dem Informationsbedürfnis eines Mitarbeiters, der in einer wissensintensiven Branche komplexe Aufgaben zu bewältigen hat. Nicht eine singuläre Suchanfrage wie “Pizza Wien”, was für die Suche im Web typisch ist, sondern eine Abfolge an Fragestellungen ist zu unterstützen. Diese “moderierte Suche”, die mit Hilfe von TagClouds, Facetten und dem so genannten “Drill Down” ermöglicht wird, gehört zu den aktuellen Features einer Suchmaschine, die am Stand der Zeit ist.

Cutting Edge Technologien gehen bei der semantischen Analyse von Texten sogar noch einen Schritt weiter: Mit Hilfe der Sentiment Analyse können Stimmungen und Meinungen und deren Trends z.B. in Bezug auf ein Unternehmen untersucht und verwertet werden. Weiters können Suchmaschinen der neuesten Generation nicht nur einzelne Entitäten erkennen und extrahieren, sondern sogar Fakten und Aussagen und diese können zueinander in Beziehung gesetzt werden. Z.B. wird erkannt, dass Person X in einem gewissen Zeitraum der CEO eines Unternehmens Y war, und weiters dass dieses Unternehmen Y in den Jahren zuvor das Tochterunternehmen einer Firma Z war usw. Diese Wissensstrukturen, die aus verschiedenen unstrukturierten Texten, wie z.B. Nachrichten, automatisch generiert werden können, und in Form semantischer Netze verarbeitet werde, können in weiterer Folge mit Fakten aus dem Semantic Web verknüpft werden. Wie gut dies bereits funktioniet, demonstriert mit Thomson Reuters ein Branchenriese: Das Web-Service “Calais” extrahiert Entitäten, Fakten und Zitate und referenziert dabei auf Ressourcen aus dem semantischen Web. Ein Suche nach “ähnlichen” Texten, wie z.B. passenden Nachrichten zu einem gegebenen Blog-Beitrag, wird somit quer über das gesamte Web möglich. Die Vision, das Web wie eine weltweite Datenbank nutzen zu können, ist somit zur Realität geworden.

Fazit: Enterprise Search ist nicht gleich Web-Suche

Google & Co. bekommen aus zwei Richtungen Gegenwind. Zum einen haben Anbieter am Enterprise Search Markt bereits ausgereifte semantische Technologien im Einsatz und greifen immer stärker auf Semantic Web Technologien zurück. Z.B. extrahiert Exalead nicht einfach nur Fakten, sondern setzt dabei auf RDF (Resource Description Framework), der grundlegenden Spezifikation des semantischen Webs (interessanterweise hat Google mit seiner Enterprise Search Appliance bis heute auch nicht Fuß fassen könne). Zum anderen haben sich rund um das semantische Web zahlreiche neue Anbieter etabliert, die über die übliche Suche nach Begriffen hinausgeht: Neben den bereits erwähnten QA Systemen zählen u.a. Anbieter wie Calais, Evri, SiloBreaker oder Digital Trowel zu diesen Start-Ups, die sich an einem grundlegend anderen Ziel orientieren als herkömmliche Suchmaschinen: Nicht mehr die Suche nach Dokumenten steht im Vordergrund, sondern die Vernetzung von Informationen.

share or bookmark
  • Digg
  • del.icio.us
  • Facebook
  • Google Bookmarks
  • LinkedIn
  • Twitter