print logo

Konsistente Terminologie als Fundament für „Text Mining"

85 % aller Datenbankinhalte sind unstrukturiert.
Petra Dutz | 10.09.2013
Wie aus einer Publikation des Karlsruhe Institute of Technology (KIT) hervorgeht, bestehen 85 % aller Datenbankinhalte aus unstrukturierten Daten. Dazu gehören vor allem E-Mails, Webseiteninhalte oder Direktmarketing-Anschreiben (vgl. Text Mining: Wissensgewinnung aus natürlichsprachigen Dokumenten von Witte, René und Mülle, Jutta). Um aus diesen Daten wertvolle Schlüsse für Marketing- und Vertriebsstrategien in Unternehmen ziehen zu können, hat sich der Bereich des sogenannten „Text Mining“ entwickelt. Bei Text Mining handelt es sich um Analyseverfahren, die unstrukturierte Texte klassifizieren und dadurch für eine schnellere Erschließung der Inhalte sorgen. Hierdurch sollen im Optimalfall Informationen generiert werden, über deren Existenz bislang noch keine Erkenntnis vorlag (vgl. Text Mining, Gesellschaft für Informatik e.V.).

Die Qualität unstrukturierter Daten mit Autoren-Tools und Terminologiemanagement verbessern
Dass der Verwaltung linguistischer Ressourcen eine wesentliche Bedeutung bei der Konzeptfindung für Text Mining zukommt, ist nicht weiter verwunderlich (vgl. Ratgeber Text Mining von Sascha Alexander, Computerwoche online vom 15.07.2008). Hierbei spielt vor allem die Tatsache eine Rolle, dass ein solides Fundament durch konsistente Texterstellung die Ergebnisse von Text-Mining-Verfahren entscheidend verbessern kann. Wird schon für die Erstellung von Texten eine unternehmensweise Richtlinie zur Unternehmenssprache (Corporate Language) definiert und konsequent auf ihre Einhaltung geachtet, vereinfacht dies einen Textabgleich ungemein. Zwar können durch den Einsatz einer fehlertoleranten Suche orthographische Ungereimtheiten wie unterschiedliche Schreibweisen ("Potential" und "Potenzial") überwunden werden, diese greift jedoch nicht, wenn Synonyme oder Produktnamen statt der eigentlichen Benennung gebraucht werden ("Tempo" statt "Taschentuch" oder "Strafprozess" und "Gerichtsverfahren"). Um eine einheitliche Verwendung von geschriebener Sprache in Unternehmen zu gewährleisten, wurden Autoren-Tools und Terminologiewerkzeuge entwickelt. Sie unterstützen Autoren z.B. durch im Vorfeld definierte Vorzugsbenennungen oder stilistische Regeln dabei, immer die Corporate Language zu verwenden. Ist dieser erste Schritt getan, liefern die im Unternehmen erstellten Texte eine wesentlich bessere Vorlage für Text Mining und damit weitaus präzisere Entscheidungsgrundlagen für Aktionen, die mittels Text Mining vorbereitet werden.

Ein erwünschter Nebeneffekt: Verbesserung der Kundenkommunikation
Ganz nebenbei ergibt sich neben der Datenaufbereitung noch ein weiterer Vorteil durch die Nutzung von Autoren-Tools und Terminologiewerkzeugen: Die Kundenkommunikation verbessert sich nachhaltig. Muss sich ein Interessent oder Bestandskunde nicht mit mehreren Benennungen für ein und dasselbe Gerät (Hebevorrichtung / Hubanlage) auseinandersetzen, sinkt die Gefahr, dass er das entsprechende Bedienungsanleitung oder Produkt als qualitativ minderwertig und unseriös betrachtet oder die Handhabung missversteht, was wiederum Anwenderfehlern oder Unfällen vorbeugt.

Alles in allem lässt sich feststellen, dass der Einsatz von Autoren- und Terminologiewerkzeugen gründlicher Vorbereitung bedarf und sorgfältig geplant werden muss – der Nutzen, der sich im Anschluss daran langfristig erzielen lässt, macht die im Vorfeld investierte Zeit mit Sicherheit wett.