Web-Mining

Unternehmen mit analytischen Geschäftsstrategien können ihren Wettbewerbern immer einen Schritt voraus sein. (Buchbeitrag)

Karsten Winkler | 15.01.2008

Dieser Fachartikel erschien im Leitfaden Online-Marketing
http://buchblog.marketing-boerse.de
http://www.marketing-boerse.de/Info/details/LeitfadenOM

Unternehmen mit analytischen Geschäftsstrategien können ihren Wettbewerbern immer einen Schritt voraus sein. Das postulierte Thomas H. Davenport in seinem Artikel „Aus Daten Geld machen“, der im Harvard Businessmanager 4/2006 publiziert wurde. Dieser Beitrag greift Davenports Postulat auf und zeigt, wie Geschäftsstrategien mit Bezug zum Internet durch den Einsatz von Web-Mining erfolgreicher verwirklicht werden.

Die Daten quälen, bis sie gestehen?

Nachdem nun auch ältere Semester im Web Fahrkarten buchen, Überweisungen tätigen oder Renteninformationen anfordern, steht fest: Das Internet hat sich in vielen Geschäftsbereichen zu einem unverzichtbaren Informations- und Vertriebskanal entwickelt. Aktuell ist einerseits eine Renaissance von innovativen, rein Internet-basierten Geschäftsmodellen zu beobachten, die etwa durch Information, Gemeinschaftsgefühl oder Unterhaltung ihren Kunden echte Mehrwerte bieten. Andererseits investieren bereits zu Zeiten der Dampfmaschine, des Telegramms oder der Lochkarte gegründete Unternehmen verstärkt in ihre Internetpräsenzen, um diesen Vertriebskanal optimal in die Geschäftsprozesse und Kommunikationsstrategien einzubetten. So vielfältig kommerzielle und administrative Websites und ihre Betreiber auch sind, eines haben sie gemeinsam: Verwirklichung eigener Ziele, wie zum Die Investition in das Internet dient der Beispiel Reputation und Sichtbarkeit zu erhöhen, Gewinne zu erzielen, Kunden zu gewinnen oder Kommunikationskosten zu senken.

Die Verwirklichung dieser Ziele erfordert eine konsequente Umsetzung geeigneter Maßnahmen: Die Relevanz der Webinhalte ist zu optimieren, es sollten nur produktaffine Zielgruppen angesprochen werden, Benutzeroberflächen sind möglichst intuitiv zu gestalten und Bestandskunden sollten aktiv auf für sie interessante Angebote hingewiesen werden. Wie aber können Betreiber von Websites im virtuellen Raum Relevanz generieren, Produktaffinitäten bestimmen, die Gebrauchstauglichkeit erhöhen beziehungsweise Interessen ermitteln? Die sprichwörtliche Tante Emma setzte ihr Gedächtnis und ihre Intelligenz ein, um sich diesen Herausforderungen des Geschäftslebens im Krämerladen zu stellen. Sie kannte Generationen von Stammkunden, deren Freud und Leid, ihre persönliche Interessen, Kaufhistorie und deren finanziellen Spielraum. Laufkundschaft wurde von Tante Emma aufgrund jahrelanger Erfahrung und kaufmännischen Gespürs bestmöglich beraten. Wie ist aber das Gedächtnis und die Intelligenz von Tante Emma auf den Vertriebskanal Internet mit Millionen potenzieller Kunden und einer für Menschen oft nicht mehr überschaubaren Produktvielfalt zu übertragen?

Ein institutionalisiertes Gedächtnis im Form von Datenbanken wird, oft in Kombination mit intelligenten Verfahren der Datenauswertung wie etwa Data-Mining, seit Jahrzehnten im Direktmarketing von erfolgreichen Unternehmen genutzt, um trotz einer Vielzahl von Mitarbeitern, Kontaktpunkten und Produkten eine vertrauensvolle, profitable und langfristige Beziehung zu Kunden aufzubauen. Kundenbeziehungsmanagement ist die Erklärtes Ziel von Investitionen in das Abkehr von der rein transaktionsorientierten Belieferung eines Massenmarktes mit standardisierten Produkten hin zur individuellen Ansprache des Kunden zur Etablierung einer langfristigen Geschäftsbeziehung. Im Gegensatz zum Einkauf über traditionelle Vertriebswege (zum Beispiel Filiale, Telefon oder Versicherungsvertreter) ist der Besuch einer Website weitgehend frei von direkten Kontakten von Mensch zu Mensch. Aber: Der virtuelle Raum weist höchst interessante Besonderheiten auf, zum Beispiel die mögliche Personalisierung von Inhalten oder auch die denkbare direkte, ereignisgesteuerte Interaktion mit Besuchern.

Zur Bestimmung dieser zielgruppengesteuerten Inhalte bieten sich nun, analog zum Data-Mining auf „klassischen“ Datenbeständen, Methoden des Web-Mining an. Pragmatisch betrachtet ist Web-Mining ein zielorientierter Prozess der Selektion, Aufbereitung, Exploration und Modellierung Internet-basierter Daten, um unbekannte Zusammenhänge zum Vorteil des eigenen Unternehmens zu entdecken. Anders als im konventionellen Data-Mining sind in Web-Mining-Projekten meist sehr große Mengen von Online-Protokolldaten zu erfassen, mit teilweise speziellen Verfahren aufzubereiten und anzureichern sowie oft mit spezifischen Methoden zu analysieren und zu interpretieren. Das grundsätzliche, sehr prozessorientierte Vorgehen im Web-Mining ist aber ebenso identisch mit einem klassischen Data-Mining-Projekt wie die Mehrzahl eingesetzter Methoden.

Einsatzgebiete für Web-Mining

Bei einem produktiven Einsatz im Unternehmen ist Web-Mining kein Selbstzweck, sondern leistet einen wertvollen Beitrag zur Erreichung der Unternehmensziele. Die oft genutzte Klassifikation von Web-Mining-Einsatzgebieten in die Analyse von Inhalten (Web-Content-Mining), die Gewinnung von Einsichten in das Besucherverhalten (Web-Usage-Mining) und die Identifizierung Website-über-greifender Verweisstrukturen (Web-Structure-Mining) zielt eher auf eine Abgrenzung gegenüber klassischen Data-Mining-Fragestellungen. Wird Web-Mining hingegen aus Anwendersicht betrachtet und umfasst damit auch die Methodenvielfalt des Data-Mining, so bietet sich eine vereinfachte Unterscheidung von explorativen und prädiktiven Einsatzgebieten an.

Explorative Verfahren des Web-Mining, wie etwa Clustering-Algorithmen, die Pfadanalyse, die Entdeckung von Assoziationsregeln oder die Analyse sozialer Netzwerke, werden eingesetzt, um in der verfügbaren Datenbasis interessante und wirtschaftlich verwertbare Muster zu identifizieren, zu interpretieren und deren Veränderung im Zeitablauf zu verfolgen. Primäres Ziel ist die Gewinnung von neuen, nützlichen und nachvollziehbaren Einsichten in das Verhalten von Besuchern und Kunden, um zum Beispiel das kundenzentrierte Data-Warehouse mit neuen Erkenntnissen anzureichern.

Die aus der Marktforschung bekannte Segmentierung von Besuchern mittels Clustering-Algorithmen dient beispielsweise deren Unterteilung in Gruppen mit einem homogenen Klickverhalten, Kaufverhalten oder Kommunikationsverhalten. Außerdem unterscheiden sich Profile eines Segments in ihrer Charakteristik möglichst stark von denen anderer Segmente. Deshalb lassen sich Segmente mit sprechenden Bezeichnungen wie „junge Wintersportinteressenten aus Großstädten“ charakterisieren. Die Ergebnisse explorativer Analysen werden beispielsweise für die Definition zielgruppenspezifischer Inhalte, ein Behavioural Targeting bei der Auslieferung von Werbebotschaften oder im Rahmen von produktorientierten Newsletter-Kampagnen verwendet. So genannte Next-Best-Offer-Systeme zur Empfehlung von relevanten Produkten oder Inhalten basieren ebenfalls häufig auf explorativen Verfahren, um das Verhalten ähnlicher Kundengruppen oder Verbundkaufeffekte auszunutzen.

Prädiktive Verfahren des Web-Mining fokussieren auf die Erstellung möglichst zuverlässiger Vorhersagen, zum Beispiel durch Anwendung von Regressions-verfahren, Entscheidungsbäumen oder neuronalen Netzen. Im Online-Marketing gibt es eine Vielzahl interessanter Eigenschaften von Besuchern und Kunden, deren möglichst gute Vorhersage wirtschaftliche Vorteile verspricht. Die Modellierung von Kanalpräferenzen vor einer Kundenansprache, die Vorhersage der Bonität neuer Kunden oder auch die Ermittlung von Produktaffinitäten dienen der Senkung von Kommunikationskosten, ermöglichen die Reduktion des Zahlungsausfallrisikos und erhöhen den Umsatz durch relevante Cross-Selling-Angebote. Darüber hinaus lassen sich durch den Einsatz von Text-Mining-Methoden auch eingehende E-Mails hinsichtlich ihres Inhalts klassifizieren und können anschließend automatisiert an die richtige Abteilung weitergeleitet werden. Im Gegensatz zu explorativen Einsatzgebieten ist die Nachvollziehbarkeit meist eine im Vergleich zur angestrebten hohen Vorhersagequalität untergeordnete Eigenschaft von prädiktiven Modellen.

Die Vorhersagemodellierung nutzt vergangenheitsbezogene Daten mit bekannter Ausprägung der Zielvariable und potenziell erklärende Variablen, um ein Modell zu trainieren, zu optimieren und auf Allgemeingültigkeit zu testen. Je nach Anforderung an die Aktualität eines Modells umfasst die für Training und Test relevante Zeitspanne ein Jahr, zwei Monate oder nur die letzten zehn Minuten. Nach der Modellierung wird das beste Vorhersagemodell exportiert und auf neue, aber strukturgleiche Datensätze angewendet, um zum Beispiel die Eintrittswahrschein-lichkeit der relevanten Ausprägung einer kategoriellen Zielvariable zu ermitteln. Die Anwendung von Vorhersagemodellen wird auch als Scoring bezeichnet. Nach einem Scoring der Bonität neu angemeldeter Kunden kann das Shopsystem zum Beispiel eine Zahlung auf Rechnung verweigern, falls die Ausfallwahrscheinlichkeit über achtzig Prozent liegt.

Vorgehen im Web-Mining

Die Frage nach dem Aufbau analytischer Kenntnisse im Unternehmen einerseits oder dem Zukauf analytischer Beratung andererseits ist unter Beachtung der strategischen Relevanz des Web-Mining sowie der aktuellen Personalsituation und der Zeitplanung zu entscheiden. Ob der Einsatz von Web-Mining als einmaliges Projekt geplant ist oder Training und Anwendung von Vorhersagemodellen in Geschäftsprozesse einzubetten sind: Zunächst ist ein wirtschaftlich relevantes Ziel aus dem Online-Marketing zu formulieren und entsprechende Erfolgskriterien festzulegen. Ein Beispiel ist die „Steigerung der Click-Through-Rate interner Verweise auf Aktionsartikeln von zwei auf fünf Prozent zur Erhöhung des Umsatzes“. Ein im Idealfall durch das Management unterstütztes Team, das sowohl fachliche als auch methodische Kompetenz vereint, formuliert anschließend Anforderungen an die Datenbasis, übersetzt das Marketing-Ziel in eine Web-Mining-Fragestellung und plant die Einbettung der Ergebnisse in operative Systeme, wie zum Beispiel die Auslieferung nutzerspezifischer Artikelempfehlungen.

Nach der Festlegung von Ziel, Erfolgskriterien, Budget und Zeitplanung ist die Datenbasis zur Anwendung von Web-Mining-Methoden zu definieren, aus den Quelldatensystemen zu extrahieren und in einer Tabelle zusammenzuführen. Im Ergebnis entsteht eine so genannte analytische Basistabelle, die je Untersuchungs-objekt (etwa Sitzung eines Besuchers oder Kunde) potenziell relevante Informa-tionen und gegebenenfalls eine oder mehrere Zielvariablen enthält. Beispiele für Variablengruppen sind demographische Informationen, Reaktionen auf Online-Marketing-Kampagnen, besuchte Seiten und Inhaltsbereiche sowie angesehene und gekaufte Produkte

Der typische Web-Mining-Prozess besteht aus folgenden Schritten: Stichproben-ziehung, Exploration der Daten, Modifizierung der Daten, Modellierung der Fragestellung und Auswertung der Ergebnisse. Der Anwender im analytischen Online-Marketing modelliert die jeweilige Fragestellung in einem graphischen Prozessflussdiagramm, wie es in Abb. 1 dargestellt ist. In diesem Diagramm repräsentieren Pfeile den Fluss von Daten und Metadaten, während graphische Symbole die jeweils auszuführenden, parametrisierten Prozess-Schritte (zum Beispiel ein Regressionsverfahren) repräsentieren.

Die Anwendung des besten Modells im Rahmen eines Scoring in Stapel-verarbeitung oder Echtzeit wird einerseits durch den Export der Scorewerte in beliebige Datenbanken ermöglicht. Somit können beispielsweise für Kunden Produktaffinitäten oder die Zugehörigkeit zu Kundensegmenten direkt in der Datenbank des Shopsystems gespeichert werden. Struktur, Syntax und Semantik der bei Anwendung eines Modells zu verarbeitenden Daten müssen den Trainingsdaten entsprechen. Andererseits lassen sich Vorhersagemodelle und Ergebnisse einiger explorativer Verfahren auch als ausführbare Programme (zum Beispiel als Base SAS Code, in C oder Java) sowie in der Syntax der Predictive Modeling Markup Language zur direkten Anwendung in Datenbewirtschaftungs-prozessen oder operativen Systemen exportieren. Ein letzter, wichtiger Aspekt der Modellanwendung ist die Überwachung der Modellgüte operativ genutzter Segmente oder Vorhersagemodelle, um deren „Lebenszeit“ nicht zu überschreiten.

Es ist beispielsweise wenig zielführend, Kunden für den Rest ihres Lebens als „junge Wintersportinteressenten aus Großstädten“ zu klassifizieren, ausgelistete Artikel zu empfehlen oder die Bonität von Kunden anhand eines fünf Jahre alten Modells zu evaluieren.

Daten, Daten und nochmals Daten

Qualitativ hochwertige Online-Protokolldaten bilden zweifellos die Basis für Aktivitäten im Web-Mining. Grundlage für deren Erfassung können einerseits Logdateien der Webserver sein, in denen die ausgelieferten Dateien mit Zeitstempel, IP-Adresse des anfordernden Rechners und weiteren Informationen aufgezeichnet werden. Diese rein Server-seitige Datenerfassung ist aber mehr ein Notbehelf als eine vollständige und fehlerfreie Protokollierung, da insbesondere die auf unterschiedlichen Ebenen eingesetzten Zwischenspeicher und Proxy-Server sowie die oft bei Internet-Zugangsdienstleistern beobachtete dynamische Zuweisung verschiedener IP-Adressen innerhalb einer Sitzung die Daten stark verfälschen. Diese Nachteile führten zur Entwicklung von Client-seitigen Protokollierungs-verfahren, die mittels statischer Zählpixel oder JavaScript-basierter Page-Tags Informationen über Browser und betrachtete Webseiten an einen Protokollserver übermitteln. Allerdings werden die Vorteile der Client-seitigen Verfahren meist mit einem großen Wartungsaufwand zur zeitnahen, konsistenten Aktualisierung der Page-Tag-Parameter, einer Ladezeiterhöhung durch die Abhängigkeit von Protokollservern und einer aus Datenschutzgründen kritischen Kommunikation mit Third-Party-Servern erkauft.

In der Lösung SAS for Customer Experience Analytics wird mit der speed-trap Dynamic Data Collection ein innovatives Client-seitiges Verfahren zur Echtzeit-Protokollierung von Ereignissen im Browser der Besucher eingesetzt, Usability-Studien insbesondere den Aufbau einer stets aktuellen, fehlerfreien und konsistenten Datenbasis für Web-Mining. Das gilt auch für Ajax-Applikationen, Flash-Inhalte oder mobile Endgeräte.das die Nachteile der beiden skizzierten Verfahren umgeht. Kern des First-Party-Verfahrens ist die einmalige Einbettung desselben parameterlosen Skripts in sämtliche ausgelieferte Webseiten. Nach dem Laden einer Seite übermittelt dieses Skript verschlüsselt und asynchron, zur Vermeidung von Wartezeiten, die relevanten Ereignisse an den Protokollserver, wobei die Kommunikation aus dem gesicherten „Sandkasten“ der jeweiligen Seite im Browser heraus erfolgt. Der Detaillierungsgrad der übermittelten Ereignisse wird je Website, Seitenbereich oder Seite zentralisiert konfiguriert, so dass, im Gegensatz zu Page-Tags, die Geschäftslogik nicht mittels JavaScript-Parametern in Webseiten zu kodieren ist. Neben den üblichen Page-Tag-Informationen können zum Beispiel Klicks, Ladevorgänge, Metadaten, Tastatureingaben, verdeckte Formularfelder oder auch Mouse-Over-Ereignisse zur visuellen Sitzungsrekonstruktion aufgezeichnet werden. Dieses äußerst wartungsarme Verfahren ermöglicht neben datengetriebenen

Online-Protokolldaten hoher Qualität sind zwar eine wichtige Basis für Web-Mining, aber eben nur eine Seite der Medaille. Zu Gewinnung einer vollständigen Sicht auf Besucher und Kunden des Vertriebskanals Internet ist die Anreicherung dieser online erfassten Informationen mit Offline-Daten unerlässlich. Beispielsweise können URL-Parameter wie die Seitennummer in der Datenbank des Content-Management-Systems um ergänzende Informationen wie Seitentitel, Autor oder Inhaltskategorie angereichert werden. Warenwirtschaftssysteme verfügen zudem über vielfältige Zusatzinformationen, um Artikelnummern in Warenkorbdaten anzureichern. Die Integration von Daten der Offline-Welt in analytische Basistabellen für Web-Mining ermöglicht die Generierung von weitaus größeren analytischen Mehrwerten als bei alleinigem Fokus auf Online-Protokolldaten.

Zusammenfassung und Ausblick

Online-Marketing wird durch den gezielten Einsatz von Web-Mining sowohl effektiver, adressiert also die richtigen Zielgruppen mit passenden Botschaften, als auch effizienter, beispielsweise durch Senkung der Kommunikationskosten. Der Einsatz intelligenter Verfahren der Datenanalyse ermöglicht im Sinne von Davenports analytischen Geschäftsstrategien die Generierung nachhaltiger Wett-bewerbsvorteile im äußerst dynamischen Internet. Die Literaturhinweise am Schluss des Beitrags zeigen wichtige Quellen für den Einstieg in die Welt des Web-Mining.

Aktuell diskutierte Themen in der Web-Mining-Community sind die Konvergenz von Online- und Offline-Welt, die Anwendung analytischer Modelle in Echtzeit sowie Aspekte des Datenschutzes. Trotz vieler Besonderheiten: Das Internet ist für die Mehrzahl der Unternehmen eben nur ein Kanal von vielen. Eine vielfach angestrebte ganzheitliche Kundenorientierung darf somit weder das Internet gänzlich ignorieren noch eine ausschließliche Konzentration von Maßnahmen auf dieses Medium zulassen. Die gegenwärtig verbreitete Schaffung von Insellösungen im Online-Marketing ist deshalb unter Konvergenzaspekten nicht überzeugend.

Im Web-2.0-Zeitalter korreliert der Wert von Unternehmen stark mit der Kunden-zufriedenheit. Deshalb gilt es, das Vertrauen von Interessenten und Kunden durch Einhaltung der Datenschutzbestimmungen langfristig zu sichern. Neben einer möglichen Anonymisierung der erfassten Daten gilt es insbesondere, Kunden durch deutlich wahrnehmbare Mehrwerte zur Einwilligung in die Speicherung und Verarbeitung personenbezogener Daten zu motivieren. Die vorgestellte speed-trap Dynamic Data Collection setzt zum Beispiel einen Hinweis in den jeweiligen Datenschutzrichtlinien voraus, respektiert im Browser hinterlegte P3P-Richtlinien, unterstützt SSL-Verschlüsselung und ermöglicht den Einsatz von Opt-in- oder Opt-out-Mechanismen.

Literatur
Patricia Cerrito: Introduction to Data Mining Using SAS Enterprise Miner. - 468 Seiten, ISBN 9781590478295, SAS Publishing, Cary, NC, 2006.
Soumen Chakrabarti: Mining the Web: Discovering Knowledge from Hypertext Data. - 344 Seiten, ISBN 9781558607545, Morgan Kaufmann Publishers, San Francisco, CA., 2002.
Thomas H. Davenport, Jeanne G. Harris: Competing on Analytics. The New Science of Winning. - 240 Seiten, ISBN 9781422103326, Harvard Business School Press, Boston, MA., 2007.
Hajo Hippner, Melanie Merzenich, Klaus D. Wilde: Handbuch Web Mining im Marketing: Konzepte, Systeme, Fallstudien. - 509 Seiten, ISBN 9783528057947, Verlag Vieweg, Braunschweig/Wiesbaden, 2002.
SAS Institute Inc.: Beyond Web Analytics: A New Generation of Customer Experience Analytics: Increasing Sales Revenue and Improving Service by Gaining Actionable Multi-Channel Intelligence. - White Paper. SAS Institute Inc., Cary, NC., 2007.
SAS and all other SAS Institute Inc. product or service names are registered trade-marks or trademarks of SAS Institute Inc. in the USA and other countries. Other brand and product names are trademarks of their respective companies.