Drążenie danych w systemach e-commerce

Maciej Pondel || 10 maja 2011

Zarządzając systemem eCommerce (np. sklepem internetowym) potrzebujemy sprawnego narzędzia raportującego. Analizując dane zbierane przez system możemy odpowiedzieć sobie na pytanie gdzie jesteśmy w tym momencie? Czy nasz biznes jest rentowny, jakie jego elementy działają najlepiej a jakie nieco słabiej.

Drążenie danych jest zestawem metod, którym stawiamy inne cele. Potrafią one „wyciągnąć z danych” głęboko ukrytą w nich wiedzę. Mogą to być np. reguły rządzące sprzedażą. Przykłady takich reguł to: jeśli ktoś kupił produkt A, to często kupuje również produkt B lub klienci z grupy A chętnie kupują produkty z kategorii B. Bez metod drążenia danych, przy ogromie danych gromadzonych w systemach e-commerce, stawianie podobnych też i weryfikowania ich „ręcznie”, wymagałoby bardzo dużo czasu oraz szczęścia/intuicji analityka, który stawiałby właściwe tezy i nie przeoczał takich reguł, które potencjalnie mogą przynieść największe korzyści biznesowe.

Poniżej o zastosowaniu w e-commerce podstawowych technik drążenia danych i o wykorzystaniu narzędzi MS SQL Server w powiązaniu z Excelem.

Drążenie danych w MS SQL Server 2008

MS SQL Server poza tym, że jest serwerem bazy danych posiada również grupę narzędzi pozwalających na wykonywanie zaawansowanych analiz. Zawiera między innymi dodatek Data Mining składający się z szeregu algorytmów eksploracji danych. Co ciekawe z mechanizmów tych można korzystać zarówno z poziomu narzędzi wbudowanych w SQL Servera jak i z poziomu Excela, który wyposażony w dodatek Data Mining for Excel 2007, staje się wyrafinowanym narzędziem analitycznym.

Po instalacji tego dodatku do Excela w wersji 2007 lub 2010 pokazuje nam się nowa zakładka o nazwie „Data Mining” (patrz rys 1).

Rys 1. Dodatek Data Mining for Excel – zakładka drążenie danych

MS SQL Server 2008 jest wyposażony w algorytmy implementujące wszystkie podstawowe techniki drążenia danych. Między innymi są to:

Klasyfikacja,
Regresja,
Segmentacja
Reguły asocjacyjne
Prognozowanie

Z punktu widzenia analizy danych zbieranych przez systemy eCommerce wykorzystanie tych algorytmów może przynieść ciekawe efekty np.

Segmentacja klientów pozwala na doskonalenie taktyk sprzedaży. Wyodrębnia się wówczas cechy charakterystyczne grup klientów, co pozwala tworzyć opisy typowych przedstawicieli tych grup. Dzięki temu można w tworzyć oferty spełniające oczekiwania klientów (analizując ich potrzeby).
Analiza lojalności klientów (przy wykorzystaniu klasyfikacji) umożliwia szacowanie prawdopodobnego czasu korzystania z danej usługi, określanie siły wpływu poszczególnych czynników na „lojalność” klienta oraz analizę czasu trwania usług u poszczególnych grup klientów. Przedsiębiorstwo może dzięki temu polepszać oferty kierowane do klientów, aby lepiej zaspokajać ich potrzeby oraz dokładniej planować przychody płynące ze świadczenia usług, przepływy pieniężne a także określać czas wprowadzania nowych produktów/usług. Dzięki temu podnosi się efektywność działania przedsiębiorstwa i jego konkurencyjność.
Analiza koszykowa (wykorzystująca reguły asocjacyjne), pozwala na dokonywanie właściwego doboru produktów/usług oferowanych klientowi dzięki poznaniu jego typowych zachowań. Dzięki analizie historycznych procesów np. zakupów można ustalić grupy produktów/usług często wybieranych razem oraz ocenić ich przydatność dla klienta. Analizy koszykowe ułatwiają przewidywanie potrzeb klienta w zakresie np. wyboru zakupów elementów dodatkowych (np. akcesoriów) do głównego produktu (tzw. cross selling) lub w zakresie produktu o lepszych parametrach w stosunku do tego, który kupił wcześniej bądź, nad kupnem którego się zastanawia (tzw. up selling). Analizy koszykowe pozwalają na zwiększenie atrakcyjności przedsiębiorstwa a także oferowanie produktu/usługi o większej wartości dla klienta. Nazwa analizy kosztowej pochodzi od koszyka w tradycyjnym markecie do którego klienci wkładają produkty. Analiza ma na celu wydobycie zależności pomiędzy produktami wkładanymi razem do koszyka.

Na podstawie przykładowej bazy danych opisującej produkty kupione w sklepie internetowym specjalizującym się w akcesoriach rowerowych przeprowadzimy analizę koszykową.

Przykładowe dane znajdują się w poniższej tabeli.

Order Number	Category	Product	Product Price
SO61269	Helmets	Sport-100	53,99
SO61269	Jerseys	Long-Sleeve Logo Jersey	49,99
SO61270	Fenders	Fender Set – Mountain	21,98
SO61271	Tires and Tubes	LL Road Tire	21,49
SO61271	Tires and Tubes	Patch kit	564,99
SO61272	Tires and Tubes	Mountain Tire Tube	4,99
SO61272	Tires and Tubes	Patch kit	564,99
SO61273	Bottles and Cages	Water Bottle	4,99
SO61274	Caps	Cycling Cap	8,99
SO61274	Shorts	Women’s Mountain Shorts	69,99
SO61275	Helmets	Sport-100	53,99
SO61276	Jerseys	Short-Sleeve Classic Jersey	539,99
SO61276	Caps	Cycling Cap	8,99
SO61277	Mountain Bikes	Mountain-500	539,99
SO61277	Jerseys	Short-Sleeve Classic Jersey	539,99

Tabela 1: Fragment przykładowej tabeli opisującej zakupy w sklepie internetowym

Wykonując analizę Market Basket (koszyk sklepowy) otrzymujemy zestaw powiązanych ze sobą produktów. Widzimy tutaj następujące kolumny:

Bundle of items – elementy powiązane
Boundle size – liczba powiązanych elementów
Number of sales – liczba koszyków, w której wystąpiły powiazania pomiędzy produktami
Average value for sale – średnia wartość koszyka, w którym znalazły się powiązane kolumny
Overall value of bundle – całkowita wartość zakupu powiązanych produktów

Bundle of items	Bundle size	Number of sales	Average Value Per Sale	Overall value of Bundle
Fender Set – Mountain, Mountain-200	2	438	2341,97	1025782,86
Mountain Bottle Cage, Mountain-200	2	430	2329,98	1001891,4
Mountain-200, Sport-100	2	407	2373,98	966209,86
Touring-1000, Sport-100	2	344	2438,06	838692,64
Mountain Bottle Cage, Mountain-200, Water Bottle	3	344	2334,97	803229,68
Mountain-200, Water Bottle	2	344	2324,98	799793,12
HL Mountain Tire, Mountain-200	2	314	2354,99	739466,86

Tabela 2: Fragment listy reguł przedstawiających powiązania pomiędzy produktami.

Mechanizm zwraca wiele reguł dotyczących powiązań między produktami. Przed podjęciem określonych decyzji biznesowych należy zapoznać się z wartościami opisującymi poszczególne reguły i zinterpretować je. Liczba koszyków mówi nam o tym jak często dana reguła ma zastosowanie w całym zbiorze zamówień. To z kolei determinuje prawdopodobieństwo wystąpienia powiązań pomiędzy produktami w przyszłości – kiedy np. świadomie będziemy pobudzali sprzedaż powiązanych produktów wspólnie. Wartości mówią nam o aspekcie finansowym danego powiązania i muszą być przeanalizowane zawsze kontekście konkretnych produktów indywidualnie.

Analizując te same dane przy użyciu algorytmu reguł asocjacyjnych otrzymujemy również reguły jednak w nieco innej formie. Zaprezentowane są one na rysunku nr 2.

Rys. 2. Reguły asocjacyjne pokazujace powiązania między produktami

W tym przypadku reguły opatrzone są następującymi parametrami:

Probability – prawdopodobieństwo wystąpienia danej reguły. Im wyższą wartość przyjmuje tym silniejsze powiązanie między produktami. Niskie prawdopodobieństwo mówi o tym, że produkty mogły się znaleźć na jednym zamówieniu przypadkowo.
Importance – ważność reguły mierzona przez częstość jej występowania (liczbę koszyków, w których znalazły się powiązane produkty).

Przy pomocy tego algorytmu możemy również wygenerować sieć powiązań. Wynikają z niej np. powiązania dwustronne pomiędzy niektórymi produktami.

Rys. 3. Reguły asocjacyjne w postaci sieci powiązań między produktami

Podsumowanie

Należy zdawać sobie sprawę, że algorytmy drążenia danych nie powiedzą nam jakich technik sprzedażowych należy użyć aby osiągnąć korzyść finansową. Informację o tym, że 2 produkty sprzedają się często razem, można wykorzystać na wiele sposobów. Można je np.:

reklamować wspólnie,
unikać wspólnego reklamowania,
sprzedawać w pakietach,
sprzedawać produkty związane w pakiecie z innym, źle sprzedawanym produktem,
podnieść ceną na jeden produkt a obniżyć na drugi,

lub zdecydować się na inną taktykę.

Należy również pamiętać, że drążenie danych nie jest prostym procesem, któremu dostarczamy bazę danych, uruchamiamy algorytm i już uzyskujemy użyteczną wiedzę. Ważnymi elementami procesu jest przygotowanie bazy – doprowadzenie do odpowiedniej struktury danych oraz wyczyszczenie danych ze wszelkiego zaszumienia. Wygenerowane reguł należy poddać weryfikacji po to by przekonać się, czy ich powstanie nie jest efektem błędu popełnionego w trakcie procesu drążenia danych.

Maciej Pondel

Tagi: data mining, drążenie danych

O Autorze

Maciej Pondel

Account Manager w Grupie Unity. Absolwent Informatyki na Wydziale Informatyki i Zarządzania Politechniki Wrocławskiej. Doktor nauk ekonomicznych. Wykładowca na Wydziale Zarządzania, Informatyki i Finansów Uniwersytetu Ekonomicznego we Wrocławiu. Od 2000 roku związany zawodowo z branżą IT. Najpierw jako programista i projektant, następnie kierownik zespołu projektowego i Project Manager. Prowadził projekty z zakresu intranetów wewnętrznych, systemów billingowych, e-Commerce, systemów pracy grupowej, systemów workflow oraz Business Intellignce. Od początku pracy zawodowej związany z technologiami Microsoft.