Maciej Pondel
Drążenie danych w systemach e-commerce
Zarządzając systemem eCommerce (np. sklepem internetowym) potrzebujemy sprawnego narzędzia raportującego. Analizując dane zbierane przez system możemy odpowiedzieć sobie na pytanie gdzie jesteśmy w tym momencie? Czy nasz biznes jest rentowny, jakie jego elementy działają najlepiej a jakie nieco słabiej.
Drążenie danych jest zestawem metod, którym stawiamy inne cele. Potrafią one „wyciągnąć z danych” głęboko ukrytą w nich wiedzę. Mogą to być np. reguły rządzące sprzedażą. Przykłady takich reguł to: jeśli ktoś kupił produkt A, to często kupuje również produkt B lub klienci z grupy A chętnie kupują produkty z kategorii B. Bez metod drążenia danych, przy ogromie danych gromadzonych w systemach e-commerce, stawianie podobnych też i weryfikowania ich „ręcznie”, wymagałoby bardzo dużo czasu oraz szczęścia/intuicji analityka, który stawiałby właściwe tezy i nie przeoczał takich reguł, które potencjalnie mogą przynieść największe korzyści biznesowe.
Poniżej o zastosowaniu w e-commerce podstawowych technik drążenia danych i o wykorzystaniu narzędzi MS SQL Server w powiązaniu z Excelem.
Drążenie danych w MS SQL Server 2008
MS SQL Server poza tym, że jest serwerem bazy danych posiada również grupę narzędzi pozwalających na wykonywanie zaawansowanych analiz. Zawiera między innymi dodatek Data Mining składający się z szeregu algorytmów eksploracji danych. Co ciekawe z mechanizmów tych można korzystać zarówno z poziomu narzędzi wbudowanych w SQL Servera jak i z poziomu Excela, który wyposażony w dodatek Data Mining for Excel 2007, staje się wyrafinowanym narzędziem analitycznym.
Po instalacji tego dodatku do Excela w wersji 2007 lub 2010 pokazuje nam się nowa zakładka o nazwie „Data Mining” (patrz rys 1).
MS SQL Server 2008 jest wyposażony w algorytmy implementujące wszystkie podstawowe techniki drążenia danych. Między innymi są to:
- Klasyfikacja,
- Regresja,
- Segmentacja
- Reguły asocjacyjne
- Prognozowanie
Z punktu widzenia analizy danych zbieranych przez systemy eCommerce wykorzystanie tych algorytmów może przynieść ciekawe efekty np.
- Segmentacja klientów pozwala na doskonalenie taktyk sprzedaży. Wyodrębnia się wówczas cechy charakterystyczne grup klientów, co pozwala tworzyć opisy typowych przedstawicieli tych grup. Dzięki temu można w tworzyć oferty spełniające oczekiwania klientów (analizując ich potrzeby).
- Analiza lojalności klientów (przy wykorzystaniu klasyfikacji) umożliwia szacowanie prawdopodobnego czasu korzystania z danej usługi, określanie siły wpływu poszczególnych czynników na „lojalność” klienta oraz analizę czasu trwania usług u poszczególnych grup klientów. Przedsiębiorstwo może dzięki temu polepszać oferty kierowane do klientów, aby lepiej zaspokajać ich potrzeby oraz dokładniej planować przychody płynące ze świadczenia usług, przepływy pieniężne a także określać czas wprowadzania nowych produktów/usług. Dzięki temu podnosi się efektywność działania przedsiębiorstwa i jego konkurencyjność.
- Analiza koszykowa (wykorzystująca reguły asocjacyjne), pozwala na dokonywanie właściwego doboru produktów/usług oferowanych klientowi dzięki poznaniu jego typowych zachowań. Dzięki analizie historycznych procesów np. zakupów można ustalić grupy produktów/usług często wybieranych razem oraz ocenić ich przydatność dla klienta. Analizy koszykowe ułatwiają przewidywanie potrzeb klienta w zakresie np. wyboru zakupów elementów dodatkowych (np. akcesoriów) do głównego produktu (tzw. cross selling) lub w zakresie produktu o lepszych parametrach w stosunku do tego, który kupił wcześniej bądź, nad kupnem którego się zastanawia (tzw. up selling). Analizy koszykowe pozwalają na zwiększenie atrakcyjności przedsiębiorstwa a także oferowanie produktu/usługi o większej wartości dla klienta. Nazwa analizy kosztowej pochodzi od koszyka w tradycyjnym markecie do którego klienci wkładają produkty. Analiza ma na celu wydobycie zależności pomiędzy produktami wkładanymi razem do koszyka.
Na podstawie przykładowej bazy danych opisującej produkty kupione w sklepie internetowym specjalizującym się w akcesoriach rowerowych przeprowadzimy analizę koszykową.
Przykładowe dane znajdują się w poniższej tabeli.
Order Number | Category | Product | Product Price |
SO61269 | Helmets | Sport-100 | 53,99 |
SO61269 | Jerseys | Long-Sleeve Logo Jersey | 49,99 |
SO61270 | Fenders | Fender Set – Mountain | 21,98 |
SO61271 | Tires and Tubes | LL Road Tire | 21,49 |
SO61271 | Tires and Tubes | Patch kit | 564,99 |
SO61272 | Tires and Tubes | Mountain Tire Tube | 4,99 |
SO61272 | Tires and Tubes | Patch kit | 564,99 |
SO61273 | Bottles and Cages | Water Bottle | 4,99 |
SO61274 | Caps | Cycling Cap | 8,99 |
SO61274 | Shorts | Women’s Mountain Shorts | 69,99 |
SO61275 | Helmets | Sport-100 | 53,99 |
SO61276 | Jerseys | Short-Sleeve Classic Jersey | 539,99 |
SO61276 | Caps | Cycling Cap | 8,99 |
SO61277 | Mountain Bikes | Mountain-500 | 539,99 |
SO61277 | Jerseys | Short-Sleeve Classic Jersey | 539,99 |
Tabela 1: Fragment przykładowej tabeli opisującej zakupy w sklepie internetowym
Wykonując analizę Market Basket (koszyk sklepowy) otrzymujemy zestaw powiązanych ze sobą produktów. Widzimy tutaj następujące kolumny:
- Bundle of items – elementy powiązane
- Boundle size – liczba powiązanych elementów
- Number of sales – liczba koszyków, w której wystąpiły powiazania pomiędzy produktami
- Average value for sale – średnia wartość koszyka, w którym znalazły się powiązane kolumny
- Overall value of bundle – całkowita wartość zakupu powiązanych produktów
Bundle of items | Bundle size | Number of sales | Average Value Per Sale | Overall value of Bundle |
Fender Set – Mountain, Mountain-200 | 2 | 438 | 2341,97 | 1025782,86 |
Mountain Bottle Cage, Mountain-200 | 2 | 430 | 2329,98 | 1001891,4 |
Mountain-200, Sport-100 | 2 | 407 | 2373,98 | 966209,86 |
Touring-1000, Sport-100 | 2 | 344 | 2438,06 | 838692,64 |
Mountain Bottle Cage, Mountain-200, Water Bottle | 3 | 344 | 2334,97 | 803229,68 |
Mountain-200, Water Bottle | 2 | 344 | 2324,98 | 799793,12 |
HL Mountain Tire, Mountain-200 | 2 | 314 | 2354,99 | 739466,86 |
Tabela 2: Fragment listy reguł przedstawiających powiązania pomiędzy produktami.
Mechanizm zwraca wiele reguł dotyczących powiązań między produktami. Przed podjęciem określonych decyzji biznesowych należy zapoznać się z wartościami opisującymi poszczególne reguły i zinterpretować je. Liczba koszyków mówi nam o tym jak często dana reguła ma zastosowanie w całym zbiorze zamówień. To z kolei determinuje prawdopodobieństwo wystąpienia powiązań pomiędzy produktami w przyszłości – kiedy np. świadomie będziemy pobudzali sprzedaż powiązanych produktów wspólnie. Wartości mówią nam o aspekcie finansowym danego powiązania i muszą być przeanalizowane zawsze kontekście konkretnych produktów indywidualnie.
Analizując te same dane przy użyciu algorytmu reguł asocjacyjnych otrzymujemy również reguły jednak w nieco innej formie. Zaprezentowane są one na rysunku nr 2.
W tym przypadku reguły opatrzone są następującymi parametrami:
- Probability – prawdopodobieństwo wystąpienia danej reguły. Im wyższą wartość przyjmuje tym silniejsze powiązanie między produktami. Niskie prawdopodobieństwo mówi o tym, że produkty mogły się znaleźć na jednym zamówieniu przypadkowo.
- Importance – ważność reguły mierzona przez częstość jej występowania (liczbę koszyków, w których znalazły się powiązane produkty).
Przy pomocy tego algorytmu możemy również wygenerować sieć powiązań. Wynikają z niej np. powiązania dwustronne pomiędzy niektórymi produktami.
Podsumowanie
Należy zdawać sobie sprawę, że algorytmy drążenia danych nie powiedzą nam jakich technik sprzedażowych należy użyć aby osiągnąć korzyść finansową. Informację o tym, że 2 produkty sprzedają się często razem, można wykorzystać na wiele sposobów. Można je np.:
- reklamować wspólnie,
- unikać wspólnego reklamowania,
- sprzedawać w pakietach,
- sprzedawać produkty związane w pakiecie z innym, źle sprzedawanym produktem,
- podnieść ceną na jeden produkt a obniżyć na drugi,
lub zdecydować się na inną taktykę.
Należy również pamiętać, że drążenie danych nie jest prostym procesem, któremu dostarczamy bazę danych, uruchamiamy algorytm i już uzyskujemy użyteczną wiedzę. Ważnymi elementami procesu jest przygotowanie bazy – doprowadzenie do odpowiedniej struktury danych oraz wyczyszczenie danych ze wszelkiego zaszumienia. Wygenerowane reguł należy poddać weryfikacji po to by przekonać się, czy ich powstanie nie jest efektem błędu popełnionego w trakcie procesu drążenia danych.
Maciej Pondel
Tagi: data mining, drążenie danych