Piwo i pieluszki w jednym koszyku, czyli o rekomendacjach produktowych w systemach e-commerce

Analiza koszykowa została zapoczątkowana w wielkich sieciach sprzedaży detalicznej. 

Mając odpowiedź na pytania, które produkty i jak często zostały zakupione wraz z innymi, można było stwierdzić, które z nich traktować jako “nierozerwalnie” połączone ze sobą. Rzeczywistość e-commerce wprawdzie przeniosła półki, koszyki i produkty na dyski twarde serwerów, ale sama potrzeba dogłębnej analizy pozostała niezmieniona. Systemy e-commerce, posiadające wiedzę na temat relacji pomiędzy produktami, umożliwiają:

  • usprawnienie nawigacji,
  • pomoc użytkownikowi w podjęciu decyzji,
  • lepszą prezentację produktu,

co w konsekwencji przekłada się na zwiększenie sprzedaży (wzrost współczynnika konwersji). Dobrym przykładem jest tu Amazon.com, który ponad 20% zamówień gromadzi dzięki różnego rodzaju systemom rekomendacyjnym.

euro-w-wózku-na-zakupy-300x198

Algorytm w służbie e-commerce

Tabela 1 prezentuje uproszczoną bazę danych transakcji sklepu internetowego – zawiera listę produktów oraz informację, w której transakcji zostały zakupione (zielona ikona). Dane z tabeli posłużą jako przykład omawianego algorytmu. Aby wesprzeć użytkownika i zarekomendować odpowiednie produkty, należy odpowiedzieć na pytanie, które produkty i jak często, zostały zakupione wraz z innymi produktami. W pierwszej kolejności, nasuwa się rozwiązanie zgodne z ideą “brute force”. Należy wygenerować wszystkie możliwe podzbiory produktów (np. {piwo, jabłko}, {piwo, jabłko, banan}, itd) oraz obliczyć częstość występowania transakcji w bazie danych. Dla 4 produktów zadanie wydaje się trywialne, jednak w przypadku ogólnym, ilość relacji pomiędzy produktami wynosi k2k-1 (k – ilość dostępnych produktów). W praktyce oznacza to zbyt dużą ilość relacji do przetworzenia[1]. Konieczne jest zatem zastosowanie bardziej optymalnego podejścia. Problem i sposoby rozwiązania zagadnienia, zostały zaproponowane na konferencji SIGMOD ICOMD już w 1993 roku[2]. W efekcie zdefiniowano algorytm Apriori (z łac. “uprzedzając fakty”, “z góry”), który umożliwia szybką analizę danych transakcyjnych. Główne zalety algorytmu wyszukiwania reguł asocjacyjnych, to:

  • założenie minimalnego progu “częstości” występowania i “siły” reguły (współczynniki wsparcia i ufności),
  • odrzucenie na wczesnym etapie zestawu produktów, który nie spełnia minimalnych założeń.

Odkrywanie reguł odbywa się w trybie iteracyjnym, gdzie każdy etap składa się z dwóch kroków.

 

Przepis na e-sukces

W pierwszym kroku, należy wygenerować n-elementowe zbiory produktów i policzyć ich częstość występowania. W kroku drugim, należy odrzucić wszystkie zbiory, które nie spełniają założeń minimalnych. Lista zbiorów po odrzuceniu, będzie stanowiła podstawę do kolejnej iteracji, w której rozpatrywane będą zbiory n+1-elementowe. Zobaczmy to na przykładzie:

  1. z tabeli 1, pobieramy listę wszystkich produktów (tworzymy zbiory 1-elementowe) i liczymy ilość występowania każdego. W wyniku otrzymujemy {piwo} – 4, {pieluszki} – 3, {jabłko} – 2, {banan} – 1. Zakładamy, że interesują nas tylko takie zbiory, które wystąpiły min. 2 razy. Jak widać, zbiór {banan} nie spełnia tego warunku, więc zostaje odrzucony. Pozostałe zbiory, są podstawą do budowy listy zbiorów 2-elementowych,
  2. drugi krok algorytmu, operuje na danych {piwo, pieluszki} – 3, {piwo, jabłko} – 1, {pieluszki, jabłko} – 0. Analogicznie jak poprzednio – odrzucamy zbiory nieczęste. Algorytm zostaje zakończony, ponieważ nie da się wygenerować kolejnych (3-elementowych) zbiorów.12

Udało się odkryć, że klienci, którzy kupowali piwo, często kupowali pieluszki. Co w tym przypadku oznacza “często”? Apriori wprowadza dwie podstawowe metody oceny wygenerowanych reguł – miarę wsparcia (ang. support) i ufności (ang. confidence). Wsparcie określa globalny udział reguły we wszystkich transakcjach, w tym przypadku wynosi ⅗ (60%). Miara ufności konkretyzuje występowanie danej reguły do wszystkich tych, gdzie występował zbiór początkowy – ¾ (75%). Operując na zaproponowanych miarach, można z łatwością oceniać reguły w zależności od potrzeb biznesowych.

 11

Pieluszki i piwo to nie dzieło przypadku…

Wynik działania algorytmu (“klienci, którzy kupili piwo, często kupowali pieluszki”), nie jest przypadkowy. Legenda głosi, że podobne wnioski otrzymali analitycy sieci Wal-Mart, przeprowadzający jedne z pierwszych analiz tego typu na początku lat ‘90 XX wieku. Dokonano odkrycia silnego związku piwa i pieluszek, które były często kupowane razem przez młodych mężczyzn, zazwyczaj w piątki wieczorem. Obserwacja pozwoliła na dopracowanie rozmieszczenia produktów (pieluszki w alejce z piwem) oraz ulepszenie polityki promocji (w piątki wieczorem, tylko jeden z produktów posiadał obniżoną cenę). Można zatem śmiało stwierdzić, że odkrywanie reguł asocjacyjnych za pomocą algorytmu Apriori, to doskonały punkt wyjścia do dalszej przygody z metodami analizy danych.

 Nic nie chcę powiedzieć poza tym, co wynika ze statystycznej analizy – oświadczył – Istnieją związki bliskie, na przykład pomiędzy jajkami, wędzonką i żołądkiem, oraz związki odległe, trudniej dostrzegalne, na przykład między politycznym ustrojem kraju a przeciętnym wiekiem zawierania małżeństw. Zawsze jednak chodzi o określoną korelację, dającą podstawy do mówienia o skutkach i przyczynach.” Stanisław Lem, Śledztwo, Warszawa 1959


[1] 100 produktów posiada 63382530011411470074835160268800 relacji

[2] Rakesh Agrawal, Tomasz Imielinski, Arun Swami, Mining association rules between sets of items in large databases, ACM SIGMOD International Conference on Management of Data, 1993, s. 207-216

Autor tekstu: Dariusz Górecki

Tagi:

O Autorze

Redakcja

Back to Top