-

Yüksek Lisans’ı Tamamladım

2013 Nisan ayında İstanbul Üniversitesi Bilgisayar Mühendisliği Yüksek Lisansı’na başladım. 1 sene ders bir sene tez şeklinde idi, Ericsson’da çalışmaya başladığım dönem yüksek lisansa da başlamıştım. İşe yeni başlamış olmamdan ötürü iş yüküm çok fazla değildi, haftada 1 gün okula gidebiledecek şekilde yöneticim ile konuşmuştum, işleri telafi edebilecek şekilde derslere gidebildim. Dersleri tamamladıktan sonra tez aşamasına geçtim. Tez konusuna karar vermek gerçekten çok zor oldu. Tez danışmanım Yrd. Doç. Dr. Emel Arslan ile her görüşmemizde ortaya çok farklı şeyler çıkıyordu, uzun bir süre konu ve içeriğine karar verememiştim. Yüksek Lisans derslerinden “Yapay Zeka”da bir araştırma konusu seçmemiz istenmişti ben de merak ettiğimden İş Zekası ile ilgili araştırma yapmıştım, literatür taraması yaparken ders hocam Yrd. Doç. Dr.  Zeynep Orman ile literatürün bu konuda eksik olduğunu farkettik. Araştırma yaparken yeterli kaynak bulamamıştım. İlerleyen zamanda Bt Akademi’den “Sql Server 2012 ile İş Zekası Uygulamaları” konulu 3 aylık bir eğitim aldım, pratik anlamda bu konuda bir şeyler öğrenme şansına sahip olmuştum. Kapsamı çok belli olmasa da tezimde  İş Zekası üzerine çalışma düşüncesi oluşmuştu. Bu arada Zeynep Hoca’nın motivasyonu ile akademik makale yazma ve uluslararası konferanslara gönderme ilgim oluştu, sanırım yüksek lisans boyunca yaptığım en iyi şey uluslararası konferanlara katılmak oldu. Bloğumda ayrıntılı paylaşmıştım Ağustos 2014’de San Francisco’da Mayıs 2015’de Roma’da makale sunmak üzere konferansa katıldım, çok ciddi tecrübeler edindim. Bu yazdığımız makaleler de yine İş Zekası Uygulamaları ile ilgiliydi. Bunları da baz alarak tez çalışmamda İş Zekası’nın teoriğinden başlayıp, bileşenleri le ilgili örnek uygulamaları içeren ve devamında Pazar sepeti analizini dahil eden bir çalışma yaptım.Tezimi 1,5 senede tamamladım, çok kapsamlı bir çalışma oldu. Mayıs 2015′de  “İş Zekası Uygulamaları ve Pazar Sepeti Analizi”  başlıklı tezimi Yrd.Doç.Dr. Emel Arslan, Prof.Dr. Ahmet Sertbaş, Doç.Dr. Atakan Kurt, Yrd.Doç.Dr. Gülfem Işıklar Alptekin ve Yrd.Doç.Dr. Zeynep Orman’dan oluşan jüriye sundum. Gülfem Hoca ile Galatasaray Üniversitesi’nden aldığım MIS eğitimi sırasında tanışmıştım, davetimi kırmayıp tez jürime dahil oldu. Tez savunması sırasında jüri biraz terletti, biraz da  zorlandım fakat tezim kabul edildi :) Aslında tezimin içeriğini parça parça bloğumda paylaştım, ilgilenenler için tamamını pdf versiyonu olarak paylaşmayı planlıyorum. İş Zekası ve Pazar Sepeti Analizi konusunda çalışma yapanların ihtiyaç duyabileceği bilgileri içeriyor olabilir. Tezin kabul edilmesi ile bir dolu prosedürden sonra resmi olarak Hazirna 2015 de Bilgisayar Mühendisliği Yüksek Lisans’dan mezun oldum. Yüksek lisansdan sonra doktoraya başlayıp başlamayacağım soruluyor, aslında bazen aklımdan geçiyor, bazen de çok zor geliyor. Ama en azından bir dönem dinlenmek isterim daha sonra duruma bakacağım :) Tezimin içerisinde önsöze eklemiştim ama blog yazımdan da paylaşmak isterim;

Çalışmalarım boyunca kıymetli zamanından ayırarak yardımlarını esirgemeyen, beni yönlendiren tez danışmanım Sayın Yrd. Doç. Dr. Emel Arslan’a, tez çalışması kapsamında hazırladığımız ve uluslararası konferanslarda kabul edilen iki adet akademik makalenin yazılmasında katkıda bulunan İstanbul Üniversitesi Bilgisayar Mühendisliği Öğretim üyesi Sayın Yrd. Doç. Dr. Zeynep Orman’a, konferans katılımıma maddi destekte bulunan İstanbul Üniversitesi Sağlık Kültür Spor Daire Başkanlığı’na, BT Akademi’den aldığım “Sql Server 2012 ile İş Zekası Uygulamaları Eğitimi”ndeki eğitmenim Sayın Resul Çavuşoğlu’na paylaştığı değerli bilgilerden ötürü, Ericsson ARGE’ye verdikleri maddi destek ve bilgi paylaşımından dolayı, sevgili aileme manevi destekleri için teşekkürü borç bilirim.

Derya Gündüz

Pazar Sepeti Analizi ve Birliktelik Kuralları

Pazar Sepeti Analizi

Son yıllardaki en önemli gelişmelerden biri veri hacmindeki artıştır. Bu artış ile veriler daha büyük veri tabanlarında tutulmaya başlandı. Bunun sonucu olarak Veri Tabanlarında Bilgi Keşfi-VTBK (Knowledge Discovery in Databases) isminde arayışlar ortaya çıkmıştır. VTBK farklı aşamalardan oluşmaktadır, veri madenciliği en önemli aşamalardan bir tanesidir. Veri madenciliği büyük miktarda veri içinden gelecekle ilgili tahmin yapmamızı sağlayacak bağıntı ve kuralların bilgisayar programları kullanarak aranmasıdır.

Pazar sepeti; müşterinin bir alışveriş esnasında neler aldığını gösterir. Müşterinin satın alma eğilimlerinin incelenmesi genel olarak Pazar Sepeti Analizi olarak adlandırılır. Pazar Sepeti Analizi veri madenciliğinde çok yaygın olarak kullanılan bir yöntemdir. Müşterilerin hangi ürün veya hizmeti almaya eğilimli olduğu veya aldığı bir ürün ile birlikte başka hangi ürünleri alabileceğinin analiz edilmesi daha fazla satış yapma yollarındandır. Pazar Sepeti Analizi, promosyon analizi çalışmaları, raf dizimi, müşteri alışkanlıkları analizi, mağazanın düzenlenmesi, stok kontrolü, kupon verilmesi, etkili satış yöntemlerinin geliştirilmesi gibi konularda fayda sağlamaktadır.

Pazar Sepeti Analizi’nde Birliktelik Kuralları (Association Rules) tekniği kullanılmaktadır.

Birliktelik Kuralları

Büyük veri kümeleri arasındaki ilişkileri bulan, olayların birlikte gerçekleşme ihtimallerini geçmiş verileri analiz edip ortaya koyarak geleceğe yönelik çalışmaları destekleyen, veri madenciliği yöntemine Birliktelik Kuralları denmektedir. Birliktelik Kuralları; ekonomi, eğitim, e-ticaret, pazarlama, telekomünikasyon gibi birçok sektörde geniş kullanıma sahiptir.

Veri madenciliğindeki teknikler verinin tanımlanmasını sağlayan tanımlayıcı (descriptive) ve sonuçları bilinmeyen verilerin tahmini için kullanılan tahmin edici (predictive) teknikler olarak ikiye ayrılmaktadır. Gerileme (regression), sınıflandırma (classification), sapma (deviation) tahmin edici yöntemlere, kümeleme (clustering) ve Birliktelik Kuralları ise tanımlayıcı tekniklere örnek olarak verilebilir.

Birliktelik kuralının en popüler örneği çocuk bezi (diapers) ve bira (beer) örneğidir. Normalde iki ürün arasında hiç bir ilişki yokmuş gibi görünmektedir. Literatürde bu konu ile ilgili meşhur bir hikaye vardır, Walmart ismindeki süpermarket zincirinin yaptığı analiz şu şekildedir; “Yeni çocuk sahibi olan ebeveynler eğlenmek için vakit bulamayıp cuma günlerini partiye gitmek yerine eve bira alarak evde geçirmek zorunda kalıyorlar. Bu yüzden bebek bezi alan baba çoğunlukla yanında bir de bira alır,” gibi bir çıkarımda bulunmaktadırlar. Bu doğrultuda bebek bezi ve birayı yakın yerlere koyarak satışlarını arttırmayı hedeflemektedirler.

Birliktelik kuralının gerçek hayatta kullanılan bir örneği de internet üzerinden kitap satışı yapan amazon.com‘dur. Müşteriye satın aldığı kitaptan yola çıkarak daha önce bu kitap ile satın alınma olasılığı en yüksek olan kitapları önermektedir. Günümüzde birçok web sitesinde bu yöntem aktif olarak kullanılmaktadır.

Birliktelik kuralının matematiksel modeli Agrawal, Imielinski ve Swami tarafından 1993 yılında ortaya çıkarılmıştır.

Birliktelik Kuralları’nda Kullanılan Temel Kavramlar;

Öğeler Kümesi (itemset): Bir veya daha çok öğeden oluşan kümedir.

Destek sayısı (support count): Öğeler kümesinin veri kümesinde görülme sıklığıdır.

Destek(support): Veride bağıntının ne kadar sık olduğunu tanımlar, öğeler kümesinin içinde bulunduğu birlikteliklerin toplam birliktelik sayısına oranıdır. Destek(A=>B) şeklinde gösterilmektedir.

Güven (confidence) : A malını almış bir kişinin B malını alma olasılığını vermektedir. Öğeler arasındaki birlikteliklerin doğruluğunu ifade etmektedir. Güven(A=>B) şeklinde gösterilmektedir.

Yaygın öğeler (frequent itemsest): Destek değeri minimum destek değerinden büyük ya da eşit olan öğeler kümesidir.

Destek (A)=

Destek (A=>B)=

Güven (A=>B)= Olasılık(B|A)  =

Örnek olarak farklı zamanlarda yapılmış olan aşağıdaki gibi bir Pazar sepeti listesi olsun;

Tablo 1: Farklı zamanlara oluşturulmuş Pazar sepetleri.

A1 Süt, Ekmek
A2 Ekmek, Yumurta
A3 Süt, Peynir
A4 Yumurta, Ekmek, Peynir, Süt
A5 Peynir, Yumurta, Süt

 

Yaygın Öğeler;

1-Elemanlı Öğeler Kümesi

{Süt}à  Destek Sayısı(Süt)=4; Tablo 1’deki örneğe göre 5 Pazar sepetinin 4’ünde {Süt} ürünü satın alınmış, bu yüzden {Süt} ürününün destek sayısı 4 dür.

{Ekmek}-> Destek Sayısı(Ekmek)=3

{Yumurta}-> Destek Sayısı(Yumurta)=3

{Peynir}-> Destek Sayısı(Peynir)=3

2-Elemanlı Öğeler Kümesi

{Süt, Ekmek}-> Destek Sayısı(Süt, Ekmek)=2

{Ekmek, Yumurta}-> Destek Sayısı(Ekmek, Yumurta)=2

{Süt, Peynir}-> Destek Sayısı(Süt, Peynir)=3

{Yumurta, Peynir}-> Destek Sayısı(Yumurta, Peynir)=2

{Yumurta, Süt}-> Destek Sayısı(Yumurta, Süt)=2

3-Elemanlı Kümeler

{Yumurta, Ekmek, Peynir}-> Destek Sayısı(Yumurta, Ekmek, Peynir)=1

{Yumurta, Ekmek, Süt}-> Destek Sayısı(Yumurta, Ekmek, Süt)=1

{Ekmek, Peynir, Süt}-> Destek Sayısı(Ekmek, Peynir, Süt)=1

{Peynir, Yumurta, Süt}-> Destek Sayısı(Peynir, Yumurta, Süt)=2

4-Elemanlı Kümeler

{Yumurta, Ekmek, Peynir, Süt}-> Destek Sayısı(Yumurta, Ekmek, Peynir, Süt)=1

Hesaplamalar yapılırken minimum destek sayısı filtresi verilebilir. Örneğin minimum destek sayısı filtresi 2 ise hesaplamalara destek sayısı 1 olanlar dahil edilmez. Destek ve Güven sayılarının nasıl hesaplandığı aşağıdaki örnek ile anlaşılabilir:

Destek({Yumurta}=>{Peynir})= Destek Sayısı(Yumurta,Peynir)/Toplam Alışveriş Sayısı=2/5

Güven ({Peynir, Süt}=>{Yumurta})=Destek Sayısı(Peynir,Yumurta,Süt)/Destek Sayısı(Peynir,Süt)=2/3

Bütün yaygın öğe kümeleri oluşturulduktan sonra minimum destek sayısı ve minimum güven değerlerine eşit ve büyük olan kümeler yaygın öğeler kümesine dahil edilir ve birliktelik kuralları oluşturulur. Destek ve güven değerleri 0 ile 1 arasında değişmektedir. 1’e ne kadar yakınlarsa aralarındaki ilişki o kadar güçlüdür denilebilir. Güven değeri %100 ise kural “kesin” dir. Bu yüzden minimum güven kriterinin büyük verilmesi doğru sonucu vermesi açısından önemlidir. İki öğenin birlikteliğinin kesine yakın olabilmesi için hem destek hem de güven kriterinin yüksek olması gerekmektedir. Ayrıca minimum destek değeri küçük belirlenirse yöntem karmaşıklaşır ve çok sayıda yaygın öğe kümesi elde edilir.

Birliktelik kuralları için kullanılan çok farklı algoritmalar bulunmaktadır. Bunlardan bazıları aşağıdaki gibidir.

  • AIS: Agrawal tarafından 1993 yılında geliştirilmiştir,
  • Apriori: Agrawal ve Srikant tarafından 1994 yılında geliştirilmiştir,
  • SETM: Houtsma ve Swami tarafından 1995 yılında geliştirilmiştir,
  • Partition: Savasere tarafından 1995 yılında geliştirilmiştir,
  • FP-Growth: Han P.,Pei J.,Yin Y. Tarafından 2000 yılında geliştirilmiştir,
  • RARM (Rapid Association Rule Mining): Das tarafından 2001 yılında geliştirilmiştir,
  • CHARM: Zaki ve Hsiao tarafından 2002 yılında geliştirilmiştir.

Bu algoritmalardan ilki AIS, en bilineni Apriori Algoritması’dır.

Birliktelik kuralı madenciliği (Association Rule Mining) bütün yaygın öğe kümelerinin bulunması ve yaygın öğe kümelerinden Birliktelik Kuralları’nın üretilmesi olarak iki adımdan oluşmaktadır. Kullanılacak algoritmanın hızı birinci adımı etkilemektedir, ikinci adım genel olarak bütün algoritmalarda aynıdır.

Bir sonraki makalede bu algoritmalardan Apriori ve Fp-Growth incelenip örnek uygulamalar ile desteklenip karşılaştırma çalışması yapılacaktır.

Kaynaklar

[1]   Alpaydın, E., 2000, Zeki Veri Madenciliği: Ham Veriden Altın Veriye Ulaşma Yöntemleri, Bilişim 2000 Eğitim Semineri Bildiriler Kitabı, Bilişim 2000 Eğitim Semineri.

[2]   [15]. Ay, D. ve Çil, İ., 2008, Migros Türk A.Ş.’de Birliktelik Kuralları’nın Yerleşim Düzeni Planlamada Kullanılması, Endüstri Mühendisliği Dergisi, 21(2), 15-20.

[3]   Chen, Y.L., Chen, J.M. ve Tung, C.W., 2006, A Data Mining Approach For Retail Knowledge Discovery With Consideration of the Effect of Shelf-Space Adjacency on Sales, Decisions Support Systems, 42(3), 1503-1520.

[4]   [17]. Frawley, W. J., Piatetsky-ShApiro, G. ve Matheus, C. J., 1991, Knowledge Discovery Databases: An Overview, in Knowledge Discovery in Databases, AI Magazine, 13(3), 57-69.

[5]   ]. Güngör, E., Yalçın,N.,Yurtay, N., 2013, Apriori Algoritması ile Teknik Seçmeli Ders Seçim Analizi, UZEM 2013 Ulusal Uzaktan Eğitim ve Teknolojileri Sempozyumu, 01-03 Kasım 2013 Konya,Türkiye, 122-127.

[6]   Küçüksille, E., 2009, Veri Madenciliği Süreci Kullanılarak Portföy Performansının Değerlendirilmesi ve IMKB Hisse Senetleri Piyasasında Bir Uygulama, Doktora Tezi, Süleyman Demirel Üniversitesi Sosyal Bilimler Enstitüsü.

[7]   Data Mining Introduction Part 7: Microsoft Association, http://www.Sqlservercentral.com/articles/Microsoft+Association+algorithm/101807/, [Ziyaret tarihi:16 Nisan 2015].

[8]   Agrawal, R., Imielinski, T. ve Swami, A., 1993, Mining Association Rules Between Sets of Items in Large Databases, In Proceedings of the ACM SIGMOD International Conference on Management of Data, June 1 Washington, USA,  207-216.

[9]   [22]. Özçakır, F.C, Çamurcu, A.C, 2007, Birliktelik Kurali Yöntemi İçin Bir Veri Madenciliği Yazilimi Tasarimi Ve Uygulaması,  İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 6(12), 21-37.

[10]  Öğüdücü, Ş.G, Veri Madenciliği İlişkilendirme Kuralları, http://www3.itu.edu.tr/ ~sgunduz/courses/verimaden/, [Ziyaret tarihi:16 Nisan 2015].