Iyzico Üye İş Yerlerinden İşlem Hacmi Tahmini Projesi
Bu projede, Iyzico platformunda yer alan farklı üye iş yerlerinin günlük işlem hacimlerini tahmin etmek amaçlanmıştır. Veri seti, 2018'den 2021'e kadar uzanan bir zaman dilimini kapsar ve her iş yerinin kategorisi, tarih bazında toplam işlem sayısı ve toplam ödeme miktarı gibi bilgileri içerir. Proje kapsamında veri keşfi, özellik mühendisliği ve makine öğrenmesi modelleri (LightGBM) kullanılarak gelecekteki işlem hacminin tahmini hedeflenmiştir.
Proje Amacı ve Katma Değeri
A. Proje Amacı
- Farklı kategori ve üye iş yeri kimliklerine (merchant_id) sahip veriler üzerinden günlük işlem hacimlerini (Total_Paid) tahmin etmek.
- 2020 yılının son 3 ayı için gelir projeksiyonu yaparak Iyzico'nun finansal planlamasına destek olmak.
B. Katma Değer
- Tahmin gücü yüksek bir model sayesinde, gelecek dönem için olası işlem hacimleri önceden öngörülebilir ve stratejik kararlar hızlandırılabilir.
- Üye iş yerleri kategorilerine (ör. giyim, elektronik, vb.) göre farklı kampanya veya indirim planları oluşturulabilir.
- İleriye dönük nakit akışı planlaması ve risk yönetimi için değerli içgörüler sunar.
Veri Seti ve Değişkenler
A. Veri Seti Özellikleri
- Dosya Adı:
iyzico_data.csv
- Gözlem Sayısı: 7.667
B. Değişkenler
- transaction_date: Satış verilerinin tarih bilgisi (gün bazında)
- merchant_id: Üye iş yerlerinin eşsiz kimlik numarası
- Total_Transaction: Gerçekleşen işlem (sipariş) sayısı
- Category: Üye iş yerinin faaliyet gösterdiği kategori (7 farklı kategori)
- Total_Paid: Toplam ödeme miktarı (işlem hacmi)
Veri seti farklı kategoriler altında toplanan 7 üye iş yerinden oluşmaktadır. Tarih aralığı 2018-2021 yıllarını kapsar.
Adımlar ve Metodoloji
1. Veri Keşfi
A. Veri Yükleme ve Dönüşüm
iyzico_data.csv
dosyasıpandas
aracılığıyla okunur.transaction_date
sütunu datetime tipine çevrilir.
B. Zaman Aralığı İncelemesi
- Başlangıç ve bitiş tarihleri belirlenerek veri setinin hangi dönemleri kapsadığı anlaşılır.
C. Kategori Analizi
- Hangi kategorilerin bulunduğu, her kategoride kaç üye iş yeri olduğu, toplam işlem sayısı ve toplam ödeme miktarı incelenir.
D. Yıllık İşlem Trendi
- Her bir kategori ve/veya merchant_id bazında yıllık veya aylık
Total_Transaction
grafikleri çizilerek zaman serisi eğilimi gözlenir.
2. Özellik Mühendisliği
A. Date Features
- Yıl, ay, gün, hafta günü gibi ek tarihsel özellikler çıkarılır (ör.
year
,month
,dayofweek
).
B. Lag/Shifted Features
- Geçmiş dönem değerleri baz alınarak geleceği tahmin etmek için gecikmeli (lagged) değişkenler oluşturulur (ör.
Total_Paid_t-1
).
C. Rolling Mean Features
- Belirli bir pencere (örn. 7 gün, 30 gün) içinde ortalama ödeme miktarı hesaplanarak trend yakalanır.
D. Exponentially Weighted Mean Features
- Son döneme daha fazla ağırlık vererek hesaplanan EWMA (Exponentially Weighted Moving Average) gibi özellikler eklenebilir.
E. Özel Günler ve Döviz Kuru
- Resmi tatiller, özel kampanya dönemleri (Black Friday) veya döviz kuru hareketleri gibi ek harici verilerle model daha da zenginleştirilebilir.
3. Modellemeye Hazırlık ve Model Kurulumu
A. One-hot Encoding
- Kategorik değişkenler (ör.
Category
) içinpd.get_dummies
veya benzeri yöntemlerle one-hot encoding yapılır. merchant_id
için de gerekliyse benzer bir dönüşüm veya hedef odaklı kodlama uygulanabilir.
B. Custom Cost Functions
- Tahmin sonuçlarını değerlendirmede SMAPE, MAE veya MSE gibi hata metrikleri kullanılabilir.
- Projede, gelir tahmini önem kazandığından, SMAPE (Symmetric Mean Absolute Percentage Error) etkili bir ölçüt olarak tercih edilir.
C. Train ve Validation Ayrımı
- Zaman serisi niteliği göz önünde bulundurularak son dönem (örn. 2020 son üç ay) validasyon seti olarak ayrılabilir.
- Eğitim seti (train) ile model fit edildikten sonra validation setiyle performans ölçülür.
D. LightGBM Modeli
LightGBMRegressor
gibi bir regresyon modeli tercih edilir.- Modeli
fit
ederken özellik mühendisliği sonucunda elde ettiğimiz tüm ek değişkenler dahil edilir. - Sonuçlar SMAPE metriği üzerinden raporlanır.
Sonuçlar ve Çıktılar
A. İşlem Hacmi Tahminleri
- 2020 son 3 ayı (veya projede hedeflenen dönem) için tahmini ödeme miktarı (Total_Paid) değerleri elde edilir.
- Böylece, Iyzico ve üye iş yerleri yaklaşan sezon için potansiyel gelir hakkında fikir sahibi olur.
B. Kategori Bazında Farklılıklar
- Bazı kategorilerin mevsimsellik, kampanyalar veya özel günlerden diğerlerine göre daha çok etkilendiği görülebilir.
- Bu kategorilerde oluşturulan ek özelliklerin model performansına katkısı analiz edilebilir.
C. Doğruluk ve Hata Oranları
- SMAPE değeri proje hedefine göre değerlendirilir.
- Modele eklenen özel gün değişkenleri veya daha karmaşık özellikler, tahmin doğruluğunu artırabilir.
D. Potansiyel Kararlar
- Platform, dönemsel kampanya bütçelerini veya pazarlama stratejilerini bu tahminlere göre optimize edebilir.
- Nakit akışı yönetimi, büyüme hedefleri veya yatırım planları bu öngörüler ışığında daha sağlıklı yapılabilir.