Microsoft Azure Machine Learning – Dogecoin Prediction Part 1

Merhaba,

Microsoft Azure ML kullanarak, elimizdeki Dogecoin veri setiyle basit bir model kuracağız. Ben bu veri setine Kaggle üzerinden ulaştım. Siz de bu pratik siteden bir çok farklı konuda çalışabileceğiniz hazır veri tablolarına ulaşabilirsiniz.

Modele geçmeden önce, kısaca Azure Machine Learning servisinden bahsedecek olursak, Azure ML bulut üzerinde makine öğrenmesi projelerini gerçekleştirmeye yarayan bir hizmettir. Bu bulut hizmetiyle verileri düzenleyebiliriz, kurduğumuz modelleri eğitebiliriz, izleyebiliriz, yeniden düzenleyebilir ve yeniden eğitebiliriz, ölçümleri görüntüleyebilir ve yorumlayabiliriz.

İndirdiğimiz veriye hızlıca göz gezdirelim. Dogecoin kripto parasına ait Eylül 2014 tarihinden itibaren günlük açılış değeri, kapanış değeri, yüksek&düşük ve hacim değerlerini görüyoruz.

En başta belirtmekte fayda var, yapacağımız uygulamada en basit hatları ile Azure ML platformunda model kurma adımlarını öğrenme ile ilerleyeceğiz, finansal piyasa analizi sonuçlarına ulaşmayacağız 🙂

Resim 1

Datamızı indirdikten sonra, Azure ortamına yüklemek için, Home > Datasets sekmesine gidiyoruz.

Resim 2

Gelen ekranda Create dataset > From local files seçiyoruz.

Karşımıza gelen ekrandaki bilgileri dolduruyoruz. Veri dosyamız excel tablosu olduğu için Dataset type -> Tabular seçiyoruz. Doldurduktan sonra Next diyerek ilerleyebiliriz.

Resim 3

Upload seçeneğinden ilgili adresteki dosyamızı yüklüyoruz. Burada dikkat edilmesi gereken nokta, dosyayı yüklerken, excel dosya tipinin .csv formatında olması gerektiğidir. Sonrasında Next diyerek ilerleyebiliriz.

Resim 4

Bir sonraki Settings and preview ekranında, data tablomuzun özellikleri otomatik saptanmıştır ve önizlemesini görebiliriz.

Next ile ilerledikten sonra gelen Schema ekranında ise, her bir sütundaki veri tiplerimizi inceleyip gerekli olması durumunda güncelleme yapabiliriz.

Confirm details ekranından girdilerimiz kontrol edip, Create butonuyla verimizi yükleyebiliriz.

Verimiz Datasets sekmesi altına başarıyla yüklenmiştir.

Dosyayı yükledikten sonra, sol taraftaki menülerden Pipelines ve Experiments sekmeleri ile devam edeceğiz.

Resim 5

Pipelines sekmesi, modelde olacak her bir işlem adımını tanımladığımız bölümdür. Adımlar arasındaki bağlantılar kurularak bir akış yürütme grafiği oluşturulur.

+ New Pipeline ” seçeneğine tıklanması, bizi otomatik olarak tasarımı yapacağımız Designer sekmesine yönlendirir.

Datasets başlığının hemen altında yüklediğimiz tüm veri setlerine ulaşabiliyoruz. Model kurmak istediğimiz veri setini ortadaki tasarım alanına sürükle-bırak yaparak taşımamız yeterli olacaktır.

Tasarım alanının üstünde bulunan başlık yerinden de modelimize yeni bir ad verebiliriz. Böylelikle daha sonraki çalışmalarımızda daha rahat takip edebiliriz.

Resim 6

Bu adımdan sonrası artık tamamen kurgulamak istediğimiz modeli nasıl geliştireceğimiz ile ilgili.

Bir proje modeline başlamadan önce;

  • Veri setinin yapısı, kırılımı, kapsamı, input ve output iyi belirlenmeli.
  • Modelden alınmak istenen cevap belirlenmeli. “Ne oldu?” sorusunu mu araştıracağız, “Ne olacak?” sorusunu mu araştıracağız?
  • Makine öğrenmesi problem tipi belirlenmeli. (2 class, Multi class, Regresyon, Segmentasyon..)

Toolbox bölümünde bulunan Search ekranında arama yaparak, modele dahil etmek istediğimiz tüm fonksiyonlara / işlevlere hızlıca erişebiliriz.

Bu fonksiyonlar sırasıyla;

  • Clean Missing Data: Yüklenilen veri setini temizlemek için kullanılan adımdır, datadaki boş/hatalı satır veya sütunları veri setimizden temizleyerek modelin hatasız çalışmasına yardımcı olur.
  • Split Data: Mevcut data setini Train ve Test datası olmak üzere, istenilen aralıktan veya rastgele seçimle ikiye ayırır.
  • Train Model: Kullanılmak istenilen metod sayısına göre bu train model kartları tasarıma eklenir ve train için ayrılan data eğitilir.
  • Machine Learning Algoritms başlığı altında bulunan aşağıdaki metodlardan model hangi yöntem ile eğitilecek seçimi yapılır;
    • Linear Regression
    • Decision Forest Regression
    • Poisson Regression
    • K-Means Clustering
    • Multiclass Decision Forest
    • Multiclass Logistic Regression
    • ….

Analiz & yorumlama için kullanılan;

  • Score Model
  • Evaluate Model
  • Permutation Feature Importance

Tüm bu metotlar ve fonskiyonlar için aşağıdaki adresten Microsoft Azure ML Genel Help içinde, Machine Learning Algorithm Cheat Sheet indirebilirsiniz 🙂

https://docs.microsoft.com/en-us/azure/machine-learning/algorithm-cheat-sheet#download-machine-learning-algorithm-cheat-sheet

Makine öğrenmesi çalışmalarımızda Microsoft AI Akademi eğitimleri ile yol gösteren Mustafa Acungil hocamıza ve Bilge Adam Akademi’ye teşekkür ediyorum.

Bu yazının devamında, yüklediğimiz data seti ile tahmin modeli kurma adımlarıyla devam edeceğim.

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.