Bilişim dünyasına kaliteli, özgün ve Türkçe içerikler kazandırmayı hedefleyen bir platform..

friends friends friends

Veri Setleri

Kolayca indirebileceğiniz, “temiz”, veri işlemeye başlangıç seviyesinde kullanabileceğiniz birkaç veri kümesini listelenmiştir. Bu veri setleri; başlangıç seviyesi kullanım için oldukça kolay, karmaşık veri bilimi tekniklerini gerektirmeyen veri kümelerinden oluşmaktadır. Veri setlerini, görselleştirme kütüphaneleri ile zenginleştirip temel regresyon veya sınıflandırma algoritmaları ile çözebilirsiniz.

Ayrıca Kaggle üzerinde çeşitli veri setlerine erişebilirsiniz. Başka bir kaynak olarak sensefly üzerinde çeşitli veri setleri bulabilirsiniz.

  • MNIST el yazısı rakamlar
  • Titanic yolcu listesi
  • Süsen çiçeği türleri
  • Travel times dataset
  • ABD bebek isimleri
  • Depremler
  • Parolalar
  • Movielens Film Puanlama
  • Elektirk sarfiyatı
  • Gelir Seviyesi
  • İris Çiçeği
  • Hitters Veri Seti
  • Öğrencilerin Akademik Performans Kümesi
  • Meme Kanseri Teşhisi
  • Boy ve Ağırlıklar Veri Kümesi
  • Şarap Kalitesi
  • Kalp Hastalıkları
  • Kan Bağışı
  • CamVid
  • Cifar 10
  • S&P 500
  • Mendeley Plant Diseases Dataset
  • MESSIDOR

MNIST

MNIST (Modified National Institute of Standards and Technology), makine öğrenmesinin temeli bu data setidir. 28X28 pixel, el yazısı rakamlardan oluşur. Veri kümesi zaten eğitim ve test kümelerine ayrılmıştır. 60.000 training ve 10.000 test olmak üzere toplamda 70.000 resim var.

MNIST, görüntü işleme alanında çok popüler bir veri kümesidir. Genellikle makine öğrenimi algoritmalarını kıyaslamak için kullanılır. Ayrıca bu veri kümesi, derin öğrenmeye giriş aşamasında sıkça anlatılır ve üzerinde örnekler yapılır. Veri setini, Keras üzerinden yüklemek için ihtiyacınız olan Python kodu:

from keras.datasets import mnist

#loading the dataset
(train_X, train_y), (test_X, test_y) = mnist.load_data()

#printing the shapes of the vectors 
print('X_train: ' + str(train_X.shape))
print('Y_train: ' + str(train_y.shape))
print('X_test:  '  + str(test_X.shape))
print('Y_test:  '  + str(test_y.shape))

Titanic Yolcu Listesi

import seaborn as sns

# seaborn kütüphanesi içindeki titanic veri setini yükleyeceğiz
df = sns.load_dataset("titanic")

#default olarak verisetinin baştan 5 satırını getirir. 
# İçine sayı girilerek çıktı alınan satır sayısı değiştirilebilir
df.head()

df.tail() # head'den farkı, verisetinin sonundan satırları çeker
#df.shape() #veri setinin satır ve sütun sayısını verir
df.info() #veri setiyle ilgili özet bilgileri verir
df.columns #veri setindeki kolon isimlerini yazdırır
df.index #index uzunluğunu ve dtype'ını yazıdırır

#veri setindeki değişkenlerin min, max, count ve %liklerini çıktı verir. 
# T, transposunu alması için yazılır.
df.describe().T 

df.isnull() #tru, false döner
df.isnull().values.any() #herhangi bir boş değer varsa getirir
df.isnull().sum() #null olanların toplamı
df["sex"].head()
#sex kolonu içindeki değişkenlerin(male, female) count'larını yazdırır
df["sex"].value_counts()

Travel times dataset

OpenMV.net üzerinden travel times dataset kullanabilirsiniz.

Hitters Veri Seti

Hitters veri seti, Major ligindeki beyzbol oyuncularının 1986–87 yıllarındaki belirli istatistikleri ve maaşlarını bulunduran bir veri setidir. Kaggle üzerinden veri seti açıklamalarını okuyabilirsiniz.

Şarap Kalitesi

Portekiz "Vinho Verde" şarabının kırmızı ve beyaz çeşitleri ile ilgili veri setinin özellik bilgileri:

Girdi değişkenleri (fiziko kimyasal testlere dayalı):

  1. sabit asitlik
  2. uçucu asitlik
  3. sitrik asit
  4. artık şeker
  5. klorürler
  6. serbest kükürt dioksit
  7. toplam kükürt dioksit
  8. yoğunluk
  9. pH
  10. sülfatlar
  11. alkol

Çıktı değişkeni (duyusal verilere dayalı):

  1. kalite (0 ile 10 arasında puan)

Cifar 10

CIFAR-10 veri seti, 10 sınıftan ve 3 kanalda 32 x 32 pikselden oluşan 60.000 renkli görüntü içerir. Her sınıf 6,000 resim içermektedir. Eğitim seti 50.000 görüntü içerirken, test setleri 10.000 görüntü içerir. Bu görüntüler https://www.cs.toronto.edu/~kriz/cifar.html adresinden çekilmektedir.

CIFAR-10 veri seti
CIFAR-10 veri seti

S&P 500

Amerika’nın en büyük 500 şirketinin hisse senetlerinin günlük açılış, kapanış, gün içinde en düşük, en yüksek değerleri ve işlem hacimlerini barındıran bir veri seti. Python ile kullanımı aşağıdaki gibi olabilir:

import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/HakkiKaanSimsek/Python_Dersleri/master/2.gorsellestirme/data/all_stocks_5yr.csv')
df.head()

caltech 101

...

Hint Pines veri seti

....

Boston evleri

....

Ames evleri

....

Reuters

....

IMDB

....

Mendeley Plant Diseases Dataset

Bu veri setinde 39 farklı bitki yaprağı sınıfı ve arka plan görüntüsü mevcuttur. 61.486 resim içeren veri setidir. Data for: Identification of Plant Leaf Diseases Using a 9-layer Deep Convolutional Neural Network

EPİAŞ şeffaflık Platformu ve ENTSOE

EPİAŞ şeffaflık Platformu ve ENTSOE
EPİAŞ şeffaflık Platformu ve ENTSOE

Zaman serileri üzerine çalışıyor ve saatlik hatta daha az sıklıkta yinelenen bir data arıyorsanız, EPİAŞ şeffaflık Platformu ve ENTSOE aradığınız kaynaklar olabilir. Böylece hem Türkiye hem de Avrupa enerji sektörü verileriyle çalışma imkanı bulabilirsiniz.

Kaynaklara python kullanarak API ile kolayca erişebilir. Her request attığınızda güncel data gelecektir.

EPİAŞ için kaynaklar:

seffaflik : https://github.com/nurisensoy/seffaflik

transparencyEpias: https://github.com/ErenEla/transparencyEpias

ENTSOE için kaynaklar:

entsoe-py : https://github.com/EnergieID/entsoe-py

Web Siteleri

EPİAŞ Şeffaflık Platformu : https://seffaflik.epias.com.tr/transparency/

ENTSOE : https://transparency.entsoe.eu/

https://archive.ics.uci.edu/datasets

https://archive.ics.uci.edu/datasets

MESSIDOR

Retina görüntüleri ve retina görüntüleri üzerindeki damarlar üzerine görüntü işleme alanında çalışma yapmak isteyenler için

Kaynaklar

  1. https://www.slideshare.net/CenkBircanolu/yapay-sinir-alarnda-aktivasyon-fonksiyonlarnn-karlatrlmas
  2. http://www.veridefteri.com
  3. https://medium.com
  4. https://twitter.com/atarikkarakas
  5. https://mervegrcn1.medium.com
  6. https://medium.com/deep-learning-turkiye/plotly-dersleri-1-edec7a1b953e
  7. https://www.researchgate.net/profile/Hemantha-Kumar-Kalluri/publication/333666150_Deep_Learning_and_Transfer_Learning_Approaches_for_Image_Classification/links/5cfbeeb9a6fdccd1308d6aae/Deep-Learning-and-Transfer-Learning-Approaches-for-Image-Classification.pdf
  8. https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=7496040
Veri Setleri iris dataset Süsen çiçeği türleri caltech 101 Cifar Hint Pines veri seti MNIST veri kümeleri veri kümesi hitters veri seti
0 Beğeni
Veri Makine Öğrenmesi
Önceki Yazı

MNIST

12 Nis. 2020 tarihinde yayınlandı.
Sonraki Yazı

Veri Görselleştirme

12 Nis. 2020 tarihinde yayınlandı.
arrow