Chawla vd. tarafından 2002 yılında öne sürülen Sentetik Azınlık Örneklem Artırma (SMOTE) yöntemi, dengesiz veri setlerinde azınlık sayıda bulunan örnek sayısını artırmak için kullanılmaktadır. SMOTE yönteminde, sentetik veri oluşturulurken seçilen örneklerin en yakın k tane komşusu ele alınarak yapay örnekler üretilmektedir.
Sınıflandırma veri kümeleri genellikle çoğunluk sınıfı ve azınlık sınıfı miktarları arasında büyük dağılım farklılıklarına sahiptir; bu durum dengesiz veri kümesi olarak adlandırılır. Dengesiz veri kümelerinden öğrenme, denetimli öğrenmede zorlu bir problemdir, çünkü standart sınıflandırma algoritmaları dengeli sınıf dağılımlarını açıklamak üzere tasarlanmıştır. Yöntemlerden biri aşırı örnekleme olarak adlandırılır ve dengeli bir sınıf dağılımı elde etmek için yapay veri oluşturarak çalışır. SMOTE, dengesiz verileri dengelemek için makine öğreniminde yaygın olarak kullanılan ve oldukça başarılı olduğu görülen bir aşırı örnekleme tekniğidir. SMOTE, azınlık sınıfı örneğinin en yakın komşularından rastgele yeni azınlık sınıfı örnekleri oluşturur. Bu örnekler, orijinal veri kümesinin özelliklerine göre oluşturulur, böylece orijinal azınlık sınıfı örneklerine benzer hale gelirler
SMOTE işlemini asla tüm veriye (df) uygulamamalısın. Sadece X_train üzerinde yapılmalıdır. Eğer test setini de SMOTE ile çoğaltırsan, kendi ürettiğin yapay veriyi test etmiş olursun ki bu "hile" sayılır ve gerçek hayatta modelin çökmesine neden olur.
Kaynaklar
- https://www.jair.org/index.php/jair/article/view/10302
- https://www.mdpi.com/2076-3417/8/8/1325
- https://www.jair.org/index.php/jair/article/view/10302 (atıf olarak kullanılabilir)
- Hibrit Bir Model Oluşturarak Diyabetik Retinopati Sınıflandırılması
- https://dergipark.org.tr/tr/download/article-file/3576727#page=2.15
- https://link.springer.com/article/10.1007/s44205-025-00143-z

