Rastgelelik Nedir ? Tahmin Edilebilir mi ?

Geçmiş dönemlerden beri insanlar, olayların sonuçlarındaki belirsizliği merak etmişlerdir. Bir zarın yuvarlanışından tutun bir kartın iki ardı arasındaki dönüşü rastlantı kavramının gelişmesini sağlamıştır. Rastgelelik, bir tanım olarak sağlam temellere oturtulmamışsa da basit olarak bir olay yığınının öngörülemeyen hali diyebiliriz. Örnek olarak bir zar atıldığında, sonucu tahmin edilemezken; çift gelme olasılığı, 1 gelmesine kıyasla 2 kat daha sıktır.

Bu yazımızda da belirsizlik durumunu yakın geçmişten başlayarak irdeleyeceğiz. En son olarak birtakım regresyon modelleriyle de tahmin etme durumunu ele alacağız. Başlamadan önce kısa kısa başlıklar halinde makalemizi inceleyelim:

Özet

Rastgelelik Nedir ?

Tahmin Edilebilir mi ?

Uygulama

Sonuç

Özet

Rastgelelik başlı başına bir sonuç değildir. Yazı-turanın sonucu rastgele değil, kaotiktir. (bknz: Kaos Teorisi) Rastgeleliğini ölçebilecek aletlere sahip olmadığımızın göstergesidir. Bir metal paranın ağırlık merkezi, üzerindeki desenlerden dolayı tam ortada değildir. Bu para, herhangi bir yüzünden atılması, atış açısı gibi durumlar sonucu etkiler. Sonuç üzerinde oldukça fazla değişkenin bulunması, pratikte eksiksiz bir şekilde tahmin edilmesini mümkün kılmaz. Teoride imkansız olmadığının altını çizmek isterim.

Rastgelelik Nedir ?

Rastgelelik kavramı belirsizliğin ölçüsüdür. Birazdan değineceğim kuantum durumu dışında rastgeleliği yakalamak mümkün değildir. Bunun nedeninden bahsetmiştim. Tüm değişkenlerin ayrı ayrı bulunması ve sonucun hesaplanması pratikte imkansızdır. Bir örnek vermek gerekirse aynı özellikteki nesneler arasında seçim yapmak isteyelim; bu seçimde saf bir rastgelelik arayamayız. Çünkü bir olasılık yığını dahilinde yorum yaparız daha basit olarak, sonucu bir doğruluk payıyla tahmin edebiliriz.

Atom altı seviyesi dediğimiz mikro evrende, birtakım yasaları uygulayamadığımıza aşinasınızdır. Nedeni ise belirsizlik yani kuantum durumudur. Radyoaktif maddeler, zamanla bozunan atomlardan oluşur. Bozunan atomlar, daha küçük atomlara ayrışırlar. Bilimsel olarak atomun belli bir zaman aralığında bozunma olasılığı hesaplanabiliyor, ancak bir sonraki bozunacak atomun hangisi olduğu tahmin edilemiyor. Einstein, bu durum için “Tanrı zar atmaz!” demiştir. Bu söze ithafen, kullanılan yöntemler teoride önemli yararı olsa da O’nun sırrına yaklaştırma konusunda iyi bir seçenek olmadığından bahsetmiştir. Adı geçen tanrı, Einstein’ın kendisi tarafından tanımladığı felsefi bir tanrıdır.

Tahmin Edilebilir mi?

Bu bölüme kadar gelmeyi başarabilmişseniz sorunun cevabını kendinizce yorumlayabiliyorsunuzdur. Özel durum dediğimiz kuantum hali dışında bir olasılık çerçevesinde sonuç dağılımı hakkında tahmin yapılabilir. Tahmin edilebilen durum için şunu belirtmek isterim, daha önce bahsettiğim kaotik durumdaki değişkenler göz ardı edilince pek de gerçekçi olmayan bir şekilde tahmin edilebilir.

Örneklerimizi fiziksel olarak verdik, peki ya bilgisayar ortamında rastgele sayı üretimi yapılabilir mi? Kısa cevap olarak, rastgele üretim yapılamaz. Karışık algoritmalar neticesinde belirlenebilir. Belirlenmiş olmasına vurgulamak istiyorum; kullanılan algoritmalar deterministik çalışır. Çıktı ne olursa olsun belirlidir, kesindir.

Uygulama

Sözde rastgelelik durumunu Python dili ile oluşturup tahmin edilebilirliğini ele alacağız. Bu kısım meraklısına olduğu için sonuç kısmına atlayabilirsiniz. Veri setini tanıyalım:

Cinsiyet, yaş, uygulamaya aylık giriş sayısı, aylı satın alım sayısı, bu alımların ortalamaları ve son olarak da uygulamayı bırakacağını öngöreceğimiz sonuç kısmı olmak üzere 5 ‘bağımsız’ değişkenimiz var. Ancak deneyimizde; giriş, satın alım sayısı ve ortalamasını 3'er tane yapmak üzere toplam 11 tane ‘bağımsız’ değişkenimiz bulunuyor. Bırakacağını tahmin edeceğimiz değer bağımlı değişkendir.

Sonuç

100,1000 ve 5000 değerlerini girdiğimizden dolayı 3 tane sonuç grafiği elde ettik. Düşük veri sayısı durumunda modellerin tahmin yeteneği daha fazlayken, bu sayı arttıkça başarım oranı düşüyor. İlk olarak bu yorumu yapabiliriz. Sonrasında odaklanacağımız yer ise, verilerin arttığı zaman doğru tahmin etme oranlarının azalması ve regresyon modellerinin sonuçlarının birbirine yakın olmasıdır. Neden bu kadar düşük ? Düşük olmasına rağmen %50‘lik kısma nasıl ve neden yakın sonuç gösteriyor?

Aslında oranların böylesine düşük olmasını verilerin birbiriyle arasında hiçbir bağ olmamasına yorumlayabiliriz. Aynı şekilde %50'ye yakınsadığını daha önce bahsettiğim olasılık dağılımları ile ilişkilendirebiliriz. Bu konudaki makale için buraya tıklayabilirsiniz.

Math Student at Izmir University of Economics. I have been working on Machine Learning and AI. alicanakca.com

Math Student at Izmir University of Economics. I have been working on Machine Learning and AI. alicanakca.com