R'de çapraz korelasyon nasıl hesaplanır


Çapraz korelasyon , bir zaman serisi ile başka bir zaman serisinin gecikmeli versiyonu arasındaki benzerlik derecesini ölçmenin bir yoludur.

Bu tür bir korelasyonun hesaplanması faydalıdır çünkü bize bir zaman serisindeki değerlerin başka bir zaman serisindeki gelecekteki değerleri tahmin edip etmediğini söyleyebilir. Başka bir deyişle, bir zaman serisinin başka bir zaman serisi için öncü gösterge olup olmadığını bize söyleyebilir.

Bu tür bir korelasyon aşağıdakiler de dahil olmak üzere birçok farklı alanda kullanılır:

Ekonomi: Tüketici Güven Endeksi (CCI), bir ülkenin gayri safi yurt içi hasılasının (GSYİH) öncü göstergesi olarak kabul edilir. Örneğin, belirli bir ayda CCI yüksekse GSYH’nin x ay sonra daha yüksek olması muhtemeldir.

İşletmeler: Pazarlama harcamaları genellikle gelecekteki işletme gelirinin öncü göstergesi olarak kabul edilir. Örneğin, bir şirket bir çeyrekte pazarlamaya alışılmadık derecede yüksek miktarda para harcıyorsa, o zaman toplam gelirin üç çeyrek sonra yüksek olması gerekir.

Biyoloji: Toplam okyanus kirliliği, belirli bir kaplumbağa türünün popülasyonunun önde gelen göstergesi olarak kabul edilir. Örneğin, belirli bir yılda kirlilik daha yüksekse, toplam kaplumbağa popülasyonunun x yıl sonra azalması beklenir.

Aşağıdaki örnek, R’deki iki zaman serisi arasındaki çapraz korelasyonun nasıl hesaplanacağını gösterir.

Örnek: R’de çapraz korelasyon nasıl hesaplanır?

Belirli bir şirket için toplam pazarlama harcamasını (bin olarak) ve ardı ardına 12 ay boyunca toplam geliri (bin olarak) gösteren aşağıdaki R zaman serisine sahip olduğumuzu varsayalım:

 #define data
marketing <- c(3, 4, 5, 5, 7, 9, 13, 15, 12, 10, 8, 8)
revenue <- c(21, 19, 22, 24, 25, 29, 30, 34, 37, 40, 35, 30)

İki zaman serisi arasındaki her gecikme için çapraz korelasyonu ccf() fonksiyonunu kullanarak aşağıdaki şekilde hesaplayabiliriz:

 #calculate cross correlation
ccf(marketing, revenue)

R'de çapraz korelasyon

Bu grafik, iki zaman serisi arasındaki farklı gecikmelerdeki korelasyonu gösterir.

Gerçek korelasyon değerlerini görüntülemek için aşağıdaki sözdizimini kullanabiliriz:

 #display cross correlation values
print (ccf(marketing, revenue))

Autocorrelations of series 'X', by lag

    -7 -6 -5 -4 -3 -2 -1 0 1 2 3 
-0.430 -0.351 -0.190 0.123 0.489 0.755 0.868 0.771 0.462 0.194 -0.061 
     4 5 6 7 
-0.282 -0.445 -0.492 -0.358

Bu çıktıyı nasıl yorumlayacağınız aşağıda açıklanmıştır:

  • 0 gecikmesindeki çapraz korelasyon 0,771’dir .
  • Gecikme 1’deki çapraz korelasyon 0,462’dir .
  • Gecikme 2’deki çapraz korelasyon 0,194’tür .
  • Gecikme 3’teki çapraz korelasyon -0,061’dir .

Ve benzeri.

İki zaman serisi arasındaki korelasyonun -2 ila 2 gecikmelerle oldukça pozitif olduğunu unutmayın; bu bize, belirli bir aydaki pazarlama harcamasının bir ve iki ay sonraki geliri oldukça tahmin ettiğini gösterir.

Bu sezgisel olarak mantıklıdır: Belirli bir aydaki yüksek pazarlama harcamalarının önümüzdeki iki aydaki gelir artışının göstergesi olmasını bekliyoruz.

Ek kaynaklar

R’de otokorelasyon nasıl hesaplanır
R’de kısmi korelasyon nasıl hesaplanır
R’de kayan korelasyon nasıl hesaplanır

Yorum ekle

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir