Dayanıklı seyrek temel bileşenler analizi
[ X ]
Tarih
2017
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Sinop Üniversitesi
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Temel Bileşenler Analizi (TBA), çok boyutlu veri kümesi olduğunda genellikle ilk başvurulan boyut indirgeme ve veri işleme yöntemidir. Bu nedenle TBA, hemen hemen bütün bilimsel alanlarda kullanımı oldukça yaygın olan bir yöntemdir. Ancak TBA'da her bir temel bileşenin tüm orijinal değişkenlerin doğrusal birleşimi olmasından dolayı analiz sonuçlarının yorumlama aşamasında genellikle birtakım güçlüklerle karşılaşılır. Bu sıkıntıların çözümü için önerilen yaklaşımlardan biri Seyrek Temel Bileşenler Analizi (STBA) olarak adlandırılmaktadır. Fakat seyrek yaklaşımlar da TBA'da olduğu gibi veri kümesinde aykırı gözlemlerin olması durumuna karşı dayanıklı değildir. Bu çalışmada, STBA ve Dayanıklı Temel Bileşenler Analizinin (DTBA) avantajlı özelliklerini bir araya getiren, Croux ve ark. (2013) tarafından önerilen yaklaşımın performansı iki gerçek ve üç yapay veri kümesi üzerinden incelenecektir. Çalışmanın 1. bölümünde TBA, DTBA ve STBA hakkında ön bilgilerin yer aldığı giriş bölümü verilecektir. 2. bölümünde çalışmada kullanılan bazı temel kavramların tanımları ve açıklamaları ile birlikte literatür özeti yer alacaktır. 3. bölümünde incelenen veri kümeleri ve yöntemlere, 4. bölümde ise önceki bölümlerde ayrıntılı olarak incelenen yöntemlerin gerçek ve yapay veri kümeleri üzerinde uygulamalarına yer verilecektir. Son bölümde ise çalışmadan elde edilen sonuçlar tartışılacaktır.
The Principal Component Analysis (PCA) is the first method of size reduction and data processing when the dataset is of a high-dimensional. Therefore PCA is a widely used method in almost all scientific fields. However, since all the original variables of each principal component in the PCA are linear combination, the interpretation process of the analysis results is often encountered with some difficulties. The approaches proposed for solving these problems are referred to as Sparse Principal Component Analysis (SPCA). However, sparse approaches are not resistant to the fact that there are outliers in the data set, such as in the PCA. In this study, Croux et al. (2013), which combines the advantageous properties of SPCA and Robust Principal Component Analysis (RPCA), the performance of the proposed approach will be examined through two real and three artificial datasets. Preliminary information on PCA, RPCA and SPCA will be given in Section 1 of the study. In the Section 2, a summary of the literature will be included with definitions and explanations of some basic concepts used in the study. The datasets and methods examined in Section 3 will be included, and in Section 4, the methods examined in detail in the previous sections will be applied to real and artificial datasets. In the last section, the results obtained in the study will be discussed.
The Principal Component Analysis (PCA) is the first method of size reduction and data processing when the dataset is of a high-dimensional. Therefore PCA is a widely used method in almost all scientific fields. However, since all the original variables of each principal component in the PCA are linear combination, the interpretation process of the analysis results is often encountered with some difficulties. The approaches proposed for solving these problems are referred to as Sparse Principal Component Analysis (SPCA). However, sparse approaches are not resistant to the fact that there are outliers in the data set, such as in the PCA. In this study, Croux et al. (2013), which combines the advantageous properties of SPCA and Robust Principal Component Analysis (RPCA), the performance of the proposed approach will be examined through two real and three artificial datasets. Preliminary information on PCA, RPCA and SPCA will be given in Section 1 of the study. In the Section 2, a summary of the literature will be included with definitions and explanations of some basic concepts used in the study. The datasets and methods examined in Section 3 will be included, and in Section 4, the methods examined in detail in the previous sections will be applied to real and artificial datasets. In the last section, the results obtained in the study will be discussed.
Açıklama
Anahtar Kelimeler
İstatistik, Statistics