Ünite 6: Sosyal Medya ve Web Madenciliği
Ünite 6: Sosyal Medya ve Web Madenciliği
Giriş
Yaşantımıza etki eden birçok faktör dikkatle incelendiğinde aslında sosyal ağ, iletişim ağı, teknolojik ağ, biyolojik ağ benzeri bir ağın parçası olduğu görülecektir. Çağdaş dünyada, sosyal medya ve bloglar gibi farklı kaynaklardan üretilen muazzam miktarda veri ve bu verilerin taşıdığı büyük miktarda bilgi vardır. Bu bilgiyi manuel olarak işlemek ve gerçek hayatta kullanmak neredeyse imkânsız hâle gelmiştir. Diğer taraftan günümüzde internet üzerinden elde edilecek bilgi havuzu gün geçtikçe çok hızlı şekilde büyümektedir. Kullanıcı aradığı bir bilgiyi bulmak istediğinde ilk başvuracağı araçlardan birisi arama motorlarını kullanmaktır.
Sosyal Ağlar
En basit hâliyle bir ağ, bağlantılarla birbirine bağlanmış birtakım noktalardır. Genel olarak sosyal ağ analizinde, düğümler insanlardır ve bağlantılar insanlar arasındaki evlilik, arkadaşlık, finansal bağ, aile gibi herhangi bir sosyal bağlantıdır.
Sosyal Ağ Analizi
Sosyal ağ analizi gruplar ve kuruluşlardaki bireyler arasındaki etkileşimi modellemek, görselleştirmek ve analiz etmek için kullanılan bir araçtır.
Springer ve Steiguer (2011) çalışmalarında sosyal ağ analiz sürecini 3 adımda sunmuşlardır. Bu adımlar: Ağı tanımlama, sosyal etkileşim verilerini toplama ve veri analizidir.
Veri Madenciliği
Veri madenciliği en basit tanımıyla veriler arasında beklenmeyen/önceden bilinmeyen ilişkileri keşfetmedir. Büyük veri setlerinde gizli, geçerli ve potansiyel olarak faydalı modeller arar. Veri madenciliği makine öğrenme, istatistik, yapay zekâ ve veri tabanı teknolojisini kullanan çok disiplinli bir beceridir.
Bilgi Keşfi
Bilgi keşfi, potansiyel olarak yararlı veya önceden bilinmeyen bilgileri verilerden ayıklayan bir işlemdir.
Veri temizleme, verilerin temizlendiği işlemdir. Veri tabanında hatalı ve tutarsız veriler için kullanılan gürültülü veriler tespit edilip temizlenmesi gerekir. Veriler farklı konumlarda farklı formatlarda bulunur. Veriler veri tabanlarında, metin dosyalarında, elektronik tablolarda, belgelerde, veri küplerinde, internet vb. yerlerde depolanır.
Verileri madencilik için uygun farklı formlara dönüştürme ve birleştirme işlemi için veri dönüşümü yapılması gerekir.
Veri madenciliği, verilerden desen çıkarmak için çeşitli karmaşık ve akıllı yöntemlerin uygulandığı temel işlemdir.
Veri Madenciliği Teknikleri
Veri madenciliği teknikleri temel olarak iki ayrı nitelik için tanımlanır. Bunlar tanımlayıcı nitelikli veri madenciliği teknikleri ve tahmin etme nitelikli veri madenciliği teknikleridir. Veri madenciliği teknikleri denetimli ve denetimsiz kategorilerine göre de gruplandırılır. Denetimli veri madenciliği teknikleri belirli bir veri noktasını tahmin etmek için tasarlanır. Burada siz ne aradığınızı bilir ve önceden tanımlanmış bir hedef değişkenin değerini girdi değişkenleri toplamı açısından bulmayı hedeflersiniz.
Sınıflandırma, tahmin ve öngörü kullanılan başlıca denetimli veri madenciliği teknikleridir. Sınıflandırma, belirli bir nesnenin özelliklerini inceleyerek önceden tanımlanmış kategoriye (sınıfa) atama işlemi olarak tanımlanır. Sınıflandırma işlemi evet/ hayır, düşük/orta/yüksek vb. farklı seviyede sonuçlar verir. Tahmin, sonuçları zamanla değişkenlik gösteren durumlarla ilgilidir. Gelir, yaş, boy, kredi kartı bakiyesi gibi bazı bilinmeyen sürekli değişkenler için değer bulmada tahmin teknikleri kullanılır. Öngörü, gelecekteki bazı davranışları öngörmek için gerçekleştirilen sınıflandırma veya tahmin görevleridir. Hangi telefon abonelerinin internet kullanım limitlerini aşacağını öngörme buna örnek olarak verilebilir. Geçmiş veriler mevcut gözlemlenen davranışı açıklayan bir model oluşturmak için kullanılır. Bu model mevcut girdilere uygulandığında, sonuç gelecekteki davranışların bir öngörüsüdür.
Yakınlık gruplaması, kümeleme ve tanımlama (görselleştirme) kullanılan başlıca denetimsiz veri madenciliği teknikleridir. Yakınlık gruplaması, bir veri tabanındaki bir dizi nesne arasındaki belirli ilişkileri ortaya çıkarmaya çalışır. Bunun belirlenmesinde ilişkilendirme kuralları geliştirilmeye çalışılır. Buradaki temel mantık X içeren veri tabanının işlemlerinin, Y içerme eğiliminde olmasıdır. Bir ilişkilendirme kuralı, bir öge kümesinin varlığının bir başka öge kümesi ile korelasyon içinde olduğunu sunar.
Kümeleme, farklı bir grubu/kayıtları bir dizi benzer alt gruba veya kümeye ayırma işlemidir. Kümelemede önceden tanımlanmış sınıf yoktur; veriler niteliklerindeki benzerliklere göre gruplandırılır. Kümeleme genellikle başka bir veri madenciliği veya modelleme biçiminin başlangıcı olarak yapılır. Sınıflandırmada hedef baştan bellidir ve verinin belirli kısmı eğitim için diğer bir kısmı da oluşturulan modeli test etmek için kullanılır. Kümeleme işlemine başlarken ilk önce kaç tane küme olacağına karar vermemiz gerekir. Kullanılan en yaygın kümele yaklaşımları:
- Bölümleme algoritmaları: Çeşitli bölümler oluşturur ve bunları bir ölçütle değerlendirir. K-means algoritması en bilinen bölümleme algoritmasıdır.
- Hiyerarşi algoritmaları: Bazı ölçütleri kullanarak veri kümesinin (veya nesnelerin) hiyerarşik bir ayrıştırmasını oluşturur.
- Yoğunluğa dayalı: Bağlantı ve yoğunluk işlevlerine dayalıdır.
- Şebeke bazlı: Çok seviyeli, bir taneli yapıya dayanır.
- Model-temelli: Kümelerin her biri için bir model varsayılır ve bu modelin birbirlerine en uygun olduğunu bulmak gerekir.
En bilinen kümeleme yaklaşımı olan K-means algoritması, 1967 yılında MacQueen tarafından tasarlanan ve nesne gruplarının niteliklerine göre K bölüme ayrılmasını sağlayan bir kümeleme algoritmasıdır.
Veri Ambarı
Veri madenciliği uygulamalarında altyapı gereksinimi veri ambarı sayesinde sağlanır. Veri ambarları veri tabanlarını yormamak için oluşturulmuş, daha hızlı çalışan, özelleştirilmiş ve veri tabanlarına göre daha az veri saklayan yapılardır.
Veri ambarları dünyanın en büyük bilişim firmaları tarafından yoğun olarak kullanılan çok önemli bir mimaridir. Örneğin; ünlü arama motoru Google, BigQuery isimli bir veri ambarı mimarisi kullanmaktadır. BigQuery mimarisi sunucusuzdur, yani Google makine kaynaklarının tahsisini dinamik olarak yönetir. Bu nedenle, tüm kaynak yönetimi kararları kullanıcıdan gizlenir. BigQuery, müşterilerin Google Cloud Storage’dan ve diğer okunabilir veri kaynaklarından veri yüklemesini sağlar.
Web Madenciliği
Veri madenciliğinin özel bir şekli olan web madenciliği, World Wide Web olarak bilinen “www” kullanıcılarının ihtiyaç duydukları bilgilere hızlı ve kolay bir şekilde ulaşmalarını sağlar.
Web içerik madenciliği, ana nesnelerin web sayfalarına gömülü veya web sayfalarına bağlı görüntü, video ve ses gibi geleneksel multimedya araçları olduğu bilgi keşfini hedefler.
Web içerik madenciliği iki yaklaşıma göre sınıflandırılabilir. İlk yaklaşım olan ajan tabanlı yaklaşım bilgi bulma ve filtreleme işlemlerini geliştirmeyi amaçlar. İkinci yaklaşım olan veritabanı yaklaşımı standart veritabanı sorgulama mekanizması ve analiz etmede veri madenciliği uygulamalarını kullanmak için Web’deki verilerin daha yapılandırılmış biçimde modellenmesini amaçlar.
Web içerik madenciliği web sitelerinin dokümanlarındaki link ve hyperlinkleri bularak sayfanın ve web sitesinin yapısal raporunu çıkarmaya çalışır.
Web yapı madenciliği, web sitesi ve web sayfası hakkında yapısal özet oluşturmayı amaçlar.
Web kullanım madenciliği, kullanıcıların “World Wide Web” ile etkileşime girerken davranışlarını tahmin edebilecek tekniklere odaklanır.
Genel olarak, kullanıcının gezinme modelini keşfetmek için web madenciliği alanına uygulanan 3 tür veri madenciliği tekniği vardır. Bunlar:
- Kümeleme
- Sınıflandırma
- İlişkilendirme kuralı
Sosyal Ağ Analizi İçin Web Madenciliği
Sosyal ağ analizinde web madenciliğinin kullanımı çok önemli bir yere sahiptir. Web madenciliğinin 3 önemli yapı taşının (web içerik madenciliği, web yapı madenciliği ve web kullanım madenciliği) da bu alanda önemli fonksiyonları ve kullanım alanları vardır.
Web yapı madenciliği genellikle analistin sosyal ağları kolayca anlamasını ve analiz etmesini sağlayarak sosyal ağlar hakkındaki verileri sunmak için grafikler ve görselleştirilmiş araçlar kullanır.
Web madenciliğinin önemli diğer yapıtaşı olan web kullanım madenciliği de sosyal ağ analizinde yaygın olarak kullanılmaktadır.
Sosyal ağ analizi için kullanılan diğer önemli yaklaşım ise veri madenciliğinin temel yaklaşımlarından biri olan ilişkilendirme kurallarıdır. İlişkilendirme kuralları bir sosyal ağdaki veya hatta çapraz ağların düğümleri arasındaki gizli ilişkileri keşfetmeye yardımcı olabilir.
Sosyal ağ analizinde kullanılan diğer bir veri madenciliği yaklaşımı ise kümelemedir. Sosyal ağ analizinde ağa yeni katılan bir bireye en yakın insan grubunu belirlemek önceliklidir ve küçük bir sosyal ağda bu işlem için görselleştirme tekniği kullanılır.
Altı adımlı sosyal ağ analizi için web madenciliği kullanım sürecinin adımları şunlardır:
- Analiz hedeflerinin seçimi
- Sosyal ağ analizinin seçimi
- Veri hazırlama
- Web madenciliği teknikleri seçimi
- Sonuçların sunumu ve yorumlanması
- Öneri ve eylem