Veri gölü ve veri ambarı karşılaştırması
Veri gölleri, nasıl geldiklerine bakılmaksızın ham verileri yerel biçimlerinde depolar. Veri depoları, temizlenmiş ve önceden tanımlanmış bir şekilde yapılandırılmış verileri depolar.
default
{}
default
{}
primary
default
{}
secondary
Veri göllerine ve veri depolarına giriş
Veri gölleri ve veri depoları, büyük hacimli dijital verileri depolayan, yöneten ve alan sistemlerdir. İşletmeler operasyonlarına, müşterilerine, pazarlarına ve tedarik zincirlerine ilişkin içgörüler elde etmelerine yardımcı olmak için veri toplayarak daha stratejik bir şekilde yanıt verirler.
Veri depoları , veri silolarını ayırmaya ve birden fazla sistem, biçim ve departmana dağılan iş verilerinin zorluğunu gidermeye yönelik bir çözüm olarak ortaya çıktı.
Tutarsızlık, kullanıcıların örnekleri belirlemek, talebi tahmin etmek veya iş performansını değerlendirmek için bu verilere erişmesini, entegre etmesini ve analiz etmesini zorlaştırdı. Veri depoları, verilerin entegre edilebileceği, temizlenebileceği ve analiz için yapılandırılabileceği merkezi bir havuzda bu verileri konsolide etmek için geliştirildi. Bu yaklaşım uyumluluk, performans izleme ve iş zekası süreçlerini desteklemek için "tek bir doğru kaynak" oluşturmuştur.
Veri gölleri ise, sosyal medya, IoT cihazları, sensörler, mobil uygulamalar ve daha fazlası gibi yeni kaynaklardan üretilen yapılandırılmamış ve yarı yapılandırılmış verilerin patlamasını yeterince işleyemeyen veri ambarlarının sınırlamalarına bir çözüm olarak ortaya çıktı. Geleneksel veri ambarları başlangıçta verilerin önceden ve depolamadan önce temizlenmesini ve işlenmesini gerektirdiğinden, görüntü, video ve metin gibi çok çeşitli verilerin depolanması ve işlenmesi çok pahalı ve verimsiz olduğu kanıtlandı.
İşletmelerin ham, orijinal biçiminde veri depolamak için daha esnek, düşük maliyetli bir yola ihtiyaçları vardı ve çözüm olarak veri gölleri oluşturuldu.
Günümüzde birçok modern işletme hem veri ambarlarını hem de veri göllerini içeren hibrit bir yaklaşım benimsemektedir: veri gölleri. Bu mimari hem öncekinin hızlı, yapılandırılmış raporlama yeteneklerini hem de ikincisinin yapay zeka ve makine öğrenmesi uygulamaları potansiyelini sağlar.
Veri gölleri ve veri depoları: temel farklar
Veri gölleri ve veri ambarları arasındaki temel fark, depoladıkları veri türündedir ve her ikisi de bir organizasyonun veri stratejisindeanahtar rol oynar.
Veri depoları, önceden tanımlanmış bir yapıya veya şemaya göre temizlenmiş ve işlenmiş yapılandırılmış verileri depolar. Şema veriler saklanmadan önce uygulandığından, yaklaşım schema-on-Write olarak bilinir.
Örneğin, bir şema, müşteri tanıtıcısı verilerinin tamsayı olması, sipariş tarihi verilerinin YYYY-AA-GG biçiminde olması ve toplam satış tutarı verilerinin ondalık biçimde olması gerektiğini zorunlu kılabilir. Tüm veriler bu kurallara uyduğu için kullanıcılar “Nisan 2025’te müşteri başına toplam satışları bulma” gibi sorguları hızlı ve güvenilir bir şekilde sorabilir. Bu hız ve doğruluk, veri ambarlarını raporlama, gösterge tabloları ve iş zekası kullanım durumları için ideal hale getirir.
Buna karşın veri gölleri, nasıl yapılandırıldıklarına bakılmaksızın ham verileri orijinal biçimlerinde depolayabilir. Önceden tanımlanmış şema gerekli değil.
Şema yalnızca veriler sorgulandığında tanımlanır, bu nedenle yaklaşım, okunan şema olarak bilinir. Yalnızca o zaman ham veriler ayrıştırılır, yapılandırılır ve sorguya göre yorumlanır.
Özetlemek için veri depoları, tüm verilerin yapılandırılmasını ve kullanım için temizlenmesini sağlamak üzere verileri saklamadan önce bir şema uygular. Veri gölleri, veriler sorgulandığında şema uygular ve başlangıçtan itibaren yapılandırılmış veya depolanmayan herhangi bir veriyi depolayabilir.
Veri gölleri ve veri depoları arasındaki farklar
Veri gölleri ve veri ambarları arasında seçim yapma
Veri gölleri ham verileri herhangi bir biçimde depolayabildiğinden esnekliğe ihtiyaç duyan işletmeler için idealdir. Örneğin perakendeciler web siteleri, mobil uygulamalar, sosyal medya, satış noktası sistemleri ve diğerleri gibi birden fazla kaynaktan büyük miktarlar toplar. Topladıkları verilerin temizlenmesine, dönüştürülmesine veya yapılandırılmasına gerek kalmadığından, kolayca ölçeklenen daha uygun maliyetli depolama sistemlerini kullanabilirler. Ancak, sorgu zamanında ham verileri işleme maliyeti, veri ambarının optimize edilen sorgularına kıyasla daha yüksek olabilir.
Karşılaştırmada veri depoları ile maliyetler daha yüksek olacaktır. Yüklemeden önce temizleme, dönüştürme ve yapılandırma işlemlerinin yanı sıra yüklemeden sonra indeksleme ve bölümleme, çalışmak için ek kaynaklar ve depolama gerektirir. Ancak bu optimizasyon iş zekası, raporlama ve işletme analitikleri için kullanıma hazır verilerle sonuçlanır. Analistler ve yöneticiler veri ambarları ile hızlı ve kolay bir şekilde raporlar oluşturabilir, KPI'ları izleyebilir ve bilinçli kararlar alabilir.
Veri göllerinin yapay zeka ve makine öğrenmesi uygulamaları için yeni fırsatların kilidini açtıkları unutulmamalıdır. Sakladıkları geniş ve çeşitli veri kümeleri, veri bilimcilerin trendleri bulmasına, tahmin modelleri oluşturmasına ve makine öğrenmesi uygulamaları çalıştırmasına olanak sağlar. Bu, örneğin, müşteri yorumlarında veya sosyal medya yorumlarında duygu analizi çalıştıran geçmiş etkileşimlere veya doğal dil işleme araçlarına dayalı olarak kullanıcılara ürün öneren öneri sistemleriyle sonuçlanır.
Günümüzde birçok modern işletme temel olarak her ikisinin birleşimi olan veri mimarileri çalıştırmaktadır. Bu veri havuzu evleri, veri ambarının yönetimi ve performansı ile veri gölünün esnekliğini sunmayı amaçlar. Evlat edinme çabucak büyümekle birlikte, birçok işletme kritik raporlama için hâlâ geleneksel depolara güveniyor.
Gerçek dünya örnekleri ve kullanım durumları
Farklı sektörlerin benzersiz ihtiyaçlarını desteklemek için veri göllerini, veri depolarını veya her ikisinden de öğeleri nasıl kullandığına ilişkin örnekler aşağıda verilmiştir.
Sağlık Hizmetleri: Hastaneler genellikle operasyonlarının oluşturduğu çok miktarda ve çeşitli veri türlerini depolamak, yönetmek ve analiz etmek için bir veri gölü mimarisi kullanır. Buna yapılandırılmamış giyilebilir veriler ve tıbbi görüntüler, yarı yapılandırılmış HL7 hasta verileri ve yapılandırılmış laboratuvar test sonuçları dahildir. Bunların tümünü merkezi bir havuzda konsolide ederek, örneğin risk altındaki hastaları tanımlamak veya tedavi planlarını kişiselleştirmek için genomikleri analiz etmek üzere ham verilere gelişmiş analitik ve yapay zeka uygulayabilirler. Artık hayati işaretler üzerinde veri akıtan “akıllı” giyilebilir cihazlarla donatılan hastalarla sağlık sağlayıcılar, erken uyarı işaretlerini bile tespit edip daha hızlı müdahale edebiliyor.
Finans: Bankalar ve diğer finansal kurumlar, kara para aklamayla mücadele (AML) kurallarına ve katı finansal raporlama düzenlemelerine (ABD'de Sarbanes-Oxley veya Basel III gibi uluslararası olarak) uymalıdır. İşlem kayıtları, hesap bakiyeleri ve ticari veriler dahil olmak üzere birden fazla sistemden yapılandırılmış mali verileri depolamak için veri depoları kullanarak yönetişim ve güvenlik gereksinimlerini karşılayan düzenleyici raporlar oluşturabilirler. Mali kurumlar uyumluluğun yanı sıra veri ambarlarını iş zekasını güçlendirmek, riski yönetmek ve geçmiş ve güncel veri kümeleri arasında karmaşık sorgular çalıştırarak dolandırıcılığı tespit etmek için de kullanır.
Medya: Video akış hizmetleri, kişiselleştirilmiş deneyimler sunmak üzere kullanıcı verilerini toplamak, depolamak ve analiz etmek için veri merkezi yaklaşımı kullanır. Akış günlükleri ve sosyal medya geri bildirimi gibi birden fazla kaynaktan çeşitli veri türlerini alır ve merkezi bir havuzda depolar. Ardından bu veriler, en ilgili içeriği öneren makine öğrenmesi modelleri oluşturmak için kullanılabilir. Aynı veriler ayrıca analitik veya raporlama ihtiyaçları için alt kümeler halinde düzenlenebilir ve saklama oranlarına ilişkin gösterge tablolarını kullanabilir ya da içerik alımları ile ilgili kararlar hakkında bilgi verebilir.
Veri platformlarında gelişen trendler
Data lakehouse'lar hızlı bir şekilde verilerinin değerini en üst düzeye çıkarmak isteyen işletmeler için tercih edilen seçenek haline geliyor. Tek bir platformda hem iş zekası hem yapay zeka hem de makine öğrenmesi kullanım durumlarını destekleyebilirler. Ancak yine de geliştikleri ve bazı işletmelerin görev açısından kritik raporlama için geleneksel veri depolarına güvenmeye devam ettikleri unutulmamalıdır.
Yapay zekanın üretkenlik ve verimliliğin bir sürücüsü olarak potansiyeli özellikle veri mimarilerini etkilemiştir, ortaya çıkan bazı veri gölü ve data lakehouse platformları artık LLM'lerle entegredir. Bu, teknik olmayan kullanıcıların düz dilde sorgular sorarak verileri keşfetmesini ve analiz etmesini sağlar. Örneğin, bir kullanıcı "2. çeyrekte satış trendlerini göster" diye sorabilir ve LLM, sistemin anlayabileceği SQL oluşturabilir. Bu, veri odaklı içgörülere erişimi demokratikleştirir.
Sunucusuz mimariler de işletmelerin veri altyapılarını yönetmek için bir bulut sağlayıcısı işe aldığı bir strateji olarak ortaya çıkıyor. Bu anlaşmada bir şirket, kendi kurulumunu yapmak ve yönetmek yerine bir veri platformuna erişim için ödeme yapar. Bunun artıları daha kolay ölçeklenebilirlik ve maliyet verimliliğidir. Bulut sağlayıcısı, veri hacminde veya sorgu yükünde artışlar durumunda bant genişliğinde esneklik sağlar ve iş yalnızca kullandıkları için ödeme yapar. Bu sayede geliştiriciler altyapı hususlarıyla uğraşmak zorunda olmadıklarından daha hızlı bir şekilde dağıtım yapabilirler.
Hatta bazı işletmeler veri göllerini ve depolarını çeşitli bulut hizmetlerine dağıtarak çoklu bulut stratejisini tercih ediyor. Esas fayda fazlalıkta dayanıklılıktır. Bir bulut çevrimdışı giderse iş başka bir bulutta çalışmaya devam edebilir. Ayrıca bir hizmetin makine öğrenmesi konusunda uzmanlaşmış olması gibi belirli bulutlardaki belirli iş akışlarını optimize edebilirler. Bazı sektörlerde veya ülkelerde hassas veriler, yerel uygunluk gereksinimlerini karşılayan bir bölgede veya bulut sağlayıcısında depolanmalıdır.
İşletmeler, birden fazla bulut ortamında verileri bağlamak, yönetmek ve yönetmek için veri kumaşı mimarileri uygulayabilir. Bunlar ayrı ancak senkronize edilen sistemlerde ve uygulamalarda verilere gerçek zamanlı erişim sağlayarak altyapı genelinde birleştirilmiş bir görünüm oluşturur.
Kuruluşlar tıbbi kayıtlar, sosyal güvenlik numaraları ve kaynak kodları gibi hassas verileri korumak için veri platformlarında sıfır güven erişim denetimleri gibi politikalar da benimsiyor. Bu kontroller tüm kullanıcıların, kimliklerini doğrulayarak ihtiyaç duydukları verilere erişmelerini gerektirir.
SSS
Veri gölleri, içerik öneri sistemlerine güç veren makine öğrenmesi modellerini eğitmek isteyen veri bilimciler için faydalıdır.
Veri ambarı, öncelikle büyük hacimli yapılandırılmış verileri tutmak için tasarlanmış bir depolama sistemidir. Yapılandırılan veriler temizlenir, düzenlenir ve belirli bir şekilde biçimlendirilir. (Elektronik tablonun tanımlı satırlarını ve sütunlarını düşünün). Daha modern depolar JSON veya XML gibi belirli yarı yapılandırılmış biçimleri de işleyebilir.
İşletmeler, soruları hızlı bir şekilde yanıtlamak, raporlar üretmek ve temel performans metriklerini izlemek için veri depolarından yararlanır. Bu işlevler iş zekası olarak kategorize edilir.
Şemalar verilerin nasıl düzenlendiğine ilişkin kurallardır. Örneğin, hangi tür verilerin saklanabileceği (sayılar, tarihler), verilerin nasıl düzenlendiği (tablolar ve sütunlar) ve bilgilerin birbiriyle nasıl ilişkili olduğu.
Yazma şeması, verilerin saklanmadan önce önceden tanımlanmış bir yapıya (şemaya) sığması gerektiği anlamına gelir. Veri depoları bu şekilde çalışır. Verilerin temiz ve önceden analiz için hazır olmasını sağlarlar.
Şema okuma, yapının yalnızca birisinin verileri kullanmak veya analiz etmek istediğinde uygulanacağı anlamına gelir. Veri göllerinin çalışma şekli budur. Veriler önce herhangi bir biçimde saklanabildiğinden daha fazla esnekliğe izin verirler ve bunu hemen düzenlemek zorunda kalmazsınız. Bununla birlikte, farklı kullanıcılar aynı ham verileri farklı şekilde yorumlayabileceğinden, bu yaklaşımın takasları daha yavaş sorgu sürelerini ve olası tutarsızlıkları içerir.
Buna karşın, şema yazma, tutarlılığı önceden zorlar ancak esnekliği azaltır.
Yapılandırılan veriler oldukça organize edilmiş, kolay arama özelliğine sahiptir ve genellikle müşteri adları, satış numaraları ve tarihler gibi tablolarda depolanabilir.
Yapılandırılmamış verilerin sabit bir biçimi yoktur ve bunların düzenlenmesi daha zordur, örneğin videolar, resimler, ses dosyaları ve sosyal medya gönderileri.
Yarı yapılandırılmış veriler bu arada bir yerde. Bazı organizasyonları vardır ancak masalar kadar katı değildir. JSON dosyaları, XML belgeleri ve e-postalar düşünün.
Verilerinizin değerini en üst düzeye çıkarın
SAP Business Data Cloud ile hepsini bir araya getirin.