Mikä on tietojärvi?

Tietojärvi on keskitetty tietohakemisto, joka auttaa käsittelemään tietosiilo-ongelmia. 

Tietojärven yleistiedot

Pohjimmiltaan tietojärvi on tietovarasto. Tietojärvet sekoittuvat usein tietovarastoihin, mutta molemmat palvelevat erilaisia liiketoiminnan tarpeita ja niillä on erilaiset arkkitehtuurit. Erityisesti pilvitietojärvet ovat olennainen osa modernia tiedonhallintastrategiaa, sillä sosiaalisen datan, esineiden internetin (IoT) konedatan leviäminen ja tapahtumatiedot kiihtyvät jatkuvasti. Mahdollisuus tallentaa, muuntaa ja analysoida mitä tahansa tietotyyppiä tasoittaa tietä uusille liiketoimintamahdollisuuksille ja digitaaliselle muutokselle – ja tässä piilee tietojärven rooli.

90

%

Rahoituslaitosten osuus rahoituslaitoksista uskoo, että Big Data -aloitteet määrittävät tulevaisuuden menestyksen

64.2

Digitaalisen datan zettabytes luotiin vuonna 2020

17.6

B $USD

tietojärvimarkkinoiden arvioitu arvo vuoteen 2026 mennessä

Tietojärven määritys

Tietojärvi on keskitetty tietohakemisto, joka auttaa käsittelemään tietosiilo-ongelmia. On tärkeää, että tietojärvi tallentaa valtavia määriä raakadataa alkuperäiseen – tai alkuperäiseen – muotoonsa. Tämä muoto voi olla strukturoitu, rakenteeton tai puolistrukturoitu. Erityisesti pilvessä olevat tietojärvet ovat edullisia, helposti skaalautuvia ja niitä käytetään usein sovelletun koneoppimisen analytiikan kanssa.

Tietojärvi vs. tietovarasto

Toisin kuin tietojärvessä, tietovarasto tarjoaa tiedonhallintatoimintoja ja tallentaa käsiteltyjä ja suodatettuja tietoja, jotka on jo käsitelty ennalta määritettyjä liiketoimintakysymyksiä tai käyttötapauksia varten.

Tietovaraston kaavio verrattuna tietojärveen.

Tietovarastot ja järvet täydentävät usein toisiaan. Kun esimerkiksi tietojärveen tallennettuja raakatietoja tarvitaan liiketoimintakysymykseen vastaamiseen, niitä voidaan poimia, puhdistaa, muuntaa ja käyttää tietovarastossa lisäanalyysia varten.

 

Datajärvi on uusi ja kehittyvä konsepti, joka lisää tiedonhallintaominaisuudet perinteisen tietojärven päälle. Pohjimmiltaan se on tietojärven ja tietovaraston yhdistelmä.

 

Tietotyypin ja edellä mainittujen prosessierojen lisäksi tässä on joitakin yksityiskohtia, joissa tietojärveä verrataan tietovarastoratkaisuun.

Tietojärvi
Tietovarasto
Tiedot
Mikä tahansa tietotyyppi mistä tahansa lähteestä
Relaatio- tai strukturoitu
Kaavio
Schema-on-read (analyysiaika)
Schema-on-Write (ennalta määritetty)
Varastointikustannukset
Pienemmät kustannukset – petabyyttiasteikko
Korkeammat kustannukset – teratavuasteikko
Tietojen laatu
Kuratoidut tai kuratoimattomat tiedot
Kuratoidut tiedot
Käyttäjät
Datatieteilijät, datan kehittäjät (esimerkiksi Pythonia käyttävät) ja liiketoiminta-analyytikot (käyttämällä SQL:ää kuratoituun dataan)
SQL:ää käyttävät liiketoiminta-analyytikot
Analytiikka
Koneoppiminen, ennakoiva analytiikka, tietojen löytäminen/profilointi
Eräraportointi, BI, visualisoinnit

Loppujen lopuksi tietojen määrällä, tietokannan suorituskyvyllä ja tallennushinnoittelulla on tärkeä rooli oikean tallennusratkaisun valinnassa.

Tietojärviratkaisun keskeiset elementit

  • Tietojen siirto: Tietojärvet sallivat minkä tahansa tietotyypin tuonnin useista lähteistä sen natiivimuodossa. Näin yritykset voivat skaalata tietojen kokoa tarpeen mukaan tarvitsematta määrittää tietorakenteita, kaavioita ja muuntoja, mikä voi johtaa yleiskustannussäästöihin.

  • Säilytä ja katalogitiedot turvallisesti: Tietojärveen tallennetaan jäsenneltyä, puolistrukturoimatonta ja rakenteetonta dataa useista lähteistä, kuten CRM- tai ERP-ohjelmistosta, IoT-laitteista, sosiaalisesta mediasta tai jopa vanhojen järjestelmien historiatiedoista. Tietojärvien avulla voit tallentaa erä- ja suoratoistotietoja, kun käytät hallintoa, turvallisuutta ja valvontaa. Tietoja voidaan kysellä suoraan tai siirtää tietovarastoon oikeiden työkalujen avulla.

  • Analyysit ja koneoppiminen: Tietojärvet mahdollistavat roolipohjaisen pääsyn tietoihin analyysien ja koneoppimisanalyysien suorittamiseksi ilman, että tietoja tarvitsee siirtää erilliseen analytiikkatietokantaan. Myös tietojärvet mahdollistavat historiatietojen yhdistämisen reaaliaikaisiin tietoihin koneoppimisen tai ennakoivien analyysimallien tarkentamiseksi, jotta saadaan parempia ja/tai uusia tuloksia.

Miten tietojärvet toimivat

Modernilla tietojärvellä on kolme pääominaisuutta:

  1. Raakatietojen saapumisvyöhyke
  2. Esikeräilyvyöhyke, jossa tiedot muunnetaan analyyttista tarkoitusta varten
  3. Tiedontutkimusvyöhyke, jossa dataa hyödynnetään analyyseissa, sovelluksissa ja koneoppimismallien syöttämisessä

Tietojärvestä tietoa syötetään useisiin eri lähteisiin, kuten analytiikkaan tai muihin liiketoimintasovelluksiin, tai koneoppimistyökaluihin tarkempaa analysointia varten.

 

Tietojärven käyttötapaus

Tässä on kaksi esimerkkiä tietojärven käyttötapauksesta vähittäiskaupassa.

 

Pitkän aikavälin myyntitiedot tallennetaan tietojärveen rakenteettomien tietojen, kuten WWW-sivuston napsautusten, sään, uutisten ja mikro-/makrotaloudellisten tietojen rinnalla. Kun nämä tiedot on tallennettu yhteen ja käytettävissä, tiedontutkija voi helpommin yhdistää nämä eri tietolähteet malliksi, joka ennustaa tietyn tuotteen tai tuotelinjan kysynnän. Näitä tietoja käytetään syötteinä Retail ERP -järjestelmään tuotantosuunnitelmien lisäämiseksi tai vähentämiseksi.

 

Samanaikaisesti markkinointiasiantuntija voi käyttää tätä samaa tietojärveä ja tarkastella verkkosivuston asenneanalyysia ja sosiaalisen median sitoutumista uutis-, makrotalous- ja myyntihistoriatietoihin määrittääkseen, mihin tuotteisiin keskittyä ja miten parhaiten maksimoida myynti, voitto ja/tai käyttöönotto.

Tietojärvien tyypit

Tietojärvet voivat sijaita toimitiloissa, pilvessä, hybridinä sekä useissa pilven hyperskaalaajissa, kuten Amazon Web Services (AWS), Microsoft Azure tai Google Cloud.

 

Ylivoimaisesti suosituin tietojärvi on pilvitietojärvi. Pilvitietojärvi tarjoaa kaikki tavalliset tietojärven ominaisuudet, mutta täysin hallitussa pilvipalvelussa.

  • On-premise-tietojärvi: On-premise-tietojärven avulla yrityksen sisäiset IT-tekniset resurssit hallitsevat laitteistoja, ohjelmistoja ja prosesseja. Tällä lähestymistavalla on suurempi sitoutuminen pääomamenoihin (CAPEX), ja tiedot ovat yleensä silokoituneita.

  • Pilvitietojärvi: Pilvitietojärvessä on-premise-infrastruktuuri ulkoistetaan. Operatiiviset menot (OPEX) ovat suuremmat, mutta tämä käyttöönottotapa helpottaa yritysten skaalautumista ja monia muita hyötyjä (ks. jäljempänä).

  • Hybriditietojärvi: Valituissa tapauksissa jotkut yritykset päättävät ylläpitää sekä on-premise- että pilvitietojärviä samanaikaisesti. Tämä tilanne on melko harvinainen ja näkyy useimmiten siirtoskenaarioiden aikana on-premise-pilvestä pilveen.

  • Usean pilven tietojärvi: Usean pilven tietojärvessä yhdistetään kaksi tai useampi pilvitarjonta; esimerkiksi yritys voi käyttää sekä AWS:ää että Azurea pilvitietojärvien hallintaan ja ylläpitoon. Tämä edellyttää enemmän asiantuntemusta, jotta nämä erilaiset alustat voivat kommunikoida keskenään.

Pilvitietojärven kuusi tärkeintä etua

Miksi valita pilvitietojärvi? Datan muuntaminen arvokkaaksi liiketoimintahyödykkeeksi edistää digitaalista muutosta. Pilven vahvuudet yhdistettynä tietojärveen luovat tämän perustan. Pilvitietojärven avulla yritykset voivat käyttää analytiikkaa historiatietoihin ja uusiin tietolähteisiin, kuten lokitiedostoihin, napsautusvirtoihin, sosiaaliseen mediaan, Internetiin yhdistettyihin laitteisiin ja moniin muihin, jotta niistä saadaan käyttökelpoisia tietoja.

 

Seuraavassa on joitakin tärkeimpiä etuja, joita sinun pitäisi odottaa:

  1. Kustannustehokkuus: Pilvitallennuspalvelujen tarjoajat tarjoavat monia tallennus- ja hinnoitteluvaihtoehtoja.
  2. Automaattinen skaalaus: Pilvipalvelut on suunniteltu tarjoamaan skaalaustoimintoja, joiden avulla yritykset voivat tarvittaessa laskea ja hyödyntää tallennuskapasiteettia.
  3. Keskitetty tietohakemisto: Pilvitietojärvi kokoaa yhteen tietoa, joka toimii yhden totuuden lähteenä hallitulla tietojen käytöllä, joka mahdollistaa prosessien tehokkuuden tiimien keskuudessa.
  4. Tietoturva: Pilvitallennuspalvelujen tarjoajat takaavat tietojen turvallisuuden jaetun vastuun mallin avulla.
  5. Työkalut: Pilvitallennuspalvelujen tarjoajat ja muut toimittajat tarjoavat ETL-työkaluja, jotka indeksoivat tietoja, muodostavat dataluettelon ja suorittavat tietojen valmistelun, tietojen muunnon ja tietojen vastaanoton tietojen kyselyä varten.
  6. Parannettu analytiikka uusia oivalluksia ja parempia liiketoiminnan tuloksia varten: Pilvitietojärvi voi yhdistää dataa uusilla tavoilla. Esimerkiksi CRM-tiedot ja sosiaalisen median analyysit voivat tarjota asiakkaille uutta tietoa poissiirtymisen syystä tai näyttää, mitkä kampanjat lisäävät uskollisuutta. Myös toiminnallista tehokkuutta voidaan parantaa IoT-datan analysoinnilla.

Tietojärven usein kysytyt kysymykset

Tutustu alla oleviin tietojärviä koskeviin usein kysyttyihin kysymyksiin ja tarkastele tiedonhallinnan sanastoamme saadaksesi lisää määritelmiä.

Termi "tietojärvi" kehittyi heijastamaan käsitettä sulava, suurempi tietovarasto - verrattuna siiloisempaan, tarkkaan määriteltyyn ja strukturoituun dataan mart, erityisesti.

 

Yli vuosikymmen sitten tietolähteiden kasvaessa tietojärvet muuttuivat vastaamaan tarpeeseen tallentaa määrittelemättömän datan petatavuja myöhempää analysointia varten. Varhaiset tietojärvet perustuivat Hadop-tiedostojärjestelmään (HDFS) ja hyödykelaitteistoon, joka perustui on-premise-datakeskuksiin. Hajautettuun arkkitehtuuriin liittyvät luontaiset haasteet sekä mukautetun datan muuntamisen ja analysoinnin tarve vaikuttivat kuitenkin siihen, että Hadoop-pohjaisten järjestelmien suorituskyky ei ollut optimaalinen.

 

Pilvilaskenta- ja tiedontallennusteknologiat ovat nyt nykyaikaisen datapainon – ja pilvitietojärvien – pääperusta.

Tietovarasto (DW) on digitaalinen tallennusjärjestelmä, joka yhdistää ja harmonisoi suuria määriä strukturoitua ja muotoiltua dataa monista eri lähteistä. Sen sijaan tietojärvi tallentaa tiedot alkuperäisessä muodossaan – eikä sitä ole jäsennelty tai muotoiltu.

Tiedonhallinta on datan keruu-, organisointi- ja käyttöprosessi, joka tukee tuottavuutta, tehokkuutta ja päätöksentekoa.

Datajärventalo lisää tiedonhallinnan ja varastonhallintavalmiudet perinteisen tietojärven ominaisuuksien päälle. Tämä on uusi ja kehittyvä alue, joka muuttuu nopeasti.

Multicloud tarkoittaa useiden pilvi- ja tallennuspalvelujen käyttöä yhdessä heterogeenisessa arkkitehtuurissa. Tällä tarkoitetaan esimerkiksi pilvipohjaisten resurssien, ohjelmistojen ja sovellusten jakelua useissa pilvipalveluympäristöissä.

Tiedostojen tallennus järjestää ja esittää tietoja kansioiden tiedostohierarkiana, lohkottaa tallennustilan lohkoksi tietoja mielivaltaisesti järjestetyiksi, tasaisesti mitoitetuiksi taltioiksi ja objektitallennustila hallitsee tietoja ja linkittää ne niihin liittyviin metatietoihin. Objektien tallennusjärjestelmät mahdollistavat massiivisten rakenteettomien tietojen säilyttämisen.

placeholder

Aloita tietojärviratkaisujen käyttö

Tutki SAP HANA Cloudin tietojärven ominaisuuksia.

placeholder

Ideoita, joita et löydä mistään muualta

Saat käyttöösi annoksen Business Intelligence -tietoja suoraan saapuneiden kansioosi.

twitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixeltwitter pixel