Dell Data Lakehouse na ukladanie všetkých typov údajov
Na podujatí Dell Technologies Forum 2024 bola predstavená zaujímavá technológia kombinujúca vlastnosti a výhody takzvaných dátových jazier na ukladanie nespracovaných údajov v pôvodnom formáte a dátových skladov určených na ukladanie štruktúrovaných údajov.
Potenciál tejto technológie nám vysvetlil Ross Porter, Presales Leader Dellu.
Aké sú aktuálne trendy v uchovávaní, spravovaní a analyzovaní neštruktúrovaných údajov?
V súčasnosti registrujeme obrovský nárast objemu neštruktúrovaných údajov. Analytici odhadujú, že 80 - 90 % celosvetového objemu údajov môžeme klasifikovať ako neštruktúrované, sú mimo formálnej štruktúrovanej databázy a vytvárajú sa všade. Na sociálnych sieťach, video a streamy, ale aj PowerPoint prezentácie... a v poslednom čase tiež obsah generovaný AI. Je zrejmé, že tento nárast sa nespomalí a že tieto údaje obsahujú množstvo cenných informácií. Tieto údaje sú samozrejme cenné aj z pohľadu trénovania AI modelov. Preto je potrebné tieto údaje uchovávať, spravovať a chrániť a predovšetkým vyťažiť z nich maximum informácií.
Môžete porovnať Dell Data Lakehouse s klasickými dátovými skladmi a dátovými jazerami?
Dátové sklady sa využívajú pre vyčistené a štruktúrované dáta, takže umožňujú jednoduché vyhľadávanie aj analýzy. Dátové jazerá umožňujú ukladať obrovské množstvo nespracovaných údajov v ich pôvodnom formáte, ktorý môže byť štruktúrovaný, neštruktúrovaný alebo pološtruktúrovaný. Dátové jazerá, najmä tie v cloude, sú relatívne lacné, ľahko škálovateľné a často sa používajú s aplikovanou analýzou strojového učenia. Ak k tomu pridáme metadáta, v podstate viete, kde je čo uložené. K údajom je možné pristupovať prostredníctvom rôznych protokolov vrátane filtrovania. Môžete využiť kombináciu údajov z rôznych zdrojov aby ste dosiahli požadovaný výstup.
Dell Data Lakehouse spája výhody týchto dvoch svetov naprieč všetkými typmi údajov, či už sú štruktúrované alebo neštruktúrované. Poskytuje vysoký výkon a flexibilitu vrátane sťahovania údajov do tých prostredí, kde na ne môžete aplikovať AI modely alebo ich môžete pripraviť v požadovanej podobe.
Pre existujúcich zákazníkov bude pravdepodobne veľkou výzvou migrácia z technológie klasického dátového skladu.
Jednou z kľúčových výhod koncepcie Dell Data Lakehouse je minimalizovanie potreby migrovať dáta. Kľúčová preto, lebo migrácia si vyžaduje čas, údaje je potrebné presunúť na nové miesto, je potrebné zabezpečiť aby oprávnení používatelia a aplikácie k nim mali prístup... Toto všetko však odpadá, pretože údaje zostanú tam kde sú. Naše riešenie umožňuje získať rýchlejšie prehľady a získať informácie z údajov, ktoré už máte, bez nutnosti ich presúvania, či iných úprav. Keďže nie je potrebné robiť migráciu údajov, šetrí sa čas, náklady a je to výhodné aj z hľadiska bezpečnosti, pretože môžete využiť všetky osvedčené bezpečnostné riešenia, ktoré máte už implementované, nemusíte zavádzať nové nástroje a procesy. Samozrejme máme partnerstvá, riešenia a nástroje s ktorými vieme pomôcť s migráciou dát tam, kde je to potrebné.
Aké sú ohlasy zákazníkov na túto technológiu a zaujíma ma samozrejme aj to, či Data Lakehouse využívate interne v spoločnosti Dell?
Dell, ako každá firme zápasí s množstvom údajov, ktoré potrebujeme spojiť do jednotného prostredia aby sme z nich vyťažili informácie na podporu rozhodovania. Samozrejme intenzívne implementujeme naše vlastné technológie a využívame čoraz viac AI nástrojov, ktoré zvyšujú produktivitu zamestnancov.
Naši zákazníci sa snažia vypracovať vlastnú stratégiu správy údajov, vlastnú stratégiu AI, snažia sa zistiť, ktoré z ich údajov budú relevantné pre ktoré AI modely. Kvalitné výstupy dosiahnu iba vtedy ak do týchto modelov dostanú najkvalitnejšie údaje, ktoré obsahujú minimum chýb. Pozitívne prijatie Dell Data Lakehose umocňuje naše partnerstvo so spoločnosťou Starburst, ktorá poskytuje nástroje na analýzu údajov Dell. Máme veľa príkladov úspešnej implementácie a pozitívnych referencií napríklad finančných inštitúcií, ktoré chcú urýchliť odhaľovanie prípadných podvodov. Agregáciu heterogénnych údajov oceňujú aj firmy v mediálnom a zábavnom priemysle. Tie potrebujú analyzovať údaje zo set-top boxov v domácnostiach aby zistili čo ľudia hľadajú, aby im mohli ponúknuť personalizovaný obsah. Dell Data Lakehouse umožňuje firmám využívať údaje ako aktívum z ktorého dokážu vyťažiť maximum. Dell má ekosystém a partnerstvá ohľadne AI Factory, má metodiky ako vybrať správne AI modely a využiť ich možnosti na maximum. Spolupracujeme s Microsoftom pri využívaní ich nástroja Copilot, a mnohými ďalšími.
Aké sú trendy a perspektívy ohľadne ukladania, spracovania a analýz údajov, tak štruktúrovaných ako aj neštruktúrovaných?
Myslím si, že v blízkej budúcnosti sa všetko zrýchli a dúfam, že aj zjednoduší. AI nástroje sú už teraz jednoducho dostupné a intuitívne použiteľné či už v pracovnom, alebo osobnom živote. Kľúčová bude dôvera, ktorú ľudia budú mať ohľadne vygenerovaných výstupov. Aby vedeli, že výstupom môžu veriť a boli pre nich užitočné. Firmy budú využívať, prípadne aj vytvárať, či dolaďovať AI modely, ktoré im umožnia efektívne využiť ich dáta, dokumenty, či multimédia. Efektívne využívanie AI zvýši hodnotu ich podnikania. Samozrejme výstupom bude možné dôverovať iba vtedy, sa do AI modelov budú zavádzať kvalitné údaje, ktorým firma dôveruje. Pri použití nekvalitných, či dokonca nezmyselných údajov budú generované nezmyselné výstupy. Dell pomáha a bude pomáhať firmám identifikovať aké riešenie potrebujú a následne im pomôže vybrať a implementovať príslušnú infraštruktúru, či už on premisse, alebo cloudovú. Údaje sú najdôležitejším a najcennejším aktívom v ich organizácii a budú sa posúvať vpred aj s využitím AI.
Z hľadiska objemu údajov je veľmi ťažké presunúť to všetko do cloudu, najmä ak viete, že niektoré údaje sa nevyužívajú. Ukladanie údajov do cloudu je nákladné a zaberajú veľa miesta. Preto Dell prezentuje filozofiu neprinášať dáta do AI, ale naopak priniesť AI k dátam, či už sa nachádzajú v cloude alebo on premisse úložných priestoroch. Správny workload a správne súbory údajov v cloude môžu byť veľmi efektívne a zároveň ekonomické. V niektorých prípadoch je zasa efektívnejší fyzický presun niektorých údajov z cloudového prostredia späť do on premise. Osvedčený postup je vyskúšať príslušné analýzu on premise následne zvážiť čo má zmysel presunúť do cloudu a čo nie.V tom je krása hybridných modelov, hybridného cloudového prostredia.
Zobrazit Galériu