Czym jest Big Data? Jak działa? Przykłady i zagrożenia dużych zbiorów danych
Big Data jest terminem, o którym coraz częściej mówi się w mediach i na spotkaniach biznesowych. Służy on do opisania dużych zbiorów danych. Wiele osób niewłaściwie używa tego sformułowania. Dowiedz się więc, co to jest i włącz się do rozmowy podczas kolejnego small talku.
- Czym jest Big Data?
- Historia Big Data
- Jak działa Big Data?
- Przykłady zastosowań Big Data
- Zagrożenia i wyzwania związane z Big Data
- Praca w Big Data
Czym jest Big Data?
Sformułowanie Big Data coraz częściej wykorzystuje się w mowie potocznej, jednak mało kto wie, co ono dokładnie oznacza. Hasło to używane jest w pracy przez analityków, naukowców czy programistów i w wolnym tłumaczeniu oznacza duże zbiory danych. Czy prezentacja w Microsoft PowerPoint obejmująca kilkaset slajdów można już określić przytoczonym mianem? Nie, choć taka ilość informacji wiele osób przerośnie na starcie, a tylko garstka dobrnie do końca. Big Data to zbiór ogromnych ilości plików, które rosną z dnia na dzień.
Dane te są niemożliwe do przetworzenia przez pojedyncze osoby i nie otworzy ich żaden komputer czy laptop. Nic w tym dziwnego, ponieważ dziennie na świecie wysyłanych jest około 310 miliardów maili i 500 milionów tweetów.
Podczas gdy my do określenia pojemności korzystamy z takich jednostek jak megabajty, gigabajty i terabajty w Big Data używa się petabajtów i zettabajtów. Dla zobrazowania 1 petabajt = 1 milion gigabajtów, a 1 zettabajt = milion petabajtów.
Jak tworzy się Big Data?
Wszystko, co robisz w sieci, jest przechowywane i monitorowane. Generujesz informacje, oglądając filmy na YouTube, grając w gry i pracując. Nawet podczas czytania tego artykułu są zbierane dane. Zastanawiałeś się kiedyś, dlaczego podczas słuchania muzyki w propozycjach pojawiają Ci się zespoły, które mają podobne brzmienie? Teraz znasz odpowiedź. Nawet smartfon stale odnotowuje, jakie aplikacje są akurat otwarte i w którym miejscu się znajduje.
Ciekawostką jest, że każdego dnia Facebook generuje ponad 500 terabajtów danych. Natomiast pojedynczy silnik odrzutowy w samolocie notuje ponad 10 terabajtów danych w ciągu 30 minut lotu, przez co linie lotnicze generują dziennie nawet do kilkuset petabajtów. Szacunkowo na koniec 2023 Big Data będzie liczyła 175 zettabajtów.
Historia Big Data
Cywilizacje starają się przechowywać i analizować dane od tysięcy lat. Pierwszym urządzeniem do wykonywania obliczeń zostało liczydło, później pojawiły się biblioteki, gdzie składowano wszystkie zapiski. Elektronikę wykorzystano dopiero podczas II wojny światowej, kiedy to Brytyjczycy stworzyli Colossusa – komputer do łamania nazistowskich szyfrów, działający z prędkością 5000 znaków na sekundę. Kolejny przełom nastąpił w 1965 roku, kiedy to rząd Stanów Zjednoczonych stworzył pierwsze w historii centrum danych, mogące pomieścić blisko 750 milionów deklaracji podatkowych i 175 milionów odcisków palców. Wszystkie te zapisy były gromadzone na magnetycznej taśmie.
Koncepcja Big Data jest stosunkowo nowa. Nazwy tej po raz pierwszy użyli pod koniec lat 90. XX wieku dwaj naukowcy NASA – Michael Cox i David Ellsworth. Jednak to dopiero powstanie World Wide Web (sieci ogólnoświatowej) i podłączenie do niej komputerów na dobre pogrzebało papierowe archiwa na rzecz tych cyfrowych. Bez podłączenia do Internetu urządzenia były jedynie coraz mocniejszymi kalkulatorami.
Analiza dużych zbiorów danych była utrudniona aż do roku 2005, kiedy to powstał Hadoop – narzędzie do przechowywania i rozproszonego przetwarzania informacji. Razem z tym narzędziem wykształciły się takie zawody jak: analityk danych, data scientist czy specjaliści ds. Big Data.
Jak działa Big Data?
Big Data to złożone ustrukturyzowane i nieustrukturyzowane zbiory danych. Te pierwsze można przechowywać w ustalonej przez nas formie np. tabelce, ponieważ zostały zebrane w zaprojektowanym wcześniej systemie (transakcja w banku, wypełnienie formularza na stronie).
Drugie pochodzą z wyników wyszukiwarki, wiadomości e-mail, plików tekstowych czy aktywności w mediach społecznościowych. Jest to zbiór wielu nieistotnych informacji, jednak niektóre z nich mogą się przydać. Istnieje wiele narzędzi analitycznych do pozyskiwania tych danych, a proces ten nazywamy mianem data mining (eksploracja danych).
Big Data – model 4V
Aby przybliżyć sobie działanie Big Data, warto poznać model 4V. Definiują go poniższe cechy:
- Volume (wielkość) – odnosi się do rozmiaru zestawu danych, które należy przechować i przeanalizować. Wymaga to specjalnych technologii i dużo mocniejszego procesora niż ten, którym dysponuje komputer osobisty.
- Velocity (szybkość) – w ciągu minuty portale społecznościowe rejestrują miliardy aktywności. Taki przyrost oznacza, że wiele z nich może szybko się zestarzeć, dlatego trzeba spieszyć się z ich analizą, żeby nie straciły swojej wartości.
- Variety (różnorodność) – dane pochodzą z różnych źródeł jak np. systemów transakcyjnych, social mediów i maszyn produkcyjnych. Ze względu na swoją różnorodność mają inny format, a analizowanie ich w tym samym momencie stanowi spore wyzwanie.
- Veracity (wiarygodność) – oprócz samej prędkości analizy wielkich zbiorów danych istotnym elementem jest dokładność. Jeśli jej wyniki będą nieprawidłowe, doprowadzi to do podejmowania błędnych decyzji.
Przykłady zastosowań Big Data
Wiedza jest towarem o najwyższej wartości, dlatego wiele firm bazuje na wykorzystywaniu Big Data w różnych zadaniach: od obsługi klienta, po tworzenia strategii rozwoju. Warto dodać, że oprócz korporacji z tych rozwiązań korzystają instytucje publiczne i wojskowe. Oto przykłady zastosowań dużych zbiorów danych.
- E-commerce – śledzenie nawyków zakupowych klientów i rekomendacje odpowiednich produktów. Jeśli klient w sklepie internetowym poszukuje zmywarki, to gdy wejdzie na dowolną stronę wyszukiwarki, zobaczy reklamy różnych propozycji zmywarek.
- Finanse – wykrywanie oszustw, analiza ryzyka inwestycji, obliczanie stóp procentowych.
- Media społecznościowe – prognozowanie trendów i tworzenie modeli nowych usług, które mogą stać się popularne w przyszłości.
- Opieka zdrowotna – analizowanie wyników badań, trafniejsza diagnostyka i szybsze opracowywanie nowych leków.
Zagrożenia i wyzwania związane z Big Data
Jednym z największych zagrożeń Big Data są zbyt duże rozmiary plików, przez co ich analiza staje się coraz to większym wyzwaniem. Żeby tego uniknąć, firmy wprowadzają pewne obostrzenia, np. ograniczenie ilości znaków w tweetach czy określenie maksymalnego rozmiaru zdjęcia profilowego.
Pomimo posiadania innowacyjnych narzędzi analitycznych, pozyskanie czystych informacji wymaga zaangażowania wielu osób.
Praca w Big Data – studia i zarobki
Praca w Big Data określana jest jako zawód przyszłości. Od kilku lat na polskich uczelniach można spotkać kierunki związane z przetwarzaniem i analizą dużych zbiorów danych. Warto zaznaczyć, że nawet jeśli już posiadasz ukończony jakiś kierunek, to nie musisz zaczynać kolejnego, jeśli chcesz pracować w sektorze Big Data. Studia podyplomowe dają możliwość zdobycia potrzebnej wiedzy.
Szacuje się, że liczba danych cyfrowych co dwa lata się podwaja, więc branża dopiero się rozkręca, a w przyszłości z pewnością powstanie wiele nowych stanowisk i wyzwań z nimi związanych. Zarobki w Big Data są duże, dlatego wiele młodych osób chciałoby podjąć pracę w tym sektorze. Początkujący analityk (junior) może liczyć na pensję w wysokości 6 000 – 12 000 zł brutto. Specjalista (mid) zarobi od 12 000 zł do 20 000 zł brutto. Natomiast starszy specjalista (senior) może liczyć na pensję nawet do 40 000 zł brutto.
Może Cię zainteresować: