Big data to zbiory danych o dużej objętości, różnorodności, zmienności oraz wartości. Pozyskiwanie dostępu do tych danych oraz ich przetwarzanie wspiera procesy decyzyjne, pozwala odkrywać wiedzę i optymalizuje procesy biznesowe, stanowiąc jedną z głównych charakterystyk tego fenomenu.
W przeciwieństwie do tradycyjnych, ustrukturyzowanych informacji zawartych w klasycznych bazach danych big data są mniej uporządkowane. Mogą one obejmować wiele zestawów danych, takich jak np. teksty, materiały wideo, dźwięki, dane pobrane z czujników i kamer. Ich analiza we wzajemnym kontekście pozwala na uzyskanie wartościowych informacji, które mogą być przydatne do rozwijania biznesu.
Aby mówić o big data, zbiór musi mieć duży rozmiar. Typowy zbiór big data liczy od kilku terabajtów (mały) do kilku petabajtów (duży).
Big data, czyli co?
Typowy zbiór big data ma wielkość kilku tysięcy terabajtów wytwarzanych, rozprowadzanych i wykorzystywanych w czasie od kilku sekund do kilku godzin. Zebrane dane mogą mieć postać strukturalną bądź niestrukturalną, więc niemożliwa jest analiza przy pomocy dotychczasowych narzędzi. Żeby je poprawnie analizować potrzebne są zasoby ludzkie i odpowiednie technologie do analizowania danych i zarządzania nimi. W analizie big data istotne jest rozszerzanie perspektyw i umiejętność znalezienia przemyślanego punktu widzenia i prognozowania.
Najczęściej mówi się, o trzech cechach big data (tzw. 3V):
- volume –ilość danych jest bardzo duża, musi być ona analizowana przez odpowiednią infrastrukturę informatyczną, żeby można nią było efektywnie zarządzać;
- variety – różnorodność danych, które pochodzą z różnych często niespójnych ze sobą źródeł;
- velocity – szybkość napływania nowych danych i ich analizy, w czasie zbliżonym do rzeczywistego.
Przy takich cechach niemożliwe jest traktowanie danych w sposób klasyczny, (jak choćby analizowanie wszystkich informacji, jakie posiadamy) i należy przyjąć do ich analizy odmienne założenia. Odmienność podejścia w big data wynika w szczególności z dwóch cech tego zjawiska czyli bezładu danych i korelacji pomiędzy nimi.
Wykorzystanie controllingu w systemie motywacyjnym przedsiębiorstwa
Bezład towarzyszy gromadzeniu i przetwarzaniu szybko napływających bardzo dużych ilości danych z różnych źródeł. Przy małej ilości danych naturalne było redukowanie ich liczby w celu zapewnienia ich wysokiej jakości. W dużych zbiorach danych nie ma możliwości osiągnięcia takiej jakości, ale to nie przeszkadza zobaczyć korzyści wynikających z ich analizy. Żeby je uzyskać, należy jednak zaakceptować bezład jako nieodzowną cechę zebranych danych, a nie traktować nieuporządkowanie jako coś, co należy wyeliminować.
Błędy nie są przeszkodą?
W zbiorach danych zawsze pojawiają się błędne liczby i zniekształcone informacje. Błędy nie przeszkadzają, jeśli udaje się poznać ogólny trend. Jeśli nie można im zapobiec, należy je tolerować, ponieważ tak długo jak jesteśmy w stanie przewidzieć generalny trend – dokładność przestaje być głównym celem analizy. Istotniejsze staje się wyszukanie trendu wśród danych, które można zebrać w szybki sposób i bez weryfikacji, dlaczego tak się dzieje. Błędy nie mogą mieć charakteru błędu systemowego – trzeba podkreślić, że ryzyko pojawienia się nagle błędu systemowego w ukształtowanym biznesie jest ograniczone.