Wizualizacja danych – dużo więcej, niż prezentacja

Citation
, XML
Authors
Michał B. Paradowski
Instytut Lingwistyki Stosowanej UW
(pierwotnie opublikowane w: Kluza, Maciej (Red.) (2011) Wizualizacja wiedzy: Od Biblia Pauperum do hipertekstu. Lublin: Wiedza i Edukacja, 37–60.)

Obraz jest wart więcej, niż tysiąc słów.

Rola obrazu we współczesnej kulturze

Większość z nas ma codziennie styczność z setkami, jeśli nie tysiącami obrazów. Ogromną popularnością cieszą się serwisy internetowe umożliwiające zamieszczanie i oglądanie filmów[1] i zdjęć[2], stanowiące zarazem dowód niebywałej popularności fotografii amatorskiej oraz rosnącego ekshibicjonizmu i voyeuryzmu społeczeństwa niemal na skalę epidemii. Aparat fotograficzny o przyzwoitej rozdzielczości w telefonie komórkowym już dawno przestał być luksusem, a stał się wymaganym przez konsumentów standardem, tak jak oczekuje się, że koncert gwiazdy muzycznej będzie jednocześnie multimedialnym widowiskiem – z czego doskonale zdawali sobie sprawę artyści od Michaela Jacksona przez Gotan Project po Lady Gagę. Coraz więcej koncernów przestawia się na organizację komunikacji wewnętrznej i zewnętrznej za pomocą prezentacji PowerPoint[3], podobnie jak podczas konferencji suche odczyty zastępowane są prezentacjami multimedialnymi, a książki ilustrowane dla dorosłych (np. kucharskie czy hobbistyczne) są społecznie akceptowaną i niezbędną pozycją każdej księgarni[4].

Nowoczesna kultura manifestuje się coraz bardziej „w tym i poprzez to, co wizualne”[5]. Nurt akcentujący rosnącą wszechobecność i znaczenie obrazu we współczesnej kulturze często bywa uznawany za reakcję na bazujące na filozofii języka Ludwiga Wittgensteina, strukturalizmie Levi-Straussa i Foucaulta i hermeneutyce Ricœura, Gadamera, Derridy czy Frye’a zwrot lingwistyczny i logocentryzm lat sześćdziesiątych i siedemdziesiątych minionego stulecia[6]. Zresztą analogicznie do nich bywa też określany jako przełom wizualny[7], zwrot obrazowy, piktorialny[8] lub ikoniczny[9], a nawet nieco euforycznie „rewolucja obrazów”[10]. O ile to, czy taka „rewolucja wizualna” w ogóle miała miejsce, jest kwestią sporną, trudno nie zauważyć, że dotychczasowa supremacja pisma jako zasadniczego środka epistemologicznego została nadwątlona. Pojmowanie rzeczywistości poprzez abstrakcyjny system znaków językowych stopniowo ustępuje miejsca wnioskowaniu na podstawie obrazów, które zdobywają coraz większe znaczenie, nie tylko wspomagając, ale coraz częściej również zastępując formy tekstowe[11]. Według niektórych badaczy, to przesunięcie od słowa do obrazu ma tak dalekosiężny wpływ na zdobywanie i rozpowszechnianie wiedzy, jak niegdyś przejście od przekazów ustnych do słowa pisanego – następstwem jest zmiana nie tylko formy produkcji i ekspresji wiedzy, ale również sposobu jej odbioru i przyswajania: nie linearnego i konsekutywnego, ale symultanicznego i holistycznego[12].

O ile w praktyce badawczej tradycyjnie wizualnie zorientowanych nauk (takich jak antropologia, archeologia, etnologia, folklor i historia sztuki) wizualizacje stosowane były już od połowy XIX w. jako środki wyrazu wytwarzanej wiedzy[13], o tyle obecnie awansowały one w coraz szerszym zakresie nauk humanistycznych, przyrodniczych i technicznych, ale także w kontekście pozaakademickim, do pozycji niezbędnego narzędzia produkcji, zachowywania, ekspresji, dystrybucji i asymilacji wiedzy[14]. W ten sposób dla rosnącej ilości publikacji i prezentacji wyników prac naukowych obraz przestał odgrywać rolę czysto ornamentacyjnego dodatku[15], a stał się jej clou, oczywistym i uprawnionym nośnikiem treści i narzędziem poznania – ma to miejsce szczególnie w tytułach medycznych. Procedury bazujące na obrazie coraz częściej stosowane są w bardzo wielu sferach nauki nie tylko w celu prezentacji, lecz także pomiarów, modelowania i eksperymentów, i pełnią kluczową rolę w konstytucji i organizacji wiedzy. Lekarz ogląda na ekranie komputera zdjęcie tomograficzne lub trójwymiarowy obraz ultrasonografu, polski astronom obraz z jednego z teleskopów Europejskiego Obserwatorium Południowego w Chile, a student medycyny witrynę Google Body[16], umożliwiającą trójwymiarową eksplorację anatomii ludzkiego ciała. Amerykańska National Science Foundation wspólnie z tygodnikiem „Science” od ośmiu lat organizują doroczny konkurs na najlepsze nowatorskie grafiki, fotografie i nagrania wideo poświęcone nauce i inżynierii. Wizualizacje bywają wykorzystywane do analizy materiału, wsparcia procesów decyzyjnych, odkrywania i śledzenia bieżących trendów społecznych i kulturowych, opowiedzenia historii, czy po prostu dla rozrywki. Korzysta z nich prasa, dziennikarze telewizyjnych programów informacyjnych, redakcje nowych mediów, blogerzy, biznes, gdzie trzeba szybko podejmować decyzje, reklama i marketing, autorzy sprawozdań finansowych i prezentacji naukowych i rysownicy komiksów[17]. Ta proliferacja form obrazowych i obrazowo-tekstowych hybryd to już więcej, niż tylko atrakcyjne wykresy i grafiki; to nowa forma komunikacji XXI wieku; tak powszechna, że ludzie z branży posługują się skrótem „infovis”.

Nie powinno to dziwić. Spośród preferowanych sposobów poznawania rzeczywistości oraz przetwarzania i przyswajania informacji u większości społeczeństwa dominuje modalność wizualna (nabywanie wiedzy najskuteczniej poprzez obrazy, diagramy, wykresy, pokazy[18]), a dopiero w następnej kolejności werbalna[19], ruchowa i dotykowa. W końcu samo słowo „wiedza” pochodzi od indogermańskiej formy woida oznaczającej „widziałem/widziałam”[20], zaś w języku angielskim pojęcie „rozumiem” często wyraża się słowami „I see”.  Jeden obraz jest w stanie w ułamku sekundy przekazać bardzo złożony, nielinearny komunikat, podczas gdy potencjał wyrażenia tej samej treści za pomocą słów może być bardzo ograniczony i wymagać wielu godzin lub zadrukowanych stron. Informację ilościową przedstawioną w nieprzetworzonej postaci numerycznej trudno przeanalizować; nasza możliwość dostrzeżenia prawidłowości w kolumnach liczb jest bardzo ograniczona, a im więcej danych, tym szybciej następuje zmęczenie czytelnika. Mimo to nawet w prestiżowych periodykach trafiają się tabele, które tylko frustrują i niczego nie komunikują: o nadmiernej szczegółowości, a zarazem znikomym potencjale przekazu, przeładowane informacją i tak szczelnie nabite cyframi, że wyłowienie treści z zalewu liczb jest praktycznie niemożliwe.

Wizualizacja danych

„Obraz ma największą wartość wtedy, kiedy sprawia, że dostrzegamy coś, czego się nigdy nie spodziewaliśmy”[21].

W największym skrócie wizualizacja danych to informacja w postaci obrazu, komunikująca treść za pomocą barw, kształtów, linii, układu i hierarchii, najlepiej podana ze szczyptą kreatywności. Łączy techniczne umiejętności obróbki, analizy i interpretacji nierzadko olbrzymich ilości nieuporządkowanych danych z zasadami estetyki, innowacyjnym dizajnem i interakcją. Prawdziwie mistrzowska wizualizacja to dużo więcej, niż suma jej składników – dzięki syntezie, integracji i koncentracji informacji a zarazem redukcji jej pozornej kompleksowości służy skondensowanemu przekazowi wiedzy, zwielokrotniając jej potencjał interpretacyjny w porównaniu z przekazem tekstowym[22]. Efektywne wizualne reprezentacje danych są zazwyczaj podbudowane wynikami badań naukowych nad percepcją wzrokową i psychologią percepcji[23] w celu ułatwienia rozumienia treści, równoległego, symultanicznego przetwarzania informacji[24] oraz unaocznienia zawartych w danych ważnych właściwości i szczegółów, takich jak zależności, reguły, trendy i prawidłowości, struktury, symetrie, podobieństwa, różnice między danymi i anomalie, które byłyby trudne do wykrycia przy pomocy metod czysto analitycznych. Bardziej efektywnie niż tekst wykorzystują nasz mózg, czynią złożone zbiory abstrakcyjnych danych łatwiej przystępnymi, pozwalają na ich dogłębną interpretację i rozumowanie abdukcyjne, a dzięki podaniu informacji w atrakcyjnym i innowacyjnym opakowaniu przyciągają uwagę, podtrzymują zaangażowanie odbiorcy, pozwalają mu zauważyć coś, czego inaczej by nie dostrzegł i ułatwiają zapamiętywanie informacji. Przykładem może być tutaj grafika obrazująca połączenia między niewielkim odsetkiem wszystkich użytkowników Facebooka[25] (rys. 1). Obok wiernego odwzorowania zarysów kontynentów od razu rzucają się w oczy ciemne plamy w miejscach, gdzie powinny znajdować się Chiny, Rosja i Brazylia. O ile sama wizualizacja nie jest w stanie odpowiedzieć na pytanie, jakie mechanizmy są odpowiedzialne za te absencje[26], o tyle przynajmniej szybko o nich alarmuje.

Rys. 1. Sieć połączeń między wybranymi użytkownikami Facebooka

Rodzaje wizualizacji danych

Wizualizacja danych może stawiać sobie jeden z trzech celów. Najczęściej myślimy o prezentacji informacji w formie graficznej, łatwo i szybko przyswajalnej dla przeciętnego (zazwyczaj masowego) odbiorcy, pomagającej zrozumieć duże ilości danych i szybko dostrzec ich najważniejsze aspekty.

Nie mniej istotna jest wizualizacja, która za cel stawia sobie weryfikację i potwierdzenie hipotez – ich testowanie, sprawdzanie poziomów istotności, przedziałów ufności, i tym podobne. Najbardziej cenna jest jednak wizualizacja będąca procesem mającym na celu analizę i eksplorację posiadanych danych celem zasugerowania wartych przetestowania hipotez odnośnie przyczyn zaobserwowanych zjawisk, oceny założeń, na których można oprzeć wnioskowanie statystyczne, wsparcia wyboru właściwych narzędzi i technik, uzupełniająca narzędzia konwencjonalnej statystyki do testowania hipotez, prowadząca do lepszego zrozumienia badanego zjawiska i stanowiąca podstawę dalszego zbierania danych[27]. Dla analizy eksploracyjnej kluczowa jest możliwość aktywnej interakcji z wizualizacją. Możliwe cele badawcze wizualizacji eksploracyjnej (oraz po części konfirmacyjnej) to[28]:

          ocena kompletności i prawidłowości zebranych danych,

          detekcja wyjątków, anomalii i obserwacji odstających,

          rozpoznanie i zrozumienie trendów, tendencji, podobieństw i symetrii zarówno w mikro-, jak i makroskali,

          wyodrębnienie skupień,

          porównanie różnic między grupami,

          analiza związków między danymi i odkrycie nieoczywistych właściwości i korelacji,

          weryfikacja założeń, np. dot. rozkładu danych, ewaluacja konkurencyjnych hipotez, dotarcie do najbardziej prawdopodobnych wytłumaczeń i sformowanie nowych możliwych teorii,

          kontrola jakości, pomiar postępów, obserwacja procesu w czasie, oraz

          przewidzenie i ocena przyszłych potencjalnych trendów, wydarzeń, możliwości, zagrożeń i szans oraz ich skali.

Rola symulacji

Szczególne miejsce w wizualizacji danych zajmują symulacje. Nie są one bynajmniej wynalazkiem nowym. Już chińscy generałowie półtora tysiąclecia przed Konfucjuszem przeprowadzali symulacje skomplikowanych operacji militarnych bez poświęcania życia jednego żołnierza, dzięki czemu byli później w stanie pokonywać nierzadko liczebnie przeważające armie wroga[29]. Obecnie symulacje i modele matematyczne wykorzystuje się przede wszystkim do analizy i obrazowania zdarzeń i procesów logistycznie trudnych do realizacji, których przeprowadzenie empiryczne zostałoby zablokowane przez komisję etyki, obarczonych wysokim poziomem ryzyka (np. symulacje zabiegów chirurgicznych), czaso- i/lub kosztochłonnych, zbyt złożonych, aby można było przewidzieć ich wyniki za pomocą metod analitycznych[30], oraz zjawisk niewidzialnych dla ludzkiego oka, zachodzących bardzo szybko lub bardzo wolno, w mikro- lub makroskali (np. kosmicznych lub na poziomie cząstek elementarnych).

Wizualizacja dziś

„Stale powtarzam, że najbardziej seksownym zawodem najbliższej dekady będzie statystyk”[31].

Mówiąc „statystyk”, Varian ma na myśli osobę potrafiącą z dużych zbiorów danych wydobyć przydatną informację i przedstawić ją niespecjalistom w łatwo przyswajalny sposób. Taka interdyscyplinarna data science wymaga umiejętnego połączenia znajomości[32]:

          programowania – pozyskiwania, czyszczenia, formatowania i przetwarzania danych,

          matematyki i analizy statystycznej, filtrowania i eksploracji danych,

          sztuki projektowania grafiki – obrazowania danych w formie wykresów i grafik i ich udoskonalania[33],

          narzędzi projektowania interfejsu użytkownika, oraz, nierzadko,

          nauk społecznych i

          opowiadania historii.

Do popularności i niedawnego powszechnego wzrostu roli i znaczenia wizualizacji przyczynił się szereg czynników:

1.      fakt, że żyjemy w erze liczb, w której wszystko podlega mierzeniu i liczeniu (od rankingów uczelni i punktów za publikacje naukowe i cytowania przez skuteczność zabiegów medycznych, wielkość sprzedaży i statystyki policyjne po oglądalność programów telewizyjnych i witryn internetowych i liczbę „fanów” na Facebooku);

2.      przyrastające w tempie wykładniczym ogromne ilości bogatych źródeł danych[34] i ich powszechna dostępność, poczynając od

          kulturowej zmiany oczekiwań społecznych oraz ustawodawstwa o jawności i powszechnym dostępie do informacji, które otworzyło sezam wcześniej nieosiągalnych danych rządowych, agend i instytucji państwowych (już nie tylko urzędów statystycznych) oraz przedsiębiorstw, poprzez

          organizacje pozarządowe, które zbierają i ujawniają dane w celu wywołania reakcji i przekonania opinii publicznej o słuszności ich działalności, oraz demaskatorskie i whistleblowerskie źródła jak WikiLeaks, dzięki którym światło dzienne mogą ujrzeć dokumenty z klauzulą tajności, kończąc na

          rzeszach internautów, którzy nie tylko mogą dynamicznie współtworzyć treść internetu, ale dzielą się coraz bardziej prywatnymi informacjami, spontanicznie indeksują nieuporządkowane treści porządkując je i tworząc oddolną „folksonomię”[35], a całą swoją aktywnością online dostarczają bardzo interesujących informacji, głównie dla badaczy zjawisk społecznych i pokrewnych, oraz

          rosnącym wykształceniu i zamożności społeczeństwa, co napędza produkcję informacji;

3.      rozwój technik informacyjnych:

          internetu, którego zasięg umożliwia zbieranie i dzielenie się bogatymi zbiorami informacji, w tym serwisów społecznościowych udostępniających furtki API, pozwalające na śledzenie aktywności użytkowników w czasie rzeczywistym. Ten dostęp do ogromnych ilości wzajemnie powiązanych danych oraz szybkość ich zdobywania i analizy rewolucjonizują współczesne metody badawcze,

          pojawienie się szeregu coraz bardziej zaawansowanych, wyspecjalizowanych narzędzi z intuicyjnymi interfejsami obsługi do pobierania danych, ich analizy i prezentacji wyników w formie kreatywnych i technicznie finezyjnych artefaktów wizualnych bez konieczności znajomości zaawansowanego programowania, takich jak Excel, Flare, Gephi, Gapminder, GraphViz, Adobe Illustrator, Inkscape, MatLab, ManyEyes, Processing, Python, R, Swivel, Tableau, XmdvTool i wiele innych, dzięki którym prosty arkusz kalkulacyjny może przejść metamorfozę nie do poznania,

          postęp technologiczny, szczególnie w dziedzinie środków masowego przekazu, oraz

          prawo Moore’a: wykładniczy (co dwa lata) wzrost mocy obliczeniowej i pojemności pamięci komputerów i pokrewnego sprzętu[36] wraz ze spadkiem ich cen oraz możliwość przeprowadzania analiz w chmurach obliczeniowych;

4.      rozpowszechnienie technik analitycznych i umiejętności interdyscyplinarnych – studenci grafiki coraz częściej mają zajęcia z programowania i projektowania interfejsu użytkownika, uzupełniając swoje doświadczenie w kreatywnym dizajnie o umiejętności informatyczne, zaś informatycy mogą się nauczyć podstaw projektowania. W ten sposób pojawia się forpoczta dizajnerów informacji[37] (Lau i Vande Moere 2007);

5.      rosnąca rola estetyki – media, szczególnie online, coraz chętniej wykorzystują atrakcyjność przekazu wizualnego, aby przyciągnąć uwagę czytelników, napędzając nieustanny wyścig w wymyślaniu coraz to nowych form obrazowych.

Historia

Orędownikiem nowoczesnej naukowej wizualizacji danych był John Tukey[38], który postulował wartość wielowymiarowych wizualizacji w naukach społecznych. Od tej pory coraz więcej badaczy, z Edwardem Tufte[39] na czele, zaczęło przekonywać o obiecującym potencjale zastosowania wizualizacji do analizy najrozmaitszych danych. Niemniej w historii nauki znane są liczne wcześniejsze przykłady używania wizualizacji jako instrumentów demonstracyjnych i perswazyjnych. Już od przełomu XVIII i XIX wieku prezentacja wyłącznie ustna spotykała się z surową krytyką publiczną, podczas gdy projekcje slajdów (wcześniej stosowanych wyłącznie w celach rozrywkowych, na jarmarkach czy w lunaparkach) stopniowo stały się standardowym elementem wykładów akademickich[40], które służyły wtedy nie tyle zwykłemu przekazywaniu wiedzy, co raczej unaocznieniu samego procesu naukowego poznania[41]. Było to też związane ze specyficzną koncepcją obiektywności późnego wieku XIX[42]. Prezentacjom wizualnym przypisany został przy tym status dowodu[43]. Na przykład do sukcesu psychologii postaci przyczyniły się w dużej mierze filmy, które w latach dwudziestych i trzydziestych minionego stulecia Kurt Lewin własnoręcznie kręcił i używał w swych wykładach. Wizjoner Paul Otlet jeszcze na początku ubiegłego stulecia przepowiadał, że obrazy, schematy i diagramy, stanowiące niejako syntezę i uniwersalną gramatykę języka wymiany wiedzy zyskają przewagę nad tekstem, co będzie miało konsekwencje nie tylko dla organizacji wiedzy, ale i społeczeństwa w ogóle.[44]

Jednym z najważniejszych podręcznikowych przykładów wizualizacji danych jest kartografika z 1869 roku (rys. 2) autorstwa pioniera zastosowania grafiki w statystyce, Charlesa Minarda[45], ukazująca przebieg rajdu Napoleona na Moskwę, która na jednym dwuwymiarowym wykresie obrazuje zależności między całym szeregiem zmiennych:

          geograficznym położeniem miejscowości i przepraw, przez które kroczyła armia wodza, kierunkiem marszu oraz miejscami, w których wojska się rozpraszały i na powrót łączyły,

          kurczącą się liczebnością armii,

          ramami chronologicznymi, oraz

          panującymi podczas odwrotu temperaturami.

Rys. 2. Obrazowa mapa strat armii francuskiej podczas kampanii napoleońskiej 1812–1813

Nieco wcześniej, w roku 1858, patronka pielęgniarek Florence Nightingale pokazała diagram biegunowo-polowy (połączenie diagramu kołowego i warstwowego) celem zwrócenia uwagi na wagę higieny i zilustrowania przyczyn zgonów pacjentów, którzy podczas wojny krymskiej trafiali do szpitala polowego w Stambule.

Typy wykresów i infografik – od klasycznych po eksperymentalne

„Wizualizacja danych to trochę jak fotografia: zamiast zaczynać od pustego płótna tak manipulujemy ogniskową, żeby naświetlić obraz z wybranej perspektywy”[46].

Dobrze znane mapy, taśmy czasu, histogramy i wykresy kołowe są powszechnie stosowane, ale popularne i skuteczne w przekazywaniu treści stają się też kreatywne i nowatorskie metody. Dane mogą być przedstawione w formie statycznej infografiki, ruchomego wykresu, nagrania wideo lub interaktywnego oprogramowania czy aplikacji online, umożliwiających dynamiczną interakcję i eksplorację danych pod kątem indywidualnych zainteresowań użytkownika.

Wybór właściwej techniki mapowania (metody przełożenia zbioru abstrakcyjnych danych na język wizualny) zależy od szeregu czynników, takich jak:

          atrybuty danych: ich format, czyli skala pomiaru (nominalna/porządkowa/interwałowa/ilorazowa…), ilość obserwacji, ilość zmiennych (wymiarów); rozkład (normalny/funkcja unimodalna/funkcja liniowa/rozkład potęgowy…), istotność statystyczna, obserwacja podłużna (zależność od chronologii, z wzrostami i spadkami lub trendami sezonowymi…) lub przekrojowa,

          kontekst,

          intencje autora i pytanie, co chcemy przedstawić, oraz

          oczekiwania odbiorcy.

Istnieje szereg algorytmów i aplikacji pozwalających na wybór najwłaściwszej techniki mapowania w zależności od typu danych, celu i kontekstu[47].

1. Wizualizacja proporcji

          wykres kołowy – oswojony sposób pokazywania proporcji, szczególnie popularny w biznesie i mediach. Poszczególne wartości stanowią wycinki „tortu”, z powierzchnią odpowiadającą procentowej wartości elementów składowych (np. dla zilustrowania wyników wyborów). Dla wyróżnienia niektórych wartości, odpowiadające im kawałki mogą być wysunięte;

          wykres pierścieniowy – podobny do kołowego, ale może przedstawić wiele serii danych (por. też jego warstwową modyfikację ukazującą ewolucję udziału przeglądarek internetowych w rynku; rys. 3)[61];

Rys. 3. Udział przeglądarek internetowych w rynku

          drzewo słów[48] – wizualny odpowiednik tradycyjnego oprogramowania do analizy korpusowych i wyszukiwania wyrazów w tekście prozatorskim lub poetyckim. Pokazuje konteksty językowe, w których pojawia się wybrane wyrażenie (słowo lub ich grupa), uporządkowane w rozgałęzionej strukturze drzewiastej, ujawniając powtarzające się tematy lub frazy, z rozmiarem czcionki odpowiadającym częstości użycia danego wyrażenia;

          drzewo-mapa[49] – wizualizacja struktur hierarchicznych, tworząca „mapę” prostokątów o powierzchni proporcjonalnej do względnej wartości atrybutu i kolorach odpowiadających drugiej zmiennej; działa szczególnie, kiedy dane mają strukturę hierarchiczną z kategoriami nadrzędnymi i potomnymi. Pozwala na porównanie kategorii i podkategorii o różnym poziomie głębokości i zauważenie prawidłowości i wyjątków. Przykładem może być mapa 100 witryn internetowych z największą ilością użytkowników[50] (rys. 4) oraz Newsmap[51] obrazująca w czasie rzeczywistym krajobraz tematyczny serwisu wiadomości Google News (rys. 5);

Rys. 4. BBC, 100 stron w internecie z największą ilością użytkowników

Rys. 5. M. Weskamp, Newsmap

          diagram drzewiasty – dla zobrazowania struktur hierarchicznych[52].

2. Porównanie kilku wartości

          histogram (wykres słupkowy) – klasyczna metoda porównywania wartości jednej zmiennej dla różnych kategorii (dodatkową zmienną można oznaczyć innym kolorem). Wymaga danych dyskretnych; możliwy również dla szeregów czasowych, kiedy mamy do czynienia z niedużą ilością równomiernie rozmieszczonych odrębnych zdarzeń w czasie (w przypadku bardziej ciągłych danych lepiej użyć wykresu liniowego), a poszczególne wartości są ważniejsze niż trend. Skumulowany, może pokazywać proporcjonalny wkład kilku składników reprezentujących logiczne składowe większej całości. Należy go unikać przy dużej ilości danych, kiedy słupki zapychają obraz, a oznakowania mogą stać się nieczytelne. Odmianą histogramu jest wykres wyskokowy[53], który pozwala śledzić wyniki tych samych obiektów na tle szeregu kryteriów i zaobserwować, które spisują się lepiej lub gorzej od przeciętnej i jak ich wartości się zmieniają;

          wykres bąbelkowy – prezentuje zbiór danych numerycznych w postaci kół, których pole odpowiada ich wartości; przydatny dla zbiorów danych z dziesiątkami lub setkami pozycji (gdyż format pozwala zmieścić wszystkie wartości na względnie niewielkiej powierzchni), lub których wartości różnią się o rzędy wielkości. Dobrym przykładem wykresu bąbelkowego jest ilustracja 300 tysięcy (sic!) najczęściej odwiedzanych witryn internetowych[54] (rys. 6). Wykres bąbelkowy może stanowić ewolucję wykresu punktowego, gdzie punkty są wyskalowane według dodatkowego kryterium, co pozwala na jednoczesne pokazanie dwóch wymiarów zmieniających się w czasie, jak np. w aplikacji Gapminder[55] przemieniającej arkusz kalkulacyjny w zaawansowany, dynamiczny wykres, obrazujący zmiany w kilku szeregach zmiennych. Wartości ujemne często są przedstawiane innym kolorem, jak np. w infografice obrazującej procesy sądowe w światowej branży telekomunikacyjnej[56] (rys. 7), ale gdy jest ich wiele, lepiej użyć histogramu. Są różne opinie co do efektywności diagramów bąbelkowych; niektórzy uważają, że ludzie mają trudności z porównywaniem powierzchni kół (lub powierzchni w ogóle), inni, że wymaga to tylko przyzwyczajenia i treningu oka[57];

Rys. 6. 300 tysięcy najczęściej odwiedzanych witryn internetowych
Rys. 7. Procesy sądowe w branży telekomunikacyjnej

          chmura tagów (rys. 8) – kuzynka diagramu bąbelkowego; czytelne graficzne zobrazowanie częstości występowania poszczególnych słów lub zbitek wyrazowych w wybranym tekście, gdzie wielkość wyrazu jest proporcjonalna do częstotliwości jego występowania. Można użyć jej np. do podsumowania treści tekstu lub tożsamości osoby. Jest szczególnie odpowiednia dla długich tekstów i bardzo często wykorzystywana do analiz zawartości serwisów społecznościowych. Metoda zazwyczaj pozwala na odfiltrowanie wyrazów semantycznie niesamodzielnych, pozwala też porównać stosunkową częstość występowania słów w dwóch różnych tekstach. Jej mankamentem jest faworyzowanie dłuższych wyrazów i słów zawierających wiele wysokich liter oraz uznawanie różnych form fleksyjnych tego samego wyrazu za różne leksemy; czasami lepszą alternatywą jest zwykła tabela (np. wyświetlona w programie do analizy korpusowej), histogram lub wykres bąbelkowy. Niektóre mutacje chmury tagów[58] pozwalają na bardziej ekonomiczne wykorzystanie przestrzeni typograficznej (małe słowo może pojawić się w środku większego wyrazu);

Rys. 8. Chmura słów z odczytu noblowskiego Wisławy Szymborskiej z dnia 7 grudnia 1996 r., wygenerowana przy pomocy interfejsu wordle.net po ujednoliceniu form fleksyjnych i odfiltrowaniu zaimków i funktorów gramatycznych

3. Śledzenie zmian w czasie

          wykres liniowy – jedna z najprostszych i najbardziej uniwersalnych metod wizualizacji ciągłych zmian, np. wartości indeksów giełdowych lub wahań temperatur; niezależna od ilości obserwacji, dla jednego lub kilku szeregów czasowych (wtedy wartości powinny być znormalizowane; dla wielu sumujących się obserwacji można zastosować wykres warstwowy); stosowana, kiedy pokazanie trendu jest ważniejsze od wartości poszczególnych danych. Wartości są kreślone na dwóch osiach (o skali liniowej lub logarytmicznej). Ma zastosowanie dla danych, gdzie oś odciętych ma skalę interwałową (w innym przypadku należy użyć histogramu; natomiast gdy obserwacje są nierównomiernie rozmieszczone, wykresu punktowego). Dla dużych wahań często wskazany jest wykres wygładzony (rys. 9)[59];

Rys. 9. Wykres obrazujący dyfuzję neologizmu w hermetycznym systemie, z dwiema skalami na osi rzędnych (procentową i absolutną)

          wykres warstwowy – metoda wizualizacji zmian w czasie dla szeregu zmiennych, gdzie suma wartości jest równie ważna, co wartości poszczególnych szeregów danych (np. do śledzenia przychodów lub wydatków z różnych źródeł działalności); używany, kiedy mamy wiele obserwacji w czasie i zbyt mało miejsca dla mnóstwa słupków. Stosowany tylko dla wartości o tym samym znaku, które ma sens logicznie sumować. Ponieważ na tego typu wykresie trudniej ocenić wartości poszczególnych elementów składowych, tam, gdzie ważna jest precyzja lub możliwość porównania, lepiej użyć wykresu liniowego[60];

          taśma czasu – kiedy najbardziej zainteresowani jesteśmy czasem wystąpienia wydarzenia; może wchodzić w kombinacje z innymi metodami, niepraktyczna dla zbyt wielu zdarzeń;

          diagram promieniowy – dla cyklu 12-godzinnego;

          matryca czasowa – przedstawia skalę o innej rozdzielczości na osi rzędnych (np. miesiące/dni) i innej na osi odciętych (np. lata/tygodnie); dobra do pokazywania prawidłowości okresowych lub sezonowych;

          animacja – może być w formie połączenia statycznych wykresów w film, lub interaktywna z filtrami i możliwością manipulacji perspektywą, umożliwiającymi porównanie zachowania wielu zmiennych.

4. Obserwacja zależności między danymi

          wykres punktowy – klasyczny wszechstronny diagram pozwalający zobrazować związki między zmiennymi numerycznymi, gdzie współrzędne każdego punktu (na osiach x i y, o skali liniowej lub logarytmicznej) odpowiadają jego wartości, a wielkość może reprezentować trzecią zmienną; również do śledzenia zmian w czasie dla bardzo dużej ilości nierównomiernie rozłożonych obserwacji;

          diagram sieciowy – obrazuje strukturę powiązań między obserwacjami, np. w internecie lub sieciach społecznych; przedstawia obiekty (wierzchołki) połączone krawędziami (w przypadku sieci skierowanych strzałkami). Silniej powiązane jednostki zazwyczaj są przedstawiane bliżej siebie, a rozmiar punktów często jest proporcjonalny do ilości łączących się z nimi krawędzi. W połączeniach tkwi informacja; wystarczy jeden rzut oka, żeby wskazać obiekty z największą ilością krawędzi, węzły, wokół których skupiają się jednostki spajające różne podgrupy oraz te osamotnione przez brak kontaktów. Diagramy sieciowe mają wielorakie zastosowania. W dużych metropoliach często nosimy przy sobie kieszonkowe mapki ze schematem połączeń komunikacji miejskiej. Dyrektor firmy może wykorzystać graf, żeby skontrolować, czy piony marketingu i sprzedaży kontaktują się ze sobą, planiści przestrzenni, żeby monitorować integrację lub odizolowanie osiedli, administratorzy sieci do monitorowania bezpieczeństwa, biolodzy, by odkryć interakcje między genami[62]. W analizach tekstu można użyć sieci fraz[63], która obrazuje zależności występujące między słowami w tekście, tworząc diagram sieciowy zbitek wyrazowych odpowiadających predefiniowanemu wzorcowi składniowemu, gdzie wielkość słowa jest proporcjonalna do ilości jego wystąpień w wyszukiwanej strukturze, grubość strzałek między wyrazami do ilości ich wspólnych wystąpień w jednej frazie, a nasycenie koloru słowa do częstości jego pojawiania się na pierwszej pozycji. Sieć fraz oferuje wgląd w użyte w tekście pojęcia (jak np. syntezę treści, związki między postaciami utworu, ich emocje i postawy, drzewo genealogiczne rodu, powiązane pojęcia czy stan posiadania). Zazwyczaj pomija najczęstsze słowa w danym języku;

          diagram Venna – służy zilustrowaniu zależności między zbiorami (sumy, iloczynu, inkluzji…), reprezentowanymi przez figury geometryczne. Ciekawym przykładem jest Google Suggest Venn Diagram Generator[64], interfejs generujący diagram (rys. 10) obrazujący najczęściej wpisywane w wyszukiwarkę zapytania, które zaczynają się od podanego przez użytkownika kontekstu, i pokrywające się frazy dla podanych przez niego wyrażeń. Ponieważ propozycje wyszukiwarki oparte są na algorytmie bazującym na popularności wyszukiwanych pojęć, wiele podpowiedzi odzwierciedla częste stereotypy;

Rys. 10. Przykładowa ilustracja pokrywania się częstych zapytań do wyszukiwarki Google, wygenerowana przez Google Suggest Venn Diagram Generator

5. Dystrybucja geograficzna i zależności przestrzenne

          mapa – nakłada wartości danych na regiony geograficzne; stosowana do obserwacji przestrzennych zależności między danymi. Przykładem może być dynamiczna mapa izorytmiczna, w nieco ponad minutę ukazująca ewolucję krajobrazu sympatii politycznych Amerykanów w wyborach prezydenckich na przestrzeni ostatniego stulecia (rys. 11) i ogólne trendy (np. skupiska wsparcia koncentrujące się wokół aglomeracji miejskich[65]), albo wygenerowana jedynie w oparciu o działalność internautów mapa miejsc w Warszawie (rys. 12)[66], gdzie autochtoni i turyści najchętniej robią zdjęcia[67];


Rys. 11. Izorytmiczna historia wyborów w dwupartyjnych Stanach Zjednoczonych
Rys. 12. Gdzie miejscowi i turyści robią zdjęcia w Warszawie

          kartogram równopowierzchniowy – ukazuje geograficzny rozkład wybranej zmiennej. Ponieważ na tradycyjnych mapach duże regiony są eksponowane kosztem mniejszych, na kartogramie równopowierzchniowym terytoria są przeskalowane proporcjonalnie do wartości reprezentowanej zmiennej (np. populacji) przy próbie zachowania ich kształtów i wzajemnego położenia[68]. Ma zastosowanie tylko dla zmiennych o wartości dodatniej[69].

6. Wizualizacje interaktywne

Dzięki wykorzystaniu technologii takich jak flash czy HTML5 pozwalają użytkownikowi na samodzielną eksplorację zbioru danych poprzez dynamiczną manipulację obrazem i przechodzenie od danych ogólnych do bardziej szczegółowych i z powrotem dzięki czynnościom takim jak filtrowanie, zbliżanie, obracanie i przesuwanie. Wizualizacja nie jest tutaj produktem końcowym, ale procesem, środkiem, za pomocą którego użytkownik może nawiązać dialog z danymi, zrozumieć złożone zjawiska i ukryte w nich prawidłowości i testować własne hipotezy z różnych perspektyw.

Oczywiście istnieją też niezliczone kombinacje i warianty powyższych metod.

Autor dziękuje Minowi Chenowi, Guillaume’owi Dumasowi, Sébastienowi Heymannowi, Monice Konieczny, dr. Janowi Kozłowskiemu, Taivowi Lintsowi i Witkowi Woickiemu za dyskusję, cenne sugestie i źródła bibliograficzne oraz dr. Maciejowi Kluzie za wnikliwą korektę.


[1] Np. YouTube z ponad 2 miliardami odwiedzin dziennie i 35 godzinami materiału filmowego zamieszczanymi co minutę, gdzie najpopularniejsze nagrania mają oglądalność rzędu kilkuset milionów (http://www.youtube.com/t/press_timeline), czy Vimeo z 16 tysiącami nowych filmów wgrywanymi codziennie już w 2008 roku (Murph 2008).

[2] Np. Flickr z ponad 5 miliardami zdjęć (http://blog.flickr.net/en/2010/09/19/5000000000/) czy Picasa Web Albums.

[3] J. Yates, W. Orlikowski, The PowerPoint presentation and its corollaries: How genres shape communicative action in organizations, w: Communicative Practices in Workplaces and the Professions: Cultural Perspectives on the Regulation of Discourse and Organizations, red. M. Zachry, C. Thralls, Amityville 2007, s. 67–91.

[4] W sklepie internetowym Amazon.com słowo „visual” pojawia się w 28.292 różnych tytułach dostępnych książek.

[5] G. Boehm, Die Wiederkehr der Bilder. w: Was ist ein Bild?, Monachium 1994, s. 11–38.

[6] W. Kawecki, Od kultury wizualnej do teologii wizualnej, „Kultura – media – teologia” 2010, nr 1 (1), s. 23–31.

[7] C. Maar, H. Burda, Iconic Turn. Die neue Macht der Bilder, Kolonia 2004.

[8] W.J.T. Mitchell, The Pictorial Turn, „ArtForum” 1992, nr 30 (7), s. 89–94.

[9] G. Boehm, Die Wiederkehr der Bilder, op. cit.

[10] V. Flusser, Die Revolution der Bilder. Der Flusser-Reader zu Kommunikation, Mannheim 1996.

[11] B. Schnettler, Auf dem Weg zu einer Soziologie visuellen Wissens, „Sozialer Sinn” 2007, nr 8 (2), s. 189–210.

[12] Ibidem, s. 191, 198.

[13] J. Collier, Visual Anthropology. Photography as a Research Method, Nowy Jork 1967; M. Mead, Visual anthropology in a discipline of words, w: Principles of Visual Anthropology, red. P. Hockings, Haga 1975, s. 3–10.

[14] B. Schnettler, Auf dem Weg…, op. cit. s. 196.

[15] M. Faßler, Bildlichkeit. Navigationen durch das Repertoire der Sichtbarkeit, Stuttgart 2002, s. 11.

[17] Takich jak kultowe Piled Higher and Deeper (http://www.phdcomics.com/comics.php) czy http://www.xkcd.com.

[18] W.B. Barbe, M.N. Milone, What we know about modality strengths, „Educational Leadership” 1981, nr 38 (5), s. 378–380; R.M. Felder, J. Spurlin, Applications, reliability and validity of the Index of Learning Styles, „Int J Engng Ed” 2005, nr 21 (1), s. 103–112. Zresztą już Ksenofont zwracał uwagę na zasadniczą rolę, jaką obraz pełni w przywoływaniu pamięci; Ξενοφῶν, Οίκονομικός, IV w. p.n.e.

[19] Przyswajanie informacji poprzez mowę i pismo, dźwięki, wzory i formuły.

[20] A. Walde, Lateinisches etymologisches Wörterbuch, Heidelberg, t. II, s. 1938–1956.

[21] J.W. Tukey, Exploratory Data Analysis, Addison–Wesley 1977, s. vi.

[22] B. Schnettler, Auf dem Weg…, op. cit., s. 200.

[23] C. Ware, Visual Thinking for Design, Burlington 2000.

[24] M. Carswell, C.D. Wickens, Information integration and the object display: An interaction of task demands and display superiority, „Ergonomics” 1987, nr 30 (3), s. 511–527.

[26] O ile rząd ChRL blokuje dostęp do portali społecznościowych, w związku z czym mieszkańcy Państwa Środka posiadający konta w tych serwisach mogą się do nich logować tylko poprzez tunele VPN, serwery pośredniczące i oprogramowanie do szyfrowania i anonimizowania danych takie jak Tor, o tyle w Rosji serwisowi Marka Zuckerberga nie udało się przełamać dominacji portalu Vkontakte, a w Brazylii popularności serwisu Orkut.

[27] S.W. Card, J.D. Mackinlay, B. Shneiderman (red.) Readings in Information Visualization: Using vision to think, Morgan Kaufmann, San Francisco 1999 L.T. Fernholz, S. Morgenthaler, Conversation with John W. Tukey and Elizabeth Tukey, „Statist Sci” 2000, nr 15 (1), s. 79–94; C. Ware, Information Visualization – Perception for Design, Morgan Kaufmann, San Francisco 2000; C. Chen, Information Visualization – Beyond the Horizon (wyd. 2), Springer, Londyn 2004; R. Spence, Information Visualization – Design for Interaction (wyd. 2), Pearson Education, Harlow 2006.

[28] Rozwinięte za: C.H. Yu, J. Behrens, The alignment framework for data visualization: Relationships among research goals, data types, and multivariate visualization techniques, referat wygłoszony na Annual Meeting of Society for Computer in Psychology, Los Angeles, CA 11.1995; dostępny na: http://www.creative-wisdom.com/alignment/alignment.html; A. Johnson, Visual analytics, http://www.evl.uic.edu/aej/491/, 28.11.2010.

[29] Sūn Wǔ, 孫子兵法, 吳國, ok. VI w. BC.

[30] Częste zastosowanie ma tutaj opracowana przez Stanisława Ulama metoda Monte Carlo.

[31] H. Varian, On how the Web challenges managers, „McKinsey Quarterly”, http://www.mckinseyquarterly.com/Hal_Varian_on_how_the_Web_challenges_managers_2286, 01.2009.

[32] Adaptacja za: B.J. Fry, doctoral diss., Computational Information Design, MIT, 2004; dostępna na: http://www.benfry.com/phd/dissertation-050312b-acrobat.pdf.

[33] Infografiki były już zresztą wystawiane w galeriach (np. nowojorskich MoMA i Whitney) oraz, jeszcze w latach trzydziestych ubiegłego wieku, w domach towarowych (np. wystawy Otto Neuratha w Hadze; C. van den Heuvel, Building society, constructing knolwedge, weaving the web: Otlet’s visualizations of a global information society and his concept of a universal civilization, w: W. B. Rayward, European Modernism and the Information Society. Informing the present, understanding the past, Ashgate, Londyn 2008, ss. 127-53).

[34] Tak ważnych, a zarazem trudnych do przetworzenia, że ukuto dla nich termin „big data”. Informacje te bywają tak samo cenne, co inne aktywa; wystarczy spojrzeć choćby na Google. Dzisiaj Oscar Wilde nie powiedziałby już „Bardzo smutne jest to, że dziś jest tak mało bezużytecznej informacji”, jak to uczynił w 1894 roku (A few maxims for the instruction of the over-educated, Saturday Review 17.11.1894).

[35] K.N. Cukier, Needle in a haystack. The uses of information about information. Data, data everywhere. A special report on managing information. The Economist, 27.02.2010, s. 11.

[36] Kiedy w roku 2000 rozpoczął się program obserwacyjny nieba Sloan Digital Sky Survey, w ciągu jego pierwszych tygodni teleskop w obserwatorium Apache Point w Nowym Meksyku zebrał więcej danych, niż cała wcześniejsza historia astronomii (K.N. Cukier, Data, data everywhere. A special report on managing information. The Economist, 27.02.2010, s. 1). Jego następca, Large Synoptic Survey Telescope, którego uruchomienie planowane jest na rok 2016, ma gromadzić 30 terabajtów informacji każdej nocy (M. Stephens, Mapping the universe at 30 Terabytes a night, The Register, 03.10.2008, http://www.theregister.co.uk/2008/10/03/lsst_jeff_kantor/). Eksperymenty przeprowadzane w Wielkim Zderzaczu Hadronów pod Genewą już teraz generują 40 terabajtów informacji na sekundę (K.N. Cukier, All too much. Monstrous amounts of data. Data, data everywhere. A special report on managing information. The Economist, 27.02.2010, s. 3).

[37] A. Lau, A. Vande Moere, Towards a model of information aesthetics in information visualization, „IEEE International Conference on Information Visualisation”, Zurych 2007, s. 87–92. Dostępne na: http://web.arch.usyd.edu.au/~andrew/publications/iv07.pdf.

[38] J.W. Tukey, Exploratory Data Analysis, op. cit., idem, We need both exploratory and confirmatory, „The American Statistician” 1980, nr 34, s. 23–25.

[39] E.R. Tufte, Visual Explanations: Images and Quantities, Evidence and Narrative, Cheshire 1997; idem, The Visual Display of Quantitative Information, Cheshire 2001.

[40] Szczególnie w naukach przyrodniczych i historii sztuki

[41] B. Schnettler, Auf dem Weg…, op. cit., s.197

[42] Ibidem, s. 198.

[43] L. Daston, P. Galison, Das Bild der Objektivität. w: Ordnungen der Sichtbarkeit. Fotografie in Wissenschaft, Kunst und Technologie, red. P. Geimer, Frankfurt nad Menem 2002, s. 29–99.

[44] P. Otlet, Le livre dans les sciences. Conférence faite à la maison du Livre 14 Novembre 1908, Musée du Livre 25-6, Bruksela 1913 ; oraz Traité de documentation. Le livre sur le livre. Théorie et pratique, Editiones Mundaneum, Bruksela 1934.

[45] C.J. Minard, Carte figurative des pertes successives en hommes de l’Armée Française dans la campagne de Russie 1812–1813, Paryż 1869.

[46] P. Butler, Visualizing friendships, op. cit.

[49] B. Shneiderman, Tree visualization with tree-maps: 2-d space-filling approach, „ACM Transactions on Graphics” 1992, nr 11 (1), s. 92–99; M. Bruls, K. Huizing, J.J. van Wijk, Squarified treemaps, w: Data Visualization 2000, Proceedings of the joint Eurographics and IEEE TCVG Symposium on Visualization, red. W. de Leeuw, R. van Liere, Wiedeń 2000, s. 33–42.

[52] Przegląd możliwych wykresów tego typu można znaleźć na stronie http://vcg.informatik.uni-rostock.de/~hs162/treeposter/poster.html.

[54] D. Fifield, B. Enright, Icons of the Web, http://nmap.org/favicon/, 2010.

[56] D. McCandless, J. Key, Who’s suing whom in the telecoms trade? http://www.informationisbeautiful.net/2010/whos-suing-whom-in-the-telecoms-trade/, 10.10.2010.

[57] N. Yau, Bars as an alternative to bubble charts, http://www.flowingdata.com/2007/10/22/bars-as-an-alternative-to-bubble-charts/, 22.10.2007.

[58] Np. J. Feinberg, http://www.wordle.net, 2009.

[59] M.B. Paradowski, Ł. Jonak, Z. Kuscsik, The evolution of speech – towards network models of language development and spread, plakat, International Workshop „150 Years after Darwin: From Molecular Evolution to Language”. Palma de Mallorca, 23.11.2009.

[65] D.B. Sparks, Isarithmic history of the two-party vote, http://dsparks.wordpress.com/2010/11/15/isarithmic-history-of-the-two-party-vote/, 15.11.2010.

[66] E. Fischer, Locals and tourists – Warsaw, http://www.flickr.com/photos/walkingsf/4671466917/in/set-72157624209158632/, 5.06.2010.

[67] Inne ciekawe przykłady to np. interaktywna mapa ilustrująca stosunkową dominację różnych słów (coke, pop i soda) używanych na określenie napojów gazowanych w poszczególnych hrabstwach Stanów Zjednoczonych (M.T. Campbell, http://www.popvssoda.com/countystats/total-county.html) oraz mapa świata z zaznaczonymi lokalizacjami, z których ludzie w ciągu ostatniej godziny wysyłali wiadomości na Twitter (http://aworldoftweets.frogdesign.com/); wyraźnie widać na nim strefy czasowe i zasięg technologii.

[68] M.T. Gastner, M.E.J. Newman, Diffusion-based method for producing density equalizing maps, „Proc Natl Acad Sci” 2004, nr 101 (20), s. 7499–7504.

[69] Przykładem są mapy świata na stronie http://www.worldmapper.org.