Dekalog analityka danych i infografika – quid, cur, quomodo

Citation
, XML
Authors

Michał B. Paradowski

Instytut Lingwistyki Stosowanej UW

(pierwotnie opublikowane w: Kluza, Maciej (Red.) (2011) Wizualizacja wiedzy: Od Biblia Pauperum do hipertekstu. Lublin: Wiedza i Edukacja, 338–346.)

Mais on peut regarder un tableau pendant une semaine et ne plus jamais y penser. On peut aussi regarder un tableau pendant une seconde et y penser toute sa vie.
[Można patrzeć na obraz przez tydzień i nigdy więcej o nim nie pomyśleć. Można też spojrzeć na obraz przez sekundę i myśleć o nim do końca życia.]

—Joan Miró (1893-1983) w wywiadzie z Yvonem Taillandier, 1959 r., XXe siècle, vol I, Paryż.

W zalewie wizualizacji znajdujemy mnóstwo marnych jej instancji. Tymczasem skuteczność przekazania informacji może być kwestią życia lub śmierci. Tufte szczegółowo opisuje, jak do katastrofy promu kosmicznego Challenger doszło przez to, że inżynierom, którzy zaprojektowali rakiety na paliwo stałe i sprzeciwiali się startowi promu w panującej wtedy niskiej temperaturze, nie udało się przekonać zarządu amerykańskiej Narodowej Agencji Aeronautyki i Przestrzeni Kosmicznej o grożącym w niskiej temperaturze niebezpieczeństwie, po części wskutek formy, w jakiej przekazali swój komunikat[1]. Dlatego twórca wizualizacji powinien przestrzegać szeregu elementarnych zaleceń:

Daj mi sześć godzin na ścięcie drzewa, a pierwsze cztery spędzę ostrząc siekierę.
—Abraham Lincoln

1.      Zacznij od zadania pytania. Miej pomysł, jak pokazać coś nowego, innego, istotnego, zabawnego, pouczającego, czego odbiorca się nie spodziewał, co zweryfikuje sądy i obali stereotypy, ewentualnie potwierdzi jego przypuszczenia; naucz, zaskocz lub zachwyć go, ale nie stąpaj po wydeptanych ścieżkach[2].

2.      Wiedz, czego szukasz – przestudiuj temat i podejdź do niego w sposób naukowy, ostrożny i maksymalnie bezstronny. Dobrze wiedzieć, czego szukamy, ale nasze uprzedzenia, opinie i z góry przyjęte hipotezy nie powinny mieć wpływu na kształt wyników. Odpowiedni dobór pytań, kryteriów, założeń kategoryzacyjnych, pomiarów i algorytmu dostarczy prawie każdego pożądanego wyniku[3]. Wizualizacja nie powinna udowadniać naszej racji.

„Są trzy stopnie nieprawdy: bujda, kłamstwo, i statystyka”,

brytyjski polityk Sir Charles Wentworth Dilke (14 października 1891).

3.      Sprawdź swoje dane, źródła i fakty. Obraz przekonuje, a wizualnie atrakcyjna grafika tym bardziej. Dlatego zawsze należy sprawdzić nie tylko rzetelność i ścisłość danych, ale też ich zasadność oraz porównywalność kryteriów. Im więcej wiemy o danych (skąd, kiedy i jak zostały zebrane, co się wtedy działo), tym bardziej pewni możemy być swoich wyników i wniosków[4]. Weryfikacja danych to najważniejsza część projektowania. Oczyść, zorganizuj i znormalizuj swoje dane, bardzo przyspieszy to dalszą pracę. Zacznij od prostych wykresów, żeby zobaczyć, czy nie brakuje informacji, nie pojawiają się błędy, niespójności, duplikaty, obserwacje odstające lub inne dziwne wartości szczytowe, a jeśli tak jest, sprawdź je i upewnij się, że anomalie nie są wynikiem błędu[5]. Szczegóły są ważne. Jeśli znajdujesz korelację, pomyśl, czy ma sens, czy mamy do czynienia z rozkładem normalnym; jeśli widzimy „trend”, czy nie neguje go nadmierna wariancja. Jeśli podajesz wartości procentowe w zaokrągleniu, powinny się sumować do 100%[6]. Pytaj „dlaczego?”; zastanów się, skąd wyniki się wzięły. Rozważ alternatywne hipotezy i wyjaśnienia i poszukaj kontrprzykładów. Większość nawet rygorystycznie opracowanych infografik bardziej niż na dokładnych wyliczeniach opiera się raczej na wartościach szacunkowych, wyolbrzymionych lub zaniżonych, przybliżeniach i niedokładnościach, które zawsze są obarczone pewnym stopniem niepewności (zmiana kryteriów może łatwo spowodować zmianę wyników) i to analityk powinien tę niepewność zminimalizować. Podaj źródła, poinformuj o poziomie niepewności i możliwych błędach w danych; podnosi to wiarygodność grafiki i pozwala zainteresowanym sięgnąć głębiej[7]. Jednym z często popełnianych błędów przy analizie danych jest cum hoc ergo propter hoc, czyli mylenie korelacji z przyczynowością. Współwystępowanie dwóch zjawisk nie musi oznaczać, że jedno z nich jest katalizatorem drugiego. Może tak być, ale mogą też mieć wspólną przyczynę, lub być skutkiem zbiegu okoliczności. Przykładem może być wykres przedstawiający ilość śmiertelnych wypadków drogowych w USA i wielkość importu cytryn z Meksyku, który mógłby sugerować, że zawarta w cytrusach witamina C, bioflawonidy lub zapach owoców przyczyniły się do zwiększenia bezpieczeństwa na autostradach (rys. 1)[8] albo wylansowana przez pastafarian krzywa pokazująca rzekomą zależność między spadkiem liczby piratów i efektem cieplarnianym[9]. Podobnie można by uznać, że najlepszym predyktorem wartości indeksów giełdowych jest wielkość produkcji masła w Bangladeszu[10] albo cykl faz księżyca[11], zaś wyniki partii Socjaldemokratycznej Partii Niemiec w wyborach parlamentarnych zależą od wielkości produkcji stali w landach zachodnich (tzw. prawo Mierscheida[12]). Pułapkę tego częstego błędu wnioskowania trafnie ilustruje jeden z kultowych komiksów xkcd[13], których autor od dawna wykorzystuje dane statystyczne;

Rys. 1. Porównanie ilości śmiertelnych wypadków drogowych na autostradach USA i wielkości importu cytryn
Rys. 2.  R. Munroe, Statystyka

4.      Bądź pewien, że rozumiesz swoje dane: porównaj największe wartości z najmniejszymi, zobacz ogólny trend, przyjrzyj się dziwnym obserwacjom odstającym i gwałtownym zmianom wartości, sprawdź, czy układają się w rozkład normalny, potęgowy czy okresowy; dopiero wtedy dobierz pasujące do formatu danych i celu badawczego metody analityczne i rodzaj prezentacji graficznej[14]. Eksperymentuj z różnymi skalami i poziomami szczegółowości, jako że nie ma uniwersalnej; miej przed oczami obraz całości i szeroki kontekst i patrz na dane z różnych perspektyw – nie koncentruj się tylko na poszczególnych punktach lub malutkim wycinku; spójrz np. na inną skalę czasową[15]. O ile precyzja prognozy i identyfikacja obserwacji odstających wymagają skupienia na wszystkich nieprzetworzonych danych i reprezentacji graficznej o dużej szczegółowości, przedstawienie wszystkich danych nierzadko skutkuje szumem informacyjnym, w którym trudno dostrzec zasadniczą strukturę. Z kolei w badaniu zależności między danymi wygładzona funkcja, jak krzywa gęstości lub histogram z dużymi przedziałami, niosą ze sobą ryzyko zgubienia obserwacji odstających. Tendencje i prawidłowości są ważne, ale tak samo istotne są obserwacje odstające, brakujące punkty danych i niespójności[16]. W zależności od postawionego przed nami celu, należy więc dokonać świadomego wyboru między zachowaniem i poświęceniem detalu. Stosuj zasadę stosowności[17]: reprezentacja wizualna powinna przedstawiać tylko tyle informacji i tylko o takim stopniu szczegółowości, jaki jest niezbędny do przekazania treści[18]; grafika ma być intuicyjna i szybko przyswajalna, a nadmierna dokładność odrywa uwagę, zaciemnia obraz i trendy. Nie zalewaj odbiorcy nadmiarem informacji i zbyt szczegółowymi liczbami; niech podziałki i oznakowanie będą czytelne.

5.      Pamiętaj o celu i odbiorcach. Rolą grafika jest przełożenie kluczowych wyników na język zrozumiały dla laików i osób o różnym stopniu doświadczenia i wiedzy specjalistycznej, bez znajomości metod ilościowych[19]. Wizualizacja powinna komunikować treść w sposób zorganizowany, jasny, klarowny i przystępny. Używaj języka zrozumiałego dla odbiorcy, unikaj żargonu i specjalistycznych skrótów.

6.      Kontroluj geometrię. Ilość przedstawionych wymiarów reprezentujących informację nie powinna być większa od ilości wymiarów w danych; jeśli z jakiegoś powodu musisz użyć szeregu kształtów dwuwymiarowych do przedstawienia danych jednowymiarowych, wyskaluj je według powierzchni. Tufte[20] przytacza poniższą grafikę (rys. 3) jako przykład działania tzw. „czynnika kłamstwa”: kiedy pokazany na wizualizacji fizyczny rozmiar efektu jest nieproporcjonalny do reprezentowanych przezeń wartości liczbowych. Grafika „Sunday Timesa” nie uwzględnia stopy inflacji, używa trójwymiarowych kształtów do przedstawienia zmiany jednowymiarowej i – co dodatkowo potęguje różnicę – używa perspektywy.

Rys. 3. Ceny baryłki ropy naftowej opuszczającej Arabię Saudyjską, „Sunday Times” 16.12.1979

7.      Zatytułuj grafikę i objaśnij kodowanie – za pomocą legendy, oznakowując linie, kształty i kolory wprost, albo opisując grafikę w akapicie wprowadzającym[21]. Zaznacz najważniejsze wydarzenia. Brak wystarczającego opisu może wywołać dezorientację i frustrację, i użytkownik może nie dostrzec pełnej wartości danych. Czytelnie oznakuj osie i objaśnij jednostki skali (czy jest ona przyrostowa, wykładnicza, logarytmiczna…); bez tego są tylko dekoracją. Dobierz właściwą wartość punktu przecięcia osi: przy wykresach słupkowych powinna zaczynać się od wartości bezwzględnej, ale może to zmniejszyć widoczne różnice między wartościami, podczas gdy przeniesienie punktu przecięcia osi bliżej wartości minimalnej je uwypukli – jednak wtedy wyraźnie to zaznacz. Wyeliminuj spekulacje czytelnika[22]. Uporządkuj wartości (pod względem wielkości, alfabetycznie…) i legendę (w tej samej kolejności, co rozłożenie wartości na wykresie, co ułatwi użytkownikowi szybkie odnalezienie właściwych odniesień).

8.      Umieść dane w zrozumiałym dla odbiorcy kontekście, pozwalającym dotrzeć do przyczyn i skutków. Podaj układ odniesienia dla porównania wyników: czy jest nim poprzedni okres, prognozy, innym region, czy wartości są absolutne, czy procentowe (co ma znaczenie np. przy porównywaniu obszarów o różnej gęstości zaludnienia).

9.      Unikaj przewagi formy nad treścią i wizualnego chaosu. Estetyka jest istotna nie tyle ze względu na atrakcyjność przekazu, ile dla czytelności[23]. Grafika powinna przyciągać uwagę do głównego przesłania i skupić ją na meritum, a nie zastosowanej technice czy metodologii. Pozbądź się wszystkiego, co nie jest niezbędne. Zdecyduj, które informacje są istotne lub ciekawe, które chcesz pokazać i przedstaw je w jak najkrótszym czasie, zużywając jak najmniej toneru i na jak najmniejszej powierzchni, ale daj im „oddychać” i nie zapomnij zostawić pustej przestrzeni; zatłoczone grafiki trudno odczytać[24].

10.  unikaj efektów trójwymiarowych (chyba, że są one rzeczywiście uzasadnione – zniekształcają dane i są mniej czytelne, szczególnie na monitorze komputera), deseni i wypełnień gradientowych oraz zbędnych, nasyconych, krzykliwych i słabo kontrastujących kolorów (wykres nie powinien wyglądać jak obraz testowy w telewizorze Rubin). Kolor pomaga grupować powiązane obserwacje i odczytać gęste grafiki, ale wprowadzenie każdej dodatkowej barwy powinno być umotywowane – stosuj je konserwatywnie i konsekwentnie. Do reprezentacji miary ciągłej łatwiejsze do interpretacji od użycia barwy jest kodowanie zmian nasyceniem i jasnością, podczas gdy dla poziomów interwałowych z wartościami progowymi można używać wielu kolorów[25]. Paleta powinna być dobrana z uwzględnieniem osób z zaburzeniami rozpoznawania barw (na które cierpi ok. 8% męskiej i 0,5% żeńskiej populacji[26]), dlatego wizualizację dobrze wcześniej sprawdzić za pomocą specjalistycznego oprogramowania lub filtra[27]. Kolor tła wykresu powinien korespondować z barwą strony lub slajdu, na których będzie umieszczony, a użyte barwy dobrze kontrastować w docelowym medium – czy to na rzutniku (żółty kolor na jasnym tle jest wtedy prawie nieodróżnialny, podobnie jak irytujące dla oka jest zestawienie jaskrawoczerwonego tekstu na jasnoniebieskim tle), czy na ekranie komputera, czy wydruku (wtedy barwy powinny być rozróżnialne również w odcieniach szarości). Inne rodzaje wizualizacji nadają się do druku w prasie, gdzie grafika musi brać pod uwagę ograniczenia szpalt i starać się wyjaśniać najważniejsze fragmenty[28], inne na plakat (który może być bardziej szczegółowy), inne są bardziej atrakcyjne podczas prezentacji multimedialnej przed publicznością (gdzie wykresy i diagramy powinny być maksymalnie proste, nie zawierać nadmiaru detali, tekst należy ograniczyć do minimum i unikać mało kontrastującej czcionki), inne do umieszczenia w internecie (jako obraz czy narzędzie interaktywne), jeszcze inne do analizy eksploracyjnej. Nie używaj w jednym wykresie więcej niż dwóch czcionek i unikaj krojów fantazyjnych, pochyłych czy imitujących pismo odręczne[29]. Jeśli wizualizacja będzie wyświetlana raczej niż drukowana, bardziej czytelne będą czcionki gotyckie (jak np. Helvetica) niż szeryfowe.

Więcej niż statystyka – ważność rzadkich jednostek i wydarzeń

Tradycyjna statystyka koncentruje się na wartościach uśrednionych: średniej, medianie, odchyleniu standardowym, rozkładzie normalnym, przedziałach ufności… Jednak to nie przeciętne jednostki napędzają rozwój i są odpowiedzialne za największe zmiany – w wielu obszarach naszego życia bardziej niż rozkład normalny ma zastosowanie rozkład potęgowy[30], od częstości występowania słów w dyskursie przez poziom zamożności po rozmiar miejscowości. Widać to szczególnie w sieciach złożonych (w tym sieciach dowolnie skalowalnych), których strukturę napotykamy na każdym kroku, od genów do sieci energetycznych, od łańcuchów pokarmowych do udziałów w rynku, od transportu i komunikacji do interakcji społecznych. Takie zależności najłatwiej zakomunikować za pomocą wizualizacji. Z kolei dowodem wagi rzadkich wydarzeń jest chociażby początek naszej galaktyki, odkrycie zasady znieczulenia miejscowego przez Beniamina Warda Richardsona po tym, jak został figlarnie ochlapany wodą kolońską, czy przypadkowe zaprószenie pleśnią płytki Petriego z hodowlą gronkowca, dzięki któremu Aleksander Fleming odkrył penicylinę.

Epilog

O ile wykresy są przydatne do komunikowania ogólnego schematu czy znalezienia obserwacji odstających (które są zdefiniowane poprzez ich współrzędne w więcej niż jednym wymiarze, a co za tym idzie, wymagają od odbiorcy integracji wielu poziomów informacji, gdzie ważna jest względna odległość dzieląca skrajne przypadki od pozostałych obserwacji), o tyle, kiedy ważna jest precyzja informacji i łatwość jej weryfikacji, lepiej sprawdza się zwykła tabela[31]. Grafika nigdy nie zastępuje materiału źródłowego.


[1] E.R. Tufte, PowerPoint does rocket science—and better techniques for technical reports, http://www.edwardtufte.com/bboard/q-and-a-fetch-msg?msg_id=0001yB&topic_id=1&topic=Ask+E%2eT%2e, 6.09.2005.

[2] D.A. Keim, F. Mansmann, A. Stoffel, H. Ziegler, Visual Analytics, w: Encyclopedia of Database Systems, red. L. Liu, M.T. Özsu, Berlin 2009, s. 3341–3346; dostępne na: http://infovis.uni-konstanz.de/papers/2009/edbs2008.pdf; S. Slobin, The 7 ½ steps to successful infographics, http://www.visitmix.com/Articles/seven-and-a-half-steps-to-successful-infographics, 25.03.2010.

[3] J.A. Paulos, The way we live now. Metric mania, „The New York Times” 13.05.2010; dostępne na” http://www.nytimes.com/2010/05/16/magazine/16FOB-WWLN-t.html; por. też słynne twierdzenie Arrowa mówiące, że żaden system głosowania spełniający pewne podstawowe warunki nie gwarantuje uzyskania w pełni sprawiedliwego rankingu kandydatów.

[4] N. Yau, Think like a statistician – without the math, http://www.flowingdata.com/2010/03/04/think-like-a-statistician-without-the-math/, 4.03.2010.

[5] N. Yau, 7 basic rules for making charts and graphs, http://www.flowingdata.com/2010/07/22/7-basic-rules-for-making-charts-and-graphs/, 22.07.2010.

[6] Por. też: B. Armbruster, Fox’s fuzzy math: 193 percent of the public support Palin, Huckabee, and Romney, http://www.thinkprogress.org/2009/11/23/fox-pie-chart/ (23.11.2009)

[7] N. Yau, 7 basic rules…, op. cit.

[8] S.R. Johnson, The trouble with QSAR (or how I learned to stop worrying and embrace fallacy), J Chem Inf Model” 2008, nr 48 (1), s. 25–26; dostępne na: http://pubs.acs.org/doi/abs/10.1021/ci700332k.

[10] L. Washington, What’s the stock market got to do with the production of butter in Bangladesh?, „CNN MONEY Magazine”, http://money.cnn.com/magazines/moneymag/moneymag_archive/1998/03/01/238606/index.htm, 1.03.1998.

[11] CXO Advisory Group LLC, Lunar cycle and stock returns, http://www.cxoadvisory.com/calendar-effects/lunar-cycle-and-stock-returns/, 9.06.2010.

[12] J.M. Mierscheid, „Mierscheid-Gesetz“ für die SPD – Neue Forschungsergebnisse für die Wahlprognostik, „Vorwärts”, 14.07.1983, s. 22.

[14] Np. Układ okresowy czcionek (C. Wilde, Periodic table of typefaces. Popular, influential, & notorious. http://www.behance.net/Gallery/Periodic-Table-of-Typefaces/193759; 2009) czy Układ okresowy metod wizualizacyjnych (sic!; R. Lengler, M.J. Eppler, http://www.visual-literacy.org/periodic_table/periodic_table.html; 2007)) na siłę starają się arbitralnie wcisnąć dane w strukturę, która w żaden sposób nie uzasadnia takiego manewru, i mają niewiele wspólnego z logicznie uporządkowaną tablicą Mendelejewa.

[15] N. Yau, Think like…, op. cit.

[16] Ibidem.

[17] D.A. Norman, Cognitive artifacts. w: J.M. Carroll, Designing Interaction: Psychology at the human-computer interface, Cambridge 1991, s. 17–38.

[18] Już Arystoteles w Poetyce zwracał uwagę, że „piękno jest kwestią rozmiaru i porządku”, a piękna całość „musi być rozmiaru do ogarnięcia dla oka” (Περὶ ποιητικῆς, ok. 335 p.n.e.).

[19] J.G. Koomey, Turning Numbers into Knowledge: Mastering the Art of Problem Solving, Oakland 2008.

[20] E.R. Tufte, The Visual Display of Quantitative Information, Cheshire 2001.

[21] N. Yau, 7 basic rules…, op. cit.

[22] Ibidem.

[23] Dlatego np. w histogramie bardziej czytelne jest umieszczenie kategorii na osi y, zaś w diagramach sieciowych dąży się do maksymalizacji symetrii, minimalizacji ilości przecięć krawędzi grafu (H.C. Purchase, Metrics for graph drawing aesthetics, J Vis Lang & Comp 13(5), 501-16 (2002).) i zostawienia dostatecznej przestrzeni wokół każdego punktu węzłowego, aby można było go odróżnić od sąsiadów.

[24] N. Yau, Think like a statistician…, op. cit.

[25] B.E. Rogowitz, L.A. Treinish, Why should engineers and scientists be worried about color?, Yorktown Heights, http://www.research.ibm.com/people/l/lloydt/color/color.htm.

[26] M. Kalloniatis, C. Luu, Psychophysics of Vision. Ch. 5 The Perception of Color, w: Webvision: The Organization of the Retina and Visual System, red. H. Kolb, E. Fernandez, R. Nelson, Salt Lake City 2005, dostępne na: http://www.ncbi.nlm.nih.gov/books/NBK11538/.

[27] Takiego jak np. Colorfilter (http://colorfilter.wickline.org/), Color Oracle (B. Jenny, N.V. Kelso, http://colororacle.cartography.ch/), Vischeck (R. Dougherty, A. Wade, http://www.vischeck.com/vischeck/) czy Adobe Photoshop.

[28] N. Yau, 7 basic rules…, op. cit.

[29] Powszechnie wyśmiewane czcionki to m.in. Bradley Hand, Brush Script, Comic Sans, Copperplate, Curlz, Goudy Stout, Kristen, Monotype Corsiva, Papyrus, Snap, Viner Hand i Vivaldi.

[30] Por. zasadę Pareto.

[31] C. Ware, J.C. Beatty, Using color to display structures in multidimensional discrete data, „Color Res Appl”1986, nr 11 (Suppl.), s. 11–14; S.M. Kosslyn, Elements of Graph Design, Nowy Jork 1994; C.H. Yu, J. Behrens, The alignment framework for data visualization: Relationships among research goals, data types, and multivariate visualization techniques, referat wygłoszony na Annual Meeting of Society for Computer in Psychology, Los Angeles, 11.1995; dostępny na: http://www.creative-wisdom.com/alignment/alignment.html.