Sanapilvet ovat haitallisia, ja Jacob Harris lähettäisi ne suorinta tietä takaisin sinne, mistä ne ovat tulleet.
Muutaman viikon takaisessa artikkelissaan Harris, New York Timesin ohjelmistoarkkitehti, arvostelee rankasti sanapilvien käyttöä uutisjutuissa. Sanapilvi on esimerkiksi Wordle-sivustolla tuotettu kuva, joka esittää visuaalisessa muodossa yhdessä tai useammassa tekstissä käytetyt sanat siten, että kunkin sanan koko heijastaa sen yleisyyttä. Siis tähän tyyliin:
Kuvassa on Seitsemän veljestä -romaanin sanoista tehty pilvi, josta yleisinä sanoina erottuvat selvästi päähenkilöiden nimet.
Mikä sanapilvien käytössä sitten on vikana? Harrisin mukaan se, että ne eivät itse asiassa auta maallikkoa ymmärtämään, mistä monimutkaisessa aineistossa on kyse, ja asiaan perehtyneelle lukijallekin ne kertovat vain sen, minkä hän todennäköisesti muutenkin tietää. Sanapilvet eivät kerro tarinoita. Pahimmassa tapauksessa ne johtavat harhaan, ja parhaimmillaankin ne ovat pelkästään vaikeita tulkita.
Sanapilvien tuottaminen on kuitenkin äärimmäisen helppoa ja nopeaa. Siksi Harrisin mukaan toimittajat turvautuvat niihin erityisesti silloin, kun heidän oma tietopohjansa aiheesta on vajavainen. Sanapilvi on kuitenkin huono asiantuntemuksen korvike, koska se kertoo ainoastaan siitä, miten usein eri sanat esiintyvät. Sen perusteella ei voi suoraan vetää johtopäätöksiä sanojen keskinäisistä suhteista, saati sitten siitä, miten niiden takana olevat käsitteet suhtautuvat toisiinsa.
Harrisin argumentti on selkeästi esitetty ja perustelut vakuuttavat. Suosittelen artikkelin lisäksi vilkaisemaan mukana olevan linkin takaa löytyvää Harrisin esitystä, jossa hän tarjoaa vaihtoehtoisen tavan havainnollistaa Wikileaks-dokumenttien tietoa. Sittemmin New York Timesissä julkaistu visualisaatio on kiistämättä parempi ja kiinnostavampi kuin sanapilvi – samalla toki paljon työläämpi ja teknisesti vaativampi toteuttaa.
Sanapilville on varmasti sijansa monissa yhteyksissä, esimerkiksi erilaisissa opetustilanteissa keskustelun herättäjänä tai vaikkapa muistin tukena, eikä Harrisilla tätä vastaan mitään näytä olevankaan. Sen sijaan kyytiä saa sanapilvien käyttö tutkimusinstrumenttina tai -tuloksena:
Every time I see a word cloud presented as insight, I die a little inside.
Wordlen puolustukseksi on toki sanottava, että se ei väitäkään olevansa journalistin tai kielentutkijan työkalu vaan ”lelu, jolla käyttäjä voi tuottaa sanapilviä haluamastaan tekstistä.”
Sivusto on kuitenkin tehnyt pilvien tuottamisesta niin vaivatonta, että niitä löytyy sanomalehtien sivuilta ympäri maailmaa – esimerkkeinä vaikka Huffington Postin näkemys mielenosoituksesta Wall Streetillä (13.10.2011), Liverpool Echon kuvaus Hillsborough’n onnettomuudesta käydystä keskustelusta parlamentin alahuoneessa (18.11.2011) ja El Paisin suorittama sosialistien ja kansanpuolueen vaaliohjelmien vertailu (1.11.2011).
Myös Talouselämä käytti sanapilviä viime kesäkuussa vertaillakseen uuden ja väistyvän hallituksen ohjelmia. Tulokset jäivät kuitenkin laihoiksi, ja lyhyen jutun päättävä virke osoittaa, että Harrisin kritiikille on olemassa vahvat perusteet. Kyseinen virke nimittäin kuuluu: ”Erot eivät ole kovin suuria – mutta erot asuvat yksityiskohdissa?”
Sanalistat (joista sanapilviä muodostetaan) ovat hyödyllisiä monissa tilanteissa, mutta niistä puuttuu suuri osa alkuperäiseen tekstiin sisältyvästä informaatiosta, minkä kielentutkijat toki hyvin tietävät. Sanapilvet eivät näin ollen valitettavasti tarjoa oikotietä sen selvittämiseksi, mitä jokin ilmiö tai sitä käsittelevät tekstit ”oikeasti” merkitsevät.