Pilvistä

Sanapilvet ovat haitallisia, ja Jacob Harris lähettäisi ne suorinta tietä takaisin sinne, mistä ne ovat tulleet.

Muutaman viikon takaisessa artikkelissaan Harris, New York Timesin ohjelmistoarkkitehti, arvostelee rankasti sanapilvien käyttöä uutisjutuissa. Sanapilvi on esimerkiksi Wordle-sivustolla tuotettu kuva, joka esittää visuaalisessa muodossa yhdessä tai useammassa tekstissä käytetyt sanat siten, että kunkin sanan koko heijastaa sen yleisyyttä. Siis tähän tyyliin:

Kuvassa on Seitsemän veljestä -romaanin sanoista tehty pilvi, josta yleisinä sanoina erottuvat selvästi päähenkilöiden nimet.

Mikä sanapilvien käytössä sitten on vikana? Harrisin mukaan se, että ne eivät itse asiassa auta maallikkoa ymmärtämään, mistä monimutkaisessa aineistossa on kyse, ja asiaan perehtyneelle lukijallekin ne kertovat vain sen, minkä hän todennäköisesti muutenkin tietää. Sanapilvet eivät kerro tarinoita. Pahimmassa tapauksessa ne johtavat harhaan, ja parhaimmillaankin ne ovat pelkästään vaikeita tulkita.

Sanapilvien tuottaminen on kuitenkin äärimmäisen helppoa ja nopeaa. Siksi Harrisin mukaan toimittajat turvautuvat niihin erityisesti silloin, kun heidän oma tietopohjansa aiheesta on vajavainen. Sanapilvi on kuitenkin huono asiantuntemuksen korvike, koska se kertoo ainoastaan siitä, miten usein eri sanat esiintyvät. Sen perusteella ei voi suoraan vetää johtopäätöksiä sanojen keskinäisistä suhteista, saati sitten siitä, miten niiden takana olevat käsitteet suhtautuvat toisiinsa.

Harrisin argumentti on selkeästi esitetty ja perustelut vakuuttavat. Suosittelen artikkelin lisäksi vilkaisemaan mukana olevan linkin takaa löytyvää Harrisin esitystä, jossa hän tarjoaa vaihtoehtoisen tavan havainnollistaa Wikileaks-dokumenttien tietoa. Sittemmin New York Timesissä julkaistu visualisaatio on kiistämättä parempi ja kiinnostavampi kuin sanapilvi – samalla toki paljon työläämpi ja teknisesti vaativampi toteuttaa.

Sanapilville on varmasti sijansa monissa yhteyksissä, esimerkiksi erilaisissa opetustilanteissa keskustelun herättäjänä tai vaikkapa muistin tukena, eikä Harrisilla tätä vastaan mitään näytä olevankaan. Sen sijaan kyytiä saa sanapilvien käyttö tutkimusinstrumenttina tai -tuloksena:

Every time I see a word cloud presented as insight, I die a little inside.

Wordlen puolustukseksi on toki sanottava, että se ei väitäkään olevansa journalistin tai kielentutkijan työkalu vaan ”lelu, jolla käyttäjä voi tuottaa sanapilviä haluamastaan tekstistä.”

Sivusto on kuitenkin tehnyt pilvien tuottamisesta niin vaivatonta, että niitä löytyy sanomalehtien sivuilta ympäri maailmaa – esimerkkeinä vaikka Huffington Postin näkemys mielenosoituksesta Wall Streetillä (13.10.2011), Liverpool Echon kuvaus Hillsborough’n onnettomuudesta käydystä keskustelusta parlamentin alahuoneessa (18.11.2011) ja El Paisin suorittama sosialistien ja kansanpuolueen vaaliohjelmien vertailu (1.11.2011).

Myös Talouselämä käytti sanapilviä viime kesäkuussa vertaillakseen uuden ja väistyvän hallituksen ohjelmia. Tulokset jäivät kuitenkin laihoiksi, ja lyhyen jutun päättävä virke osoittaa, että Harrisin kritiikille on olemassa vahvat perusteet. Kyseinen virke nimittäin kuuluu: ”Erot eivät ole kovin suuria – mutta erot asuvat yksityiskohdissa?”

Sanalistat (joista sanapilviä muodostetaan) ovat hyödyllisiä monissa tilanteissa, mutta niistä puuttuu suuri osa alkuperäiseen tekstiin sisältyvästä informaatiosta, minkä kielentutkijat toki hyvin tietävät. Sanapilvet eivät näin ollen valitettavasti tarjoa oikotietä sen selvittämiseksi, mitä jokin ilmiö tai sitä käsittelevät tekstit ”oikeasti” merkitsevät.

5 kommenttia

Kategoria(t): Turo Hiltunen

5 responses to “Pilvistä

  1. Tanja Säily

    Kiitos taas mielenkiintoisesta ja ajankohtaisesta postauksesta! Lehtijutuissa sanapilvien käyttö ei tosiaan vaikuta kovin järkevältä muuten kuin huomion herättäjänä, jolla houkutellaan lukemaan artikkeli. Kielentutkijan työkaluna sanapilvi voi olla ihan kiva tutkimuksen alkuvaiheessa, jolloin kerätään ideoita ja tarkastellaan aineistoa monista eri näkökulmista. Se on inspiroivampi ja kompaktimpi kuin sanalista, ja vaikka varsinaista tietoa antaa vain sanan koko, myös esteettiset parametrit kuten väri ja sijainti saattavat sattumalta herättää kiinnostavia hypoteeseja, joita voidaan sitten testata jollain ”oikealla” menetelmällä.

    Toki sanapilvien tulkinta vaatii syvällistä tietoa aineistosta ja sen konteksteista, mutten sanoisi, että niistä voi saada vain tietoa jonka asiantuntija muutenkin jo tietäisi. Esimerkiksi uusimmassa artikkelissamme Terttu Nevalainen tulkitsee kirjekorpuksesta tehtyjä sanapilviä kielellisessä ja kulttuurikontekstissa käyttäen hyväksi mm. palvelun stopword-listaa kirjoitusasujen vaihtelun näkökulmasta. Saman olisi toki voinut tehdä myös perinteisillä sanalistoilla, mutta pilvet ovat inspiroivampia, stopword-lista oli jo valmiina ja Tagxedo-palvelussa sai vielä pidettyä sanojen värit samoina eri aikakausien sanapilvissä, joten vertailu helpottui. http://www.helsinki.fi/varieng/journal/volumes/07/siirtola_et_al/#sect3.3

    • Turo Hiltunen

      ”Toki sanapilvien tulkinta vaatii syvällistä tietoa aineistosta ja sen konteksteista, …”

      Juuri näin, ja tämä käy hyvin ilmi esimerkistäsi, jossa työ ei suinkaan lopu sanapilven generointiin, kuten journalismin puolella usein näyttää käyvän.

      Sanalistat/-pilvet ovat usein hyödyllisiä, mutta on myös tärkeä ymmärtää mihin ne soveltuvat ja mitkä ovat niiden puutteet. Pilvien tuottamista niiden itsensä vuoksi sekä niiden esittämistä ilman asiantuntevaa ja aiheeseen perehtynyttä kontekstualisointia saa ja mielestäni pitääkin arvostella.

      Hieno artikkeli, muuten!

  2. Paluuviite: Edward pala palalta | Kielen kannoilla

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out / Muuta )

Twitter-kuva

Olet kommentoimassa Twitter -tilin nimissä. Log Out / Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out / Muuta )

Google+ photo

Olet kommentoimassa Google+ -tilin nimissä. Log Out / Muuta )

Muodostetaan yhteyttä palveluun %s