Avainsana-arkisto: sanalistat

Edward pala palalta

Datajournalismi ja tietokoneavusteinen kielentutkimus lyövät jälleen kättä, tällä kertaa The Guardianin sivuilla. Eilisen lehdessä George Arnett ”dekonstruoi” Labour-johtaja Ed Milibandin puhetta apunaan kaksi korpuslingvistin perustyökalua: listat usein toistuvista yksittäisistä sanoista ja viiden sanan mittaisista sanajoukoista. Samanlainen analyysi oli viime viikolla tarjolla Nick Cleggin puheesta vastaavassa tilanteessa.

datablog

Tällaisten listojen tuottaminen on nopeaa ja yksinkertaista, ja niiden avulla voi saada alustavan vaikutelman analysoitavasta tekstistä.  Esimerkiksi pelkästään sanalistan viiden ensimmäisen sanan perusteella – people, Britain, government, country ja better – voisi hyvinkin esittää valistuneen arvauksen siitä, mikä teksti on kyseessä, jos ei sitä tietäisi. Toki tätä helpottaa sekin, että listalta on ensin poistettu kieliopilliset sanat kuten prepositiot ja artikkelit.

Mutta paljon tätä pidemmälle eivät pelkät sanalistat sitten kannakaan. Vaikka ne tavallaan esittävät tekstin sisältösanat tiiviissä muodossa, samalla katoaa kaikki informaatio siitä, miten ne itse asiassa liittyvät toisiinsa. Jotta tällaisista listoista olisi todellista hyötyä, onkin usein välttämätöntä ensin lukea (tai tässä tapauksessa kuunnella) niiden pohjana oleva teksti läpi ajatuksella. Ja näin Arnett toki toimiikin:

Miliband’s [speech] had two five word phrase [sic] that he used nine times throughout his hour long speech. The first was ”win a race to the”. ”A race to the what?” You may ask. Well that second phrase used nine times was ”a race to the top”. Interestingly, that was shortly followed by its converse ”a race to the bottom”, which was used eight times. Miliband tended to use both in repeated succession to emphasise that the Tories wanted a race to the bottom and Labour wanted a race to the top. 

Sanalistojen avulla toteutettu yksittäisen tekstin analyysi ei itse asiassa ole kovin kaukana perinteisestä tekstintutkimuksesta, joka perustuu lähiluvulle. Listat voivat toki ohjata journalistin katsetta tekstissä usein toistuviin sanoihin ja ilmaisuihin, mutta niiden perusteellisempaan tarkasteluun ja vertailuun tarvitaan toki muitakin työkaluja – ja aikaa.

Mainokset

Jätä kommentti

Kategoria(t): Turo Hiltunen

Pilvistä

Sanapilvet ovat haitallisia, ja Jacob Harris lähettäisi ne suorinta tietä takaisin sinne, mistä ne ovat tulleet.

Muutaman viikon takaisessa artikkelissaan Harris, New York Timesin ohjelmistoarkkitehti, arvostelee rankasti sanapilvien käyttöä uutisjutuissa. Sanapilvi on esimerkiksi Wordle-sivustolla tuotettu kuva, joka esittää visuaalisessa muodossa yhdessä tai useammassa tekstissä käytetyt sanat siten, että kunkin sanan koko heijastaa sen yleisyyttä. Siis tähän tyyliin:

Kuvassa on Seitsemän veljestä -romaanin sanoista tehty pilvi, josta yleisinä sanoina erottuvat selvästi päähenkilöiden nimet.

Mikä sanapilvien käytössä sitten on vikana? Harrisin mukaan se, että ne eivät itse asiassa auta maallikkoa ymmärtämään, mistä monimutkaisessa aineistossa on kyse, ja asiaan perehtyneelle lukijallekin ne kertovat vain sen, minkä hän todennäköisesti muutenkin tietää. Sanapilvet eivät kerro tarinoita. Pahimmassa tapauksessa ne johtavat harhaan, ja parhaimmillaankin ne ovat pelkästään vaikeita tulkita.

Sanapilvien tuottaminen on kuitenkin äärimmäisen helppoa ja nopeaa. Siksi Harrisin mukaan toimittajat turvautuvat niihin erityisesti silloin, kun heidän oma tietopohjansa aiheesta on vajavainen. Sanapilvi on kuitenkin huono asiantuntemuksen korvike, koska se kertoo ainoastaan siitä, miten usein eri sanat esiintyvät. Sen perusteella ei voi suoraan vetää johtopäätöksiä sanojen keskinäisistä suhteista, saati sitten siitä, miten niiden takana olevat käsitteet suhtautuvat toisiinsa.

Harrisin argumentti on selkeästi esitetty ja perustelut vakuuttavat. Suosittelen artikkelin lisäksi vilkaisemaan mukana olevan linkin takaa löytyvää Harrisin esitystä, jossa hän tarjoaa vaihtoehtoisen tavan havainnollistaa Wikileaks-dokumenttien tietoa. Sittemmin New York Timesissä julkaistu visualisaatio on kiistämättä parempi ja kiinnostavampi kuin sanapilvi – samalla toki paljon työläämpi ja teknisesti vaativampi toteuttaa.

Sanapilville on varmasti sijansa monissa yhteyksissä, esimerkiksi erilaisissa opetustilanteissa keskustelun herättäjänä tai vaikkapa muistin tukena, eikä Harrisilla tätä vastaan mitään näytä olevankaan. Sen sijaan kyytiä saa sanapilvien käyttö tutkimusinstrumenttina tai -tuloksena:

Every time I see a word cloud presented as insight, I die a little inside.

Wordlen puolustukseksi on toki sanottava, että se ei väitäkään olevansa journalistin tai kielentutkijan työkalu vaan ”lelu, jolla käyttäjä voi tuottaa sanapilviä haluamastaan tekstistä.”

Sivusto on kuitenkin tehnyt pilvien tuottamisesta niin vaivatonta, että niitä löytyy sanomalehtien sivuilta ympäri maailmaa – esimerkkeinä vaikka Huffington Postin näkemys mielenosoituksesta Wall Streetillä (13.10.2011), Liverpool Echon kuvaus Hillsborough’n onnettomuudesta käydystä keskustelusta parlamentin alahuoneessa (18.11.2011) ja El Paisin suorittama sosialistien ja kansanpuolueen vaaliohjelmien vertailu (1.11.2011).

Myös Talouselämä käytti sanapilviä viime kesäkuussa vertaillakseen uuden ja väistyvän hallituksen ohjelmia. Tulokset jäivät kuitenkin laihoiksi, ja lyhyen jutun päättävä virke osoittaa, että Harrisin kritiikille on olemassa vahvat perusteet. Kyseinen virke nimittäin kuuluu: ”Erot eivät ole kovin suuria – mutta erot asuvat yksityiskohdissa?”

Sanalistat (joista sanapilviä muodostetaan) ovat hyödyllisiä monissa tilanteissa, mutta niistä puuttuu suuri osa alkuperäiseen tekstiin sisältyvästä informaatiosta, minkä kielentutkijat toki hyvin tietävät. Sanapilvet eivät näin ollen valitettavasti tarjoa oikotietä sen selvittämiseksi, mitä jokin ilmiö tai sitä käsittelevät tekstit ”oikeasti” merkitsevät.

5 kommenttia

Kategoria(t): Turo Hiltunen