Datajournalismi ja tietokoneavusteinen kielentutkimus lyövät jälleen kättä, tällä kertaa The Guardianin sivuilla. Eilisen lehdessä George Arnett ”dekonstruoi” Labour-johtaja Ed Milibandin puhetta apunaan kaksi korpuslingvistin perustyökalua: listat usein toistuvista yksittäisistä sanoista ja viiden sanan mittaisista sanajoukoista. Samanlainen analyysi oli viime viikolla tarjolla Nick Cleggin puheesta vastaavassa tilanteessa.
Tällaisten listojen tuottaminen on nopeaa ja yksinkertaista, ja niiden avulla voi saada alustavan vaikutelman analysoitavasta tekstistä. Esimerkiksi pelkästään sanalistan viiden ensimmäisen sanan perusteella – people, Britain, government, country ja better – voisi hyvinkin esittää valistuneen arvauksen siitä, mikä teksti on kyseessä, jos ei sitä tietäisi. Toki tätä helpottaa sekin, että listalta on ensin poistettu kieliopilliset sanat kuten prepositiot ja artikkelit.
Mutta paljon tätä pidemmälle eivät pelkät sanalistat sitten kannakaan. Vaikka ne tavallaan esittävät tekstin sisältösanat tiiviissä muodossa, samalla katoaa kaikki informaatio siitä, miten ne itse asiassa liittyvät toisiinsa. Jotta tällaisista listoista olisi todellista hyötyä, onkin usein välttämätöntä ensin lukea (tai tässä tapauksessa kuunnella) niiden pohjana oleva teksti läpi ajatuksella. Ja näin Arnett toki toimiikin:
Miliband’s [speech] had two five word phrase [sic] that he used nine times throughout his hour long speech. The first was ”win a race to the”. ”A race to the what?” You may ask. Well that second phrase used nine times was ”a race to the top”. Interestingly, that was shortly followed by its converse ”a race to the bottom”, which was used eight times. Miliband tended to use both in repeated succession to emphasise that the Tories wanted a race to the bottom and Labour wanted a race to the top.
Sanalistojen avulla toteutettu yksittäisen tekstin analyysi ei itse asiassa ole kovin kaukana perinteisestä tekstintutkimuksesta, joka perustuu lähiluvulle. Listat voivat toki ohjata journalistin katsetta tekstissä usein toistuviin sanoihin ja ilmaisuihin, mutta niiden perusteellisempaan tarkasteluun ja vertailuun tarvitaan toki muitakin työkaluja – ja aikaa.