Avainsana-arkisto: kieliteknologia

Edward pala palalta

Datajournalismi ja tietokoneavusteinen kielentutkimus lyövät jälleen kättä, tällä kertaa The Guardianin sivuilla. Eilisen lehdessä George Arnett ”dekonstruoi” Labour-johtaja Ed Milibandin puhetta apunaan kaksi korpuslingvistin perustyökalua: listat usein toistuvista yksittäisistä sanoista ja viiden sanan mittaisista sanajoukoista. Samanlainen analyysi oli viime viikolla tarjolla Nick Cleggin puheesta vastaavassa tilanteessa.

datablog

Tällaisten listojen tuottaminen on nopeaa ja yksinkertaista, ja niiden avulla voi saada alustavan vaikutelman analysoitavasta tekstistä.  Esimerkiksi pelkästään sanalistan viiden ensimmäisen sanan perusteella – people, Britain, government, country ja better – voisi hyvinkin esittää valistuneen arvauksen siitä, mikä teksti on kyseessä, jos ei sitä tietäisi. Toki tätä helpottaa sekin, että listalta on ensin poistettu kieliopilliset sanat kuten prepositiot ja artikkelit.

Mutta paljon tätä pidemmälle eivät pelkät sanalistat sitten kannakaan. Vaikka ne tavallaan esittävät tekstin sisältösanat tiiviissä muodossa, samalla katoaa kaikki informaatio siitä, miten ne itse asiassa liittyvät toisiinsa. Jotta tällaisista listoista olisi todellista hyötyä, onkin usein välttämätöntä ensin lukea (tai tässä tapauksessa kuunnella) niiden pohjana oleva teksti läpi ajatuksella. Ja näin Arnett toki toimiikin:

Miliband’s [speech] had two five word phrase [sic] that he used nine times throughout his hour long speech. The first was ”win a race to the”. ”A race to the what?” You may ask. Well that second phrase used nine times was ”a race to the top”. Interestingly, that was shortly followed by its converse ”a race to the bottom”, which was used eight times. Miliband tended to use both in repeated succession to emphasise that the Tories wanted a race to the bottom and Labour wanted a race to the top. 

Sanalistojen avulla toteutettu yksittäisen tekstin analyysi ei itse asiassa ole kovin kaukana perinteisestä tekstintutkimuksesta, joka perustuu lähiluvulle. Listat voivat toki ohjata journalistin katsetta tekstissä usein toistuviin sanoihin ja ilmaisuihin, mutta niiden perusteellisempaan tarkasteluun ja vertailuun tarvitaan toki muitakin työkaluja – ja aikaa.

Jätä kommentti

Kategoria(t): Turo Hiltunen

Pilvistä

Sanapilvet ovat haitallisia, ja Jacob Harris lähettäisi ne suorinta tietä takaisin sinne, mistä ne ovat tulleet.

Muutaman viikon takaisessa artikkelissaan Harris, New York Timesin ohjelmistoarkkitehti, arvostelee rankasti sanapilvien käyttöä uutisjutuissa. Sanapilvi on esimerkiksi Wordle-sivustolla tuotettu kuva, joka esittää visuaalisessa muodossa yhdessä tai useammassa tekstissä käytetyt sanat siten, että kunkin sanan koko heijastaa sen yleisyyttä. Siis tähän tyyliin:

Kuvassa on Seitsemän veljestä -romaanin sanoista tehty pilvi, josta yleisinä sanoina erottuvat selvästi päähenkilöiden nimet.

Mikä sanapilvien käytössä sitten on vikana? Harrisin mukaan se, että ne eivät itse asiassa auta maallikkoa ymmärtämään, mistä monimutkaisessa aineistossa on kyse, ja asiaan perehtyneelle lukijallekin ne kertovat vain sen, minkä hän todennäköisesti muutenkin tietää. Sanapilvet eivät kerro tarinoita. Pahimmassa tapauksessa ne johtavat harhaan, ja parhaimmillaankin ne ovat pelkästään vaikeita tulkita.

Sanapilvien tuottaminen on kuitenkin äärimmäisen helppoa ja nopeaa. Siksi Harrisin mukaan toimittajat turvautuvat niihin erityisesti silloin, kun heidän oma tietopohjansa aiheesta on vajavainen. Sanapilvi on kuitenkin huono asiantuntemuksen korvike, koska se kertoo ainoastaan siitä, miten usein eri sanat esiintyvät. Sen perusteella ei voi suoraan vetää johtopäätöksiä sanojen keskinäisistä suhteista, saati sitten siitä, miten niiden takana olevat käsitteet suhtautuvat toisiinsa.

Harrisin argumentti on selkeästi esitetty ja perustelut vakuuttavat. Suosittelen artikkelin lisäksi vilkaisemaan mukana olevan linkin takaa löytyvää Harrisin esitystä, jossa hän tarjoaa vaihtoehtoisen tavan havainnollistaa Wikileaks-dokumenttien tietoa. Sittemmin New York Timesissä julkaistu visualisaatio on kiistämättä parempi ja kiinnostavampi kuin sanapilvi – samalla toki paljon työläämpi ja teknisesti vaativampi toteuttaa.

Sanapilville on varmasti sijansa monissa yhteyksissä, esimerkiksi erilaisissa opetustilanteissa keskustelun herättäjänä tai vaikkapa muistin tukena, eikä Harrisilla tätä vastaan mitään näytä olevankaan. Sen sijaan kyytiä saa sanapilvien käyttö tutkimusinstrumenttina tai -tuloksena:

Every time I see a word cloud presented as insight, I die a little inside.

Wordlen puolustukseksi on toki sanottava, että se ei väitäkään olevansa journalistin tai kielentutkijan työkalu vaan ”lelu, jolla käyttäjä voi tuottaa sanapilviä haluamastaan tekstistä.”

Sivusto on kuitenkin tehnyt pilvien tuottamisesta niin vaivatonta, että niitä löytyy sanomalehtien sivuilta ympäri maailmaa – esimerkkeinä vaikka Huffington Postin näkemys mielenosoituksesta Wall Streetillä (13.10.2011), Liverpool Echon kuvaus Hillsborough’n onnettomuudesta käydystä keskustelusta parlamentin alahuoneessa (18.11.2011) ja El Paisin suorittama sosialistien ja kansanpuolueen vaaliohjelmien vertailu (1.11.2011).

Myös Talouselämä käytti sanapilviä viime kesäkuussa vertaillakseen uuden ja väistyvän hallituksen ohjelmia. Tulokset jäivät kuitenkin laihoiksi, ja lyhyen jutun päättävä virke osoittaa, että Harrisin kritiikille on olemassa vahvat perusteet. Kyseinen virke nimittäin kuuluu: ”Erot eivät ole kovin suuria – mutta erot asuvat yksityiskohdissa?”

Sanalistat (joista sanapilviä muodostetaan) ovat hyödyllisiä monissa tilanteissa, mutta niistä puuttuu suuri osa alkuperäiseen tekstiin sisältyvästä informaatiosta, minkä kielentutkijat toki hyvin tietävät. Sanapilvet eivät näin ollen valitettavasti tarjoa oikotietä sen selvittämiseksi, mitä jokin ilmiö tai sitä käsittelevät tekstit ”oikeasti” merkitsevät.

5 kommenttia

Kategoria(t): Turo Hiltunen

”Olen ei häntä”

Kesällä Hoffenheimista lainasopimuksella Osasunaan siirtynyt jalkapalloilija Jukka Raitala (@JukkaRaitala20) lähetti 1. lokakuuta Twitterin kautta arvoituksellisen viestin:

@JukkaRaitala20
” #Raitala Ovat Olosuhteet, Mutta Emme Voi Vaatia Niin Nuori Ja Tulevat Liigan Eri. Rehu Että Veto On Hyvä” Mendi.

Jos hämmennykseltään uskaltautuu selailemaan @JukkaRaitala20:n muita viestejä, huomaa pian, että viesti on käännetty suoraan espanjasta käyttämällä automaattista käännösohjelmaa, ilmeisesti Google Translatea. @JukkaRaitala20 on näet samalla kellonlyömällä lähettänyt edellä lainatusta viestistä myös espanjan– ja englanninkieliset versiot:

Lisäksi osoittautuu, että @JukkaRaitala20 ei olekaan Raitala itse vaan innokas kannattaja, joka raportoi suosikkinsa tekemisistä Twitterissä kolmella kielellä:

@JukkaRaitala20
Ensinnäkin toistan: Minä noudatan kaikkia uutisia olen ei häntä Jukka mutta tämä on Twitter tukea teitä.

@JukkaRaitala20
First of all I repeat: I keep all the news Jukka, but I’m not him. This is a support to him twitter.

@JukkaRaitala20
Antes De Nada Repito: Sigo Toda La Actualidad de Jukka Pero No Soy Él. Esto Es Un Twitter Para Apoyarle.

Tapaus osoittaa ainakin sen, että konekääntäminen on edelleen vaikeaa, etenkin silloin kuin lähtö- ja kohdekieli poikkeavat toisistaan rakenteellisesti. Ainakin suomenkielisten esimerkkien valossa näyttää siltä, että käännökset muodostetaan muuttamalla lähdekielen sanoja kohdekielisiksi yksi kerrallaan ilman, että niiden merkityksiä tai kieliopillisia suhteita analysoidaan kovin pitkälle.

Tämä selittää muun muassa sen, mitä ensimmäisen viestin enigmaattinen ”Rehu Että Veto On Hyvä” -lause tarkoittaa. Espanjankielisessä lähtötekstissä esiintyy sana pienso, joka voi olla joko rehua merkitsevä substantiivi tai verbimuoto, jonka suomenkielinen vastine kuuluu olen sitä mieltä. Näistä jälkimmäinen on tässä yhteydessä luonnollisesti oikea vaihtoehto.

Kun otetaan huomioon, että tässä esimerkissä sana esiintyy että-lauseen edellä, oikean merkityksen tunnistaminen on varsin yksinkertaista myös koneellisesti. Kuitenkin käytetty käännösohjelma on jostain syystä päätynyt väärään merkitykseen ja tämän seurauksena tarjoaa virheellistä käännöstä. Sen sijaan englanninkieliseen versioon on jostain käsittämättömästä syystä päätynyt käännös ”I thing that”, mutta ainakin tässä tapauksessa lähtötekstin sana on ilmeisesti tulkittu oikein.

Käännösvirheistä huolimatta @JukkaRaitala20:n viesteistä välittyy mukavan positiivinen sävy – myös suomeksi:

6 kommenttia

Kategoria(t): Turo Hiltunen