Avainsana-arkisto: korpuslingvistiikka

CEECing new directions with Digital Humanities

This past week I was talking about the relationships between corpus linguistics and digital humanities as a visiting scholar at VARIENG, a very well known historical sociolinguistics and corpus linguistics working group. Corpus linguistics is a very text-oriented approach to language data, with much interest in curation, collection, annotation, and analysis – all things of much concern to digital humanists. If corpus linguistics is primarily concerned with text, digital humanities can be argued to be primarily be concerned about images: how to visualize textual information in a way that helps the user understand and interact with large data sets.

VARIENG has been compiling the Corpus of Early English Correspondence (CEEC) for a number of years, and one of their primary concerns is ‘what else can we do with all this metadata we’ve created’? Together, we discussed three main themes of corpus linguistics and digital humanities: access, ability, and the role of supplementary vs created knowledge. Digital humanities runs on a form of knowledge exchange, but this raises questions of who knows what, how, and how to access them.

Approaching a computer scientist with a bunch of historical letters may raise some “so what” eyebrows, but likewise, a computer scientist approaching a linguist with a software package to pull out lexical relationships might raise similar “so what” eyebrows: why should we care about your work and what can we do with it? Because both groups walk in with very different kinds of expertise, one of the very big challenges of digital work is to be able to reach a common language between the disciplines: both have very established, very theoretically-embedded systems of working.

All of this is to say that the takeaway factor for corpus linguistics research, and indeed any kind of digitally-inflected project, is very high. As Matti Rissanen says, and rightly so, “research begins when counting ends”. The so-what factor of counting requires heavy contextualization, human brainpower, time, funding, systems and communication – and none of these features are unique to corpus linguistics. Digitally-inflected scholarship requires complementary expertise in techniques, working and interacting with data; we need humanistic questions which can be pushed further with digital methods, not digital methods which (we hope) will push humanistic questions further. While it is nice to show what we already understand by condensing lots of information into a pretty picture, there are deeper questions to ask. If digital humanities currently serves mostly to supplement knowledge, rather than create new knowledge, we need to start thinking forward to ask “What else can we do with this data we’ve been curating?”

One thing we can do with this data is view it in new tools and learn to ask different questions, as we did with Docuscope, a rhetorical analysis software developed at Carnegie Mellon University.

Docuscope
F_1720-39.txt
Digital tools and techniques are question-making machines, not answer-providing packages. Here we may ask ourselves why F_1720-39.txt has a low count of Personal Pronouns in Docuscope, and the answer may be that what we consider to be personal pronouns (grammatically) are categorized otherwise by Docuscope and that other constructions are used instead. This isn’t magic and this can’t be quiet handwaving: we should be pushing ourselves towards asking questions which were previously impossible at the scale of sentence-level or lexical-level of detail, because suddenly we can.

Resources

Slides from last week’s workshops (right-click to save as pdf files):

Jätä kommentti

Kategoria(t): Heather Froehlich

Kielellisiä innovaatioita metsästämässä

Suomen puhuja ei ole voinut välttyä kohtaamasta sellaisia sanoja kuin hyperaktiivinen, ultrakeveä tai pseudohistoriallinen. Mutta mitä nämä hyper-, ultra– ja pseudo– oikeastaan ovat? Näitä muodostimia on jonkin verran tutkittu kielitieteessä, mutta tutkijat eivät ole täysin yksimielisiä siitä, mitä ne tarkalleen ottaen ovat. Yleinen käsitys on se, että ne sijoittuvat jonnekin perinteisten affiksien (eli sanavartaloon kiinnittyvien liitteiden) ja yhdysosien välimaastoon. Niitä onkin yleisesti alettu kutsua neoklassisiksi yhdysosiksi (englanniksi combining forms), sillä suuri osa niistä on lainattu klassisista kielistä kreikasta ja latinasta. Tällainen yhdysosa voi esiintyä alun esimerkkien tavoin sanan alussa, tai vaihtoehtoisesti lopussa (yleistä erilaisten tieteenalojen nimissä, kuten (psyko)logia, (karto)grafia ja (astro)nomia).

Osa näistä yhdysosista on esimerkkien tavoin kaikille tuttuja ja melkein jokapäiväisiä, osa taas (joukossa sellaisia helmiä kuin glottokronologia tai immunohistologia)  kuuluu kovaan tieteelliseen terminologiaan, jonka merkitystä tavallisen tallaajan lienee turha yrittääkään opetella. Monet yhdysosista ovatkin levinneet kieleen nimenomaan tieteellisten tekstien ja käsitteiden kautta, joista vain osa on levinnyt yleiseen käyttöön asti. Myös yhteiskunnassa tapahtuvat muutokset ja erilaiset muoti-ilmiöt saattavat synnyttää uusia sanoja: viime aikoina Suomen tiedotusvälineissä on esimerkiksi pohdittu Sauli Niinistön ja Vladimir Putinin välistä elekieltä — kremlinologian hengessä totta kai.

Juuri tarkastukseen menneessä gradussani tutkin näiden neoklassisten yhdysosien produktiivisuutta englannissa. Produktiivisuus tarkoittaa kielen puhujien kykyä luoda ja keksiä kieleen uusia sanoja erilaisia muodostimia käyttäen. Jos esimerkiksi jokin etuliite on produktiivinen, se kiinnittyy helposti erilaisiin sanavartaloihin muodostaen uusia sanoja kieleen.

Miten produktiivisuutta sitten mitataan? Helpoin ja intuitiivisin tapa on laskea kielestä kaikki sanat, jotka sisältävät jonkin tietyn elementin. Maalaisjärkikin sanoo, että jos jokin muodostin on yleinen, sitä on helppo käyttää ja se on ikään kuin puhujien ”kielen päällä” ja kognitiivisessa reservissä valmiina hyödynnettäväksi. Tärkeitä johtolankoja ovat uniikit, tutkimusaineistossa ainoastaan kerran esiintyvät sanat, sillä niiden voi sanoa jollain lailla mittaavan kielenpuhujien innovatiivisuutta ja kykyä keksiä sanoja hetken mielijohteesta. Omassa gradussani on käytetty lisäksi tilastollisia menetelmiä, jotka perustuvat suurten tekstimassojen eli kielikorpuksen analysoimiseen. Kun käytettävissä on suuri määrä tilastollista dataa, on mahdollista laskea todennäköisyyksiä eri muodostimien esiintymiselle.

Mikä sitten on tutkimuksen lopputulos? Ovatko nämä muodostimet produktiivisia? Kuten tieteessä usein, mitään yksiselitteistä vastausta on vaikea antaa. Sen voi ainakin todeta, että erityisesti sanavartalon alkuun liitettävät muodostimet osoittautuivat jälkiosia produktiivisemmiksi. Esimerkiksi hyper– ja super-liitteitä on helppo yhdistää melkein minkä tahansa sanan alkuun, kun taas –logiat ja –grafiat vaativat hieman enemmän vaivannäköä ja kielellistä leikkimielisyyttä.

Jätä kommentti

Kategoria(t): Eeva Rita-Kasari

Omenoita internetissä

Kypäröiden … äh … kypärien. Radiohaastateltavan itsekorjaus kiinnitti huomiota. Vastaavia tapauksia riittää. Kumpi olisi omena-sanan luontevampi monikon genetiivi, omenien vai omenoiden? Vai omenoitten tai peräti omenain? Itse käytän ainakin kahta ensimmäistä ‒ niin kuin varmaan myös muotoja kypäröiden ja kypärien. En vain tiedä tarkalleen missä yhteydessä valitsen niistä jomman kumman.

Kieli sallii vaihtelun. Vaihtelusta kiinnostunut pääsee lähituntumaan jo selaamalla nettiä. Kypärien johtaa googlessa 43.500 hitillä kypäröiden 13.700 osumaa vastaan. Omenat taas menevät päinvastoin: omenien 50.800 tapausta jää vähemmistöön omenoiden 141.000 esiintymään verrattuna. Netti ei vain aina ole kovin luotettava tiedonlähde: omenien näyttää olevan myös varsin aktiivinen YouTube-tykkääjä.

Kielen opiskelijan ja tutkijan avuksi tulevat digitaaliset tekstikokoelmat eli korpukset. Osa niistä on kooltaan pieniä, osa suuria, mutta yhteistä niille on, että ne ovat strukturoituja, pienet yleensä tarkemmin, isommat suuren työmäärän tähden väljemmin. Miljoonan sanan korpus edusti ylärajaa vielä neljäkymmentä vuotta sitten, kun nykyään sadan miljoonan kokoluokkakaan ei enää hätkähdytä.

Englannin tutkijana on huomannut, että korpuksetkin vanhenevat: kymmeniä vuosia sitten koottu aineistokokonaisuus ei enää edusta nykykieltä. 1990-luvun puolivälissä julkaistu 100 miljoonan sanan British National Corpus toki tuntee esimerkiksi sanan internet (94 esiintymää). Näin siitä kirjoitetaan:

Members of the Computing Sub-Group have been in discussion with a number of specialists, to establish the desirability and practicality of connecting to the Internet […] Several members of the Group are convinced that connection is essential to facilitate the development of our scientific and information systems over the next ten years. It may be regarded as an infrastructure element for the movement of information, in the same way as roads and railways control and permit the movement of people and goods. (Royal Botanic Garden Edinburgh: miscellaneous documents)

Oikein ennustettu. Uudemmassa ja neljä kertaa suuremmassa nykyamerikanenglannin korpuksessa (Corpus of Contemporary American English) internetin esiintymiä on jo peräti 37.535. Tämä korpus kattaa vuodet 1990‒2012 ja kasvaa jatkuvasti. Sen avulla voi seurata sanojen ja rakenteiden viimeaikaista kehitystä. Alla pylväsdiagrammi internet-sanan esiintymistä viimeisen parin vuosikymmenen aikana.

internet

Kuten kuva kertoo, internet-sanan huipputaajuudet ajoittuvat 2000-luvun alkuun. Sen jälkeen suunta on ollut tasaisen laskeva. Kun netin käyttö ei suinkaan osoita taantumisen merkkejä, mietittäväksi jää, mitä muita ilmauksia ihmiset nykyään käyttävät. Vai onko netti jo siinä määrin arkipäiväistynyt, että siitä riittää vähemmän puhetta?

Jätä kommentti

Kategoria(t): Terttu Nevalainen

Pilvistä

Sanapilvet ovat haitallisia, ja Jacob Harris lähettäisi ne suorinta tietä takaisin sinne, mistä ne ovat tulleet.

Muutaman viikon takaisessa artikkelissaan Harris, New York Timesin ohjelmistoarkkitehti, arvostelee rankasti sanapilvien käyttöä uutisjutuissa. Sanapilvi on esimerkiksi Wordle-sivustolla tuotettu kuva, joka esittää visuaalisessa muodossa yhdessä tai useammassa tekstissä käytetyt sanat siten, että kunkin sanan koko heijastaa sen yleisyyttä. Siis tähän tyyliin:

Kuvassa on Seitsemän veljestä -romaanin sanoista tehty pilvi, josta yleisinä sanoina erottuvat selvästi päähenkilöiden nimet.

Mikä sanapilvien käytössä sitten on vikana? Harrisin mukaan se, että ne eivät itse asiassa auta maallikkoa ymmärtämään, mistä monimutkaisessa aineistossa on kyse, ja asiaan perehtyneelle lukijallekin ne kertovat vain sen, minkä hän todennäköisesti muutenkin tietää. Sanapilvet eivät kerro tarinoita. Pahimmassa tapauksessa ne johtavat harhaan, ja parhaimmillaankin ne ovat pelkästään vaikeita tulkita.

Sanapilvien tuottaminen on kuitenkin äärimmäisen helppoa ja nopeaa. Siksi Harrisin mukaan toimittajat turvautuvat niihin erityisesti silloin, kun heidän oma tietopohjansa aiheesta on vajavainen. Sanapilvi on kuitenkin huono asiantuntemuksen korvike, koska se kertoo ainoastaan siitä, miten usein eri sanat esiintyvät. Sen perusteella ei voi suoraan vetää johtopäätöksiä sanojen keskinäisistä suhteista, saati sitten siitä, miten niiden takana olevat käsitteet suhtautuvat toisiinsa.

Harrisin argumentti on selkeästi esitetty ja perustelut vakuuttavat. Suosittelen artikkelin lisäksi vilkaisemaan mukana olevan linkin takaa löytyvää Harrisin esitystä, jossa hän tarjoaa vaihtoehtoisen tavan havainnollistaa Wikileaks-dokumenttien tietoa. Sittemmin New York Timesissä julkaistu visualisaatio on kiistämättä parempi ja kiinnostavampi kuin sanapilvi – samalla toki paljon työläämpi ja teknisesti vaativampi toteuttaa.

Sanapilville on varmasti sijansa monissa yhteyksissä, esimerkiksi erilaisissa opetustilanteissa keskustelun herättäjänä tai vaikkapa muistin tukena, eikä Harrisilla tätä vastaan mitään näytä olevankaan. Sen sijaan kyytiä saa sanapilvien käyttö tutkimusinstrumenttina tai -tuloksena:

Every time I see a word cloud presented as insight, I die a little inside.

Wordlen puolustukseksi on toki sanottava, että se ei väitäkään olevansa journalistin tai kielentutkijan työkalu vaan ”lelu, jolla käyttäjä voi tuottaa sanapilviä haluamastaan tekstistä.”

Sivusto on kuitenkin tehnyt pilvien tuottamisesta niin vaivatonta, että niitä löytyy sanomalehtien sivuilta ympäri maailmaa – esimerkkeinä vaikka Huffington Postin näkemys mielenosoituksesta Wall Streetillä (13.10.2011), Liverpool Echon kuvaus Hillsborough’n onnettomuudesta käydystä keskustelusta parlamentin alahuoneessa (18.11.2011) ja El Paisin suorittama sosialistien ja kansanpuolueen vaaliohjelmien vertailu (1.11.2011).

Myös Talouselämä käytti sanapilviä viime kesäkuussa vertaillakseen uuden ja väistyvän hallituksen ohjelmia. Tulokset jäivät kuitenkin laihoiksi, ja lyhyen jutun päättävä virke osoittaa, että Harrisin kritiikille on olemassa vahvat perusteet. Kyseinen virke nimittäin kuuluu: ”Erot eivät ole kovin suuria – mutta erot asuvat yksityiskohdissa?”

Sanalistat (joista sanapilviä muodostetaan) ovat hyödyllisiä monissa tilanteissa, mutta niistä puuttuu suuri osa alkuperäiseen tekstiin sisältyvästä informaatiosta, minkä kielentutkijat toki hyvin tietävät. Sanapilvet eivät näin ollen valitettavasti tarjoa oikotietä sen selvittämiseksi, mitä jokin ilmiö tai sitä käsittelevät tekstit ”oikeasti” merkitsevät.

5 kommenttia

Kategoria(t): Turo Hiltunen