Blogs, Data, Events

Arkistojen (ja DHH22) ääriviivoja

 ”Pohjimmiltaan kaikki mallinnukset ovat vääriä, mutta jotkut ovat hyödyllisiä.”

Tilastotieteilijä George E. P. Box: Robustness in the strategy of scientific model building. Teoksessa R. L. Launer & G. N. Wilkinson, eds. Robustness in Statistics. New York: Academic Press.

Siltavuorenpenkereellä, Helsingin yliopiston Minervatorilla, on parhaillaan käynnissä järjestyksessä seitsemäs Helsinki Digital Humanities Hackathon (DHH22; 11.-20.5.2022). Tapahtumassa humanistit ja tietotekniikan tutkijat suunnittelevat ja toteuttavat yhdessä humanistivetoisen, datalähtöisen tutkimusprojektin. Tällä kertaa Helsinkiin kokoontunut kansainvälinen joukko on jaettu neljään ryhmään, joista yksi – Epistolary Fingerprints – käsittelee sähköiseen, koneluettevaan muotoon saatettua kirjekokoelmien luetteloiden metadataa eli (datasetistä riippuen) tietoja kirjeiden lähettäjistä, vastaanottajista, ajoista ja paikoista. Minkälaisia humanistisia ja tietoteknisiä kysymyksiä tälle aineistolle voi esittää?

 Kirjeet ja kirjelappuset olivat menneen maailman sähköposteja, teksti- ja pikaviestejä, ja postivaunut, -veneet ja -reet olivat täynnä näitä ihmisiä ja ihmisryhmiä yhdistäviä (joskus ehkä käytännössä erottavia) viestejä. Tiedämme, että kirjeaineistoja sekä katosi että tuhottiin, mutta historiantutkimuksen onneksi aineistoa on myös säilynyt paljon. Esimerkiksi DHH22:ssä käsitellään yli 450 000 kirjeen metatietoja sisältävää datasettiä 1500-1930.

Parhaimmillaan menneisyyden kirjeaineistot muodostavat laajoja, vuosikymmenien yli ulottuvia kokoelmia. Joissain tapauksissa säilynyt aineisto luovutettiin myöhemmin arkistoon, kirjastoon tai museoon. Kulttuuriperintöorganisaatioiden henkilökunta luetteloi eli ”metadatoitti” osan aineistosta, ja osa tästä tiedosta on saatavilla sähköisesti. Silloin tällöin joukko tutkijoita saattaa päättää aggregoida sähköiset metatietoaineistot ja tutkia niitä kokonaisuutena.

DHH22:n työryhmässä Epistolary fingerprints tutkimme tällaisia ”kokoelmankokoelmankokoelmankokoelmankokoelmaa”. Hyödynnämme jo aiemmin sähköisesti selailtavissa olleita aineistoja eli hollantilaista CKCC-korpusta (yli 20 000 kirjeen metatiedot pääasiassa 1600-luvulta, fokus aikakauden tiedemiehissä), saksalaista correspSearch-aineistoa (yli 130 000 kirjeen tiedot pääasiassa 1500-luvulta 1930-luvulle, fokus toimitettujen kirjekokoelmien metatiedoissa) ja suomalaista 1800-luvun metatietoaineistoa, joka koostuu Kansallisarkiston henkilöarkistojen lähes 300 000 kirjeen metatiedoista, Elias Lönnrotin  kirjekokoelmasta (noin 6300) sekä pienemmistä aineistoista (J. V. Snellman, Suomen Taideyhdistys).

Käytössämme oleva data on siis ajallisesti ja historiallisen kontekstin osalta varsin heterogeenistä. Kokoelmien taustalla on myös varsin erilaiset tiedonintressit. Lisäksi kirjemetadata on aukkoista; toisaalta humanisteille fragmentaariset tai huokoiset lähdeaineistot ovat suorastaan lähtöoletus, ja kirjekokoelmien sisältöjä käytetään jatkuvasti niiden selvistä aukkokohdista huolimatta. Humanistin näkökulmasta voimme siis hyvin esittää samalle aineistolle myös määrällisiä kysymyksiä.

Nämä lähtökohdat huomioiden ensimmäinen näkymä kokoelmiimme kokonaisuuksina – ilman ajallisia filttereitä – sai historioitsijan hihkaisemaan innostuksesta (kuva 1). Arkistojen ääriviivat piirtyvät näkyviin! Kansallisarkiston kokoelman (CoCo-datasetti) ero tiukemmin profiloituihin, varsin ”egosentrisiin” eurooppalaisiin kokoelmiin erottuu esimerkiksi heti – vaikka toki Kansallisarkistollakin on oma varsin erityinen kokoelmapolitiikkansa. Suomalainen kulttuuriperintöorganisaatioiden kirjemetadataa kokoava ja tutkiva CoCo-konsortio jatkuu hackathonin jälkeenkin, ja luvassa on kiinnostavia näkymiä muihin kokoelmiin ja esimerkiksi niiden välisiin yhteyksiin.

Kuva 1

Koska dataa oli käsitelty ja visualisointyökaluja kehitetty pitkällisesti jo ennen hackathonia, oli mahdollista saada nopeasti myös näkymä koko aineiston alustavaan sukupuolijakaumaan (kuva 2). Havaitsimme samalla, että Suomen suuriruhtinaskunnan datasetissä on selvästi enemmän naisia kuin CKCC:ssa tai edes correspSearchissa (kuva 3). Yksi alkuvaiheen työvaiheista oli myös parantaa sukupuolijakaumaa parantamalla etunimien tunnistamista ja tutkimalla identifioimattomien varsin suurta joukkoa. Näistä 13 000 henkilöstä (suomalainen data) noin 8000:lla oli tiedoissa pelkät etunimikirjaimet. Käymällä läpi satunnaisen 100 hengen otoksen päättelimme että vähintään 70 % pelkillä nimikirjaimilla luetteloiduista on miehiä, ja pystyimme jälleen tarkentamaan sukupuolijakaumaa.

Työryhmässämme on myös hyvää verkostoanalyysiosaamista nimenomaan historialliseen kirjemetadataan liittyen. Näillä työkaluilla on esimerkiksi mahdollista tunnistaa aineistossa olevia henkilöiden ”kirjeenkirjoittajaprofiileja” eli heidän rooliaan kirjeenvaihtoverkostossa. Elias Lönnrot on esimerkiksi tyypillinen tiedon kerääjä (harvester / gatherer), ja senaattori Leo Mechelin taas osa tiukempaa verkostoa, jonka jäsenet kommunikoivat jatkuvasti keskenään. Nämä esimerkit eivät ole yllättäviä, mutta vastaavalla luonnehtivalla tunnistamisella on esimerkiksi paikannettu englantilaisesta varhaismodernista kirjeaineistosta potentiaalisen vakoojan profiili, ja tunnistettu sen avulla samanlaiseen toimintaan osallistuvia (joiden elämänkulkua voidaan sitten tutkia kvalitatiivisesti). Voisiko metodi toimia esim. ryhmäbiografioiden kirjoittamisen apuna?

Hackathon-työ onkin palauttanut mieleeni brittihistorioitsija Ruth Ahnertin, Sebastian E. Ahnertin, Catherine Nicole Colemanin ja Scott B Weingartin erinomaisen tiivistyksen aikaa vievän datatyöhön ja erilaisten laskennallisten työkalujen tuomista uusista näköaloista aineistoihin:

”A vital by-product of this labour is that during the process researchers become intimately acquainted with the shape of their data, its strengths, weaknesses, and biases. … Attending to these biases created in the creation of the archives with which we work allows us to address them. Networks can be part of that process, helping us to describe the data we have, and therefore allowing us to see where gaps and skews are present and to think critically about the ways in which they may be addressed.”

The Network Turn. Changing Perspective In the Humanities (2020: 55)