Archiviamo Cassandra, parte terza

Archivismi: E' tempo di concludere: parte il mass uploading.



[ZEUS News - www.zeusnews.it - 13-03-2024]

archiviamo cassandra parte terza

Questo è un articolo su più pagine: ti invitiamo a leggere la pagina iniziale
Archivismi: la preservazione della cultura

Nelle precedenti pagine di Archivismi abbiamo raccontato come funziona, a grandi linee, una archiviazione "vera" su Internet Archive. "Vera" perché non si tratta di caricare una directory di file, ma di creare veri oggetti archivistici, corredati di tutti i file e i metadati necessari per definire l'oggetto, e renderlo utile e fruibile. I metadati, credeteci o no, sono di gran lunga la cosa più difficile e più utile.

Per archiviare la nostra rubrica preferita è stato necessario chiedersi cosa archiviare, oltre al classico Pdf. La scelta è stata quella di aggiungere un file Html "entrocontenuto" e un file in formato markdown, quest'ultimo utile per ulteriori elaborazioni che fossero necessarie. Alcuni articoli parlavano inoltre di libri o pubblicazioni libere e in questi pochi casi anche il Pdf della pubblicazione è stato inserito nell'oggetto.

E' stato necessario creare questi benedetti 1686 file. I file markdown, Html e Pdf sono stati generati in completo automatismo a partire dai file Html degli articoli esportati da Medium, grazie agli strumenti che erano pronti all'uso, elaborando i dati di input esportati da Medium. Tutto semplice, quindi?Ovviamente no. In questi appunti di viaggio, la vostra profetessa preferita vi racconterà le ulteriori peripezie incontrate nel suo viaggio.

1. I dati da Medium contenevano ancora degli errori. La tipologia più comune e più dolorosa era l'errata costruzione del nome del file, creato rilevando automaticamente il numero dell'articolo. Questo per due ragioni principali. La prima è che alcuni articoli erano semplicemente numerati in maniera errata. La seconda è che i file contenevano sì il numero dell'articolo, non solo nel testo ma anche nell'intestazione creata automaticamente da Medium. Intestazione che una volta creata non veniva poi più aggiornata; indovinate da dove veniva preso il numero dell'articolo?

2. La creazione del foglio elettronico, avendo i file ben creati e rinominati è stata semplice. Aver conservato ogni run di upload in un nuovo foglio è stato utilissimo per localizzare gli errori e ritornare sui propri passi. Anche conservare il log delle esecuzioni di ia è stato utilissimo per estrarre gli errori.

3. Aggiustando la numerazione degli articoli in alcuni casi si è persa la corrispondenza tra nome del file e identificativo dell'oggetto. Infatti, mentre i file e i metadati si possono modificare, aggiungere e cancellare, non è possibile modificare l'identificativo dell'oggetto, una volta creato. Quando si lancia nuovamente la procedura di generazione file, se cambia la numerazione cambiano anche alcuni nomi di file.

Per generare i successivi fogli per il caricamento è stato necessario tenere conto di questo e operare esaustive verifiche di allineamento tra identificatori e nomi dei file. La tentazione di correggere tutto e rilanciare daccapo le procedure era forte. Ma l'automazione totale non è il fine, ma solo un mezzo; risparmiare tempo, facendo comunque le cose per bene, è il vero fine.

4. Il primo bulk upload del solo file Pdf è stato fatto per 10 oggetti. Si è poi atteso che le varie alchimie automatiche di Internet Archive si compissero e si è esaminato attentamente il risultato. A livello di metadati questo ha portato a modificare le scelte per renderli più utili.

5. Si è poi fatto il bulk upload dei rimanenti 552 Pdf, creando così tutti gli oggetti. Gli oggetti, e in particolare gli identificatori, in tutte le successive operazioni che abbiamo fatto non sono mai variati. Durante questo primo vero bulk upload si sono generati messaggi di errore di mancata creazione, perché l'operazione in corso era stata identificata come spam, come questo:

error uploading 186_Cassandra-Crossing — L-Internet-senza-Rete.pdf: Please reduce your request rate. — Your upload of 186_Cassandra-Crossing — L-Internet-senza-Rete from username pippo@pluto.paperino appears to be spam. If you believe this is a mistake, contact info@archive.org and include this entire message in your email.

Detto fatto, ho contattato via email l'help desk che, forse perché sono un utente di vecchia data nonché donatore regolare, in poche ore mi ha tolto qualche evidente limitazione antispam. I successivi inserimenti non hanno più dato nessun problema.

6. Sono stati eseguiti due ulteriori bulk upload separati, uno per i file markdown e uno per gli Html. Sono state necessarie solo due colonne nei fogli elettronici: identificatore e file. I metadati sono stati assegnati al momento della creazione dell'oggetto, quindi del primo bulk upload. Se dovessero essere cambiati in massa, sarà necessario effettuare "bulk correction".

7. Si sono appunto editati i metadati in bulk, inserendo la descrizione (presa dal sottotitolo) e la data di pubblicazione. Ambedue queste colonne di dati sono state generate con una versione modificata della procedura già vista, partendo dai file markdown, estraendo il campo con una regular expression, aggiungendo, ripulendo e correggendo i campi mancanti o errati a mano, e poi copiando i range giusti nel foglio elettronico per il bulk upload.

Malgrado le "standardizzazioni" delle precedenti fasi di redazione e manipolazione dei file degli articoli, per sistemare le discrepanze c'è voluta più di mezza giornata.

8. Qualche altra ora c'è voluta per esaminare sul sito di Internet Archive l'elenco degli articoli ordinati per data e vedere che dentro ci fosse quello che ci deve essere. Anche qui qualche piccolo errore è emerso, ma solo di data. Solo in un caso i titoli e le date erano ambedue invertiti, ma per fortuna anche questi sono metadati, quindi facilmente correggibili. Ma è stata anche una soddisfazione ripercorrere venti anni di lavoro in poche ore!

Ti invitiamo a leggere la pagina successiva di questo articolo:
Cassandra Crossing è per sempre!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
10 ragioni per cui Internet non sostituisce una biblioteca
E-book a noleggio, il fenomeno si estende
Europeana ha superato ogni previsione
La biblioteca digitale italiana
La Biblioteca Ambrosiana adotta OOXML
Reimparare a scrivere si può
Va di moda dire di no a Wikipedia
Sesso e rete, i rischi per la privacy
Ma dove sono finite le cabine telefoniche?
Uccidere il libro cartaceo: stavolta ci prova Sony
Omissis colabrodo, precedenti e riflessioni
Per non pagare in biblioteca
Un pinguino in biblioteca

Commenti all'articolo (ultimi 5 di 21)

Grazie 🙏🏻
23-4-2024 14:03

:cappello: Leggi tutto
20-4-2024 15:09

Riallacciandomi alla pietra, anche una scheda perforata potrebbe essere durevole, ma invece di essere fatte di cartone ( sono passati quarantanni da quando ne ho visto l'ultima) se fossero fatte di metallo, come mi mostrarono all'epoca, avrebbero una durata notevolmente superiore a quelle attualmente esistenti. L'esempio delle lamine di... Leggi tutto
16-4-2024 12:19

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Secondo te quale tra queste donne andrebbe ricordata maggiormente per le sue scoperte?
Elizabeth Blackwell (fu pioniera nella medicina)
Rachel Carson (lanciò il movimento ambientalista contro i fitofarmaci)
Marie Curie (studiò le radiazioni)
Rosalind Franklin (contribuì alla scoperta del DNA)
Jane Goodall (studiò la vita sociale degli scimpanzé)
Ipazia (astronoma e matematica della Grecia antica)
Ada Lovelace (fu la prima programmatrice di computer)
Barbara McClintock (scoprì l'esistenza dei trasposoni)
Maria Mitchell (scoprì la cometa di Mitchell)
Lise Meitner (elaborò la teoria della fissione nucleare)

Mostra i risultati (1922 voti)
Aprile 2024
Enel nel mirino dell'Antitrust per le bollette esagerate
TIM, altre ''rimodulazioni'' in arrivo
L'algoritmo di ricarica che raddoppia la vita utile delle batterie
Hype e Banca Sella, disservizi a profusione
Falla nei NAS D-Link, ma la patch non arriverà mai
La navigazione in incognito non è in incognito
Le tre stimmate della posta elettronica
Amazon abbandona i negozi coi cassieri a distanza
Marzo 2024
Buone azioni e serrature ridicole
Il piano Merlyn, ovvero la liquidazione di Tim
Falla nelle serrature elettroniche, milioni di stanze d'hotel a rischio
L'antenato di ChatGPT in un foglio Excel
La valle inquietante
La crisi di Tim e la divisione sindacale
La fine del mondo, virtuale
Tutti gli Arretrati
Accadde oggi - 27 aprile


web metrics