Archiviamo Cassandra, parte terza

Archivismi: E' tempo di concludere: parte il mass uploading.



[ZEUS News - www.zeusnews.it - 13-03-2024]

archiviamo cassandra parte terza

Questo è un articolo su più pagine: ti invitiamo a leggere la pagina iniziale
Archivismi: la preservazione della cultura

Nelle precedenti pagine di Archivismi abbiamo raccontato come funziona, a grandi linee, una archiviazione "vera" su Internet Archive. "Vera" perché non si tratta di caricare una directory di file, ma di creare veri oggetti archivistici, corredati di tutti i file e i metadati necessari per definire l'oggetto, e renderlo utile e fruibile. I metadati, credeteci o no, sono di gran lunga la cosa più difficile e più utile.

Per archiviare la nostra rubrica preferita è stato necessario chiedersi cosa archiviare, oltre al classico Pdf. La scelta è stata quella di aggiungere un file Html "entrocontenuto" e un file in formato markdown, quest'ultimo utile per ulteriori elaborazioni che fossero necessarie. Alcuni articoli parlavano inoltre di libri o pubblicazioni libere e in questi pochi casi anche il Pdf della pubblicazione è stato inserito nell'oggetto.

E' stato necessario creare questi benedetti 1686 file. I file markdown, Html e Pdf sono stati generati in completo automatismo a partire dai file Html degli articoli esportati da Medium, grazie agli strumenti che erano pronti all'uso, elaborando i dati di input esportati da Medium. Tutto semplice, quindi?Ovviamente no. In questi appunti di viaggio, la vostra profetessa preferita vi racconterà le ulteriori peripezie incontrate nel suo viaggio.

1. I dati da Medium contenevano ancora degli errori. La tipologia più comune e più dolorosa era l'errata costruzione del nome del file, creato rilevando automaticamente il numero dell'articolo. Questo per due ragioni principali. La prima è che alcuni articoli erano semplicemente numerati in maniera errata. La seconda è che i file contenevano sì il numero dell'articolo, non solo nel testo ma anche nell'intestazione creata automaticamente da Medium. Intestazione che una volta creata non veniva poi più aggiornata; indovinate da dove veniva preso il numero dell'articolo?

2. La creazione del foglio elettronico, avendo i file ben creati e rinominati è stata semplice. Aver conservato ogni run di upload in un nuovo foglio è stato utilissimo per localizzare gli errori e ritornare sui propri passi. Anche conservare il log delle esecuzioni di ia è stato utilissimo per estrarre gli errori.

3. Aggiustando la numerazione degli articoli in alcuni casi si è persa la corrispondenza tra nome del file e identificativo dell'oggetto. Infatti, mentre i file e i metadati si possono modificare, aggiungere e cancellare, non è possibile modificare l'identificativo dell'oggetto, una volta creato. Quando si lancia nuovamente la procedura di generazione file, se cambia la numerazione cambiano anche alcuni nomi di file.

Per generare i successivi fogli per il caricamento è stato necessario tenere conto di questo e operare esaustive verifiche di allineamento tra identificatori e nomi dei file. La tentazione di correggere tutto e rilanciare daccapo le procedure era forte. Ma l'automazione totale non è il fine, ma solo un mezzo; risparmiare tempo, facendo comunque le cose per bene, è il vero fine.

4. Il primo bulk upload del solo file Pdf è stato fatto per 10 oggetti. Si è poi atteso che le varie alchimie automatiche di Internet Archive si compissero e si è esaminato attentamente il risultato. A livello di metadati questo ha portato a modificare le scelte per renderli più utili.

5. Si è poi fatto il bulk upload dei rimanenti 552 Pdf, creando così tutti gli oggetti. Gli oggetti, e in particolare gli identificatori, in tutte le successive operazioni che abbiamo fatto non sono mai variati. Durante questo primo vero bulk upload si sono generati messaggi di errore di mancata creazione, perché l'operazione in corso era stata identificata come spam, come questo:

error uploading 186_Cassandra-Crossing — L-Internet-senza-Rete.pdf: Please reduce your request rate. — Your upload of 186_Cassandra-Crossing — L-Internet-senza-Rete from username pippo@pluto.paperino appears to be spam. If you believe this is a mistake, contact info@archive.org and include this entire message in your email.

Detto fatto, ho contattato via email l'help desk che, forse perché sono un utente di vecchia data nonché donatore regolare, in poche ore mi ha tolto qualche evidente limitazione antispam. I successivi inserimenti non hanno più dato nessun problema.

6. Sono stati eseguiti due ulteriori bulk upload separati, uno per i file markdown e uno per gli Html. Sono state necessarie solo due colonne nei fogli elettronici: identificatore e file. I metadati sono stati assegnati al momento della creazione dell'oggetto, quindi del primo bulk upload. Se dovessero essere cambiati in massa, sarà necessario effettuare "bulk correction".

7. Si sono appunto editati i metadati in bulk, inserendo la descrizione (presa dal sottotitolo) e la data di pubblicazione. Ambedue queste colonne di dati sono state generate con una versione modificata della procedura già vista, partendo dai file markdown, estraendo il campo con una regular expression, aggiungendo, ripulendo e correggendo i campi mancanti o errati a mano, e poi copiando i range giusti nel foglio elettronico per il bulk upload.

Malgrado le "standardizzazioni" delle precedenti fasi di redazione e manipolazione dei file degli articoli, per sistemare le discrepanze c'è voluta più di mezza giornata.

8. Qualche altra ora c'è voluta per esaminare sul sito di Internet Archive l'elenco degli articoli ordinati per data e vedere che dentro ci fosse quello che ci deve essere. Anche qui qualche piccolo errore è emerso, ma solo di data. Solo in un caso i titoli e le date erano ambedue invertiti, ma per fortuna anche questi sono metadati, quindi facilmente correggibili. Ma è stata anche una soddisfazione ripercorrere venti anni di lavoro in poche ore!

Ti invitiamo a leggere la pagina successiva di questo articolo:
Cassandra Crossing è per sempre!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
10 ragioni per cui Internet non sostituisce una biblioteca
E-book a noleggio, il fenomeno si estende
Europeana ha superato ogni previsione
La biblioteca digitale italiana
La Biblioteca Ambrosiana adotta OOXML
Reimparare a scrivere si può
Va di moda dire di no a Wikipedia
Sesso e rete, i rischi per la privacy
Ma dove sono finite le cabine telefoniche?
Uccidere il libro cartaceo: stavolta ci prova Sony
Omissis colabrodo, precedenti e riflessioni
Per non pagare in biblioteca
Un pinguino in biblioteca

Commenti all'articolo (ultimi 5 di 24)

Il tempo cancella tutto quello che viene consumato dal tempo. Puoi sempre trovare qualcosa che anche il tempo abbia difficoltà a cancellare. :P Come diceva un proverbio arabo; L'uomo teme il tempo, il Tempo teme le piramidi =) Io poi non sono convinto del formato in cui sono conservati dati poiché il film su pellicola, per la sua... Leggi tutto
14-5-2024 18:44

{Apon75}
Ahahahaha! Che divertimento. Prima congelavano i corpi, nella speranza che in futuro, si disponga di conoscenze e tecniche per "svegliare" il morto e sanarlo dalla malattia incurabile della sua epoca. Visto che la criostasi è una leggenda moderna a cui non crede quasi più nessuno (con i soldi), data... Leggi tutto
9-5-2024 15:24

Grazie 🙏🏻
23-4-2024 14:03

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Fidanzati sospettosi o inguaribili diffidenti, qual è la vostra arma preferita tra quelle che Facebook mette a disposizione di voi gelosoni per controllare il vostro partner?
I cuoricini in bacheca: un segno per far sentire sempre e dovunque la propria presenza, nonché un espediente per marcare il territorio del partner.
L'applicazione "Chi ti segue di più?": bisogna convincere il partner a usare questa applicazione (apparentemente innocua) per scovare eventuali vittime da annotare sulla propria black list.
Facebook Places: permette di taggare compulsivamente il partner e rendere noto al mondo intero il fatto che lei e il suo lui si trovano sempre insieme.
L'auto tag nelle foto: indispensabile strumento per essere certi di ricevere notifiche qualora un'altra persona osasse commentare o piazzare "Mi piace" alle foto del/della partner.
I commenti minatori: il simpatico approccio ossessivo-compulsivo verso chi tagga il partner o ne invade la bacheca. Di solito consiste in un discreto: "Che bello il MIO amore!"
Il profilo Facebook in comune: un unico profilo scoraggia anche il più audace dei rivali dal tentare un approccio.
La password nota al partner: Della serie: "Amore, se non mi nascondi niente allora posso avere la tua password?". Nessun messaggio di posta, commento o notifica è al sicuro.
Il tasto "Rimuovi dagli amici": una volta in possesso della password del partner, qualsiasi rivale dalla foto profilo provocante o la cui identità è sconosciuta verrà subito rimosso dagli amici.
La trappola: spacciandosi per il partner (password nota), si inizia a contattare i presunti rivali e testare le loro intenzioni con domande e allusioni per far cadere in trappola anche i più astuti.
Il Mi piace minatorio: post, foto, tag, nuove amicizie sono regolarmente marchiati da un Mi piace del partner. Dietro una parvenza di apprezzamento, dimostrano quanto in realtà NON piaccia l'elemento.

Mostra i risultati (437 voti)
Settembre 2025
Poste Italiane, i dati di un milione di utenti nel dark web. L'azienda: "Non ci hanno attaccati"
Windows 11, lo speed test si integra nella barra: misura velocità di up/download e latenze
ISEE, titoli di studio e certificati arrivano su IT Wallet. Il portafoglio digitale si espande
Microsoft contro ValueLicensing: fine delle licenze di Windows e Office a prezzi stracciati?
Il web aperto è ufficialmente in crisi: lo ammette pure Google. La colpa è anche della IA
Intelligenza artificiale per le automobili, licenziati 54 ricercatori a Torino
Dolcificanti a zero calorie e declino cognitivo: una ricerca brasiliana scopre un preoccupante legame
WinToUSB trasforma una chiavetta USB in un sistema Windows perfettamente funzionante
Meta accede a tutto il rullino fotografico senza permesso. Ma disattivare si può: ecco come
Agosto 2025
Google, stop all'obbligo di usare Gmail per gli account Android
Browser IA, l'allarme di Malwarebytes: ingannare gli assistenti e rubare dati è fin troppo semplice
Lo script che estende gli aggiornamenti di sicurezza di Windows 10 anche senza account Microsoft
La Danimarca saluta la posta cartacea: la consegna delle lettere terminerà alla fine dell'anno
PayPal, allarme sicurezza: i dati di 15,8 milioni di account in vendita sul dark web
Volkswagen, microtransazioni nelle auto: per utilizzare tutti i cavalli bisogna abbonarsi
Tutti gli Arretrati
Accadde oggi - 19 settembre


web metrics