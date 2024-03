Archivismi/ Dopo aver preparato i Pdf non ci sono più scuse, dobbiamo archiviare il nostro primo articolo.

Archivismi: la preservazione della cultura

Nelle precedenti pagine di Archivismi abbiamo raccontato le caratteristiche principali di Internet Archive e caricato un semplice documento di esempio. Successivamente ci siamo dati l'ambizioso obiettivo di uploadare l'opera omnia di Cassandra, e abbiamo faticosamente preparato il materiale necessario nei formati e struttura più opportuni.

Non ci sono più scuse; è il momento di iniziare a caricare il primo documento di Cassandra Crossing, con tutte le cosette e i metadati al posto giusto! Dobbiamo quindi cimentarci davvero con ia e, visto che dovremo caricare centinaia di documenti, non farlo direttamente con la linea comandi, caricando un file per volta e scrivendo tutti i parametri e i metadati su una lunghissima linea comandi.

Molto meglio impratichirsi fin da subito con i bulk upload, che si realizzano fornendo a ia un unico parametro, cioè il nome di un foglio elettronico in formato CSV, in cui inseriremo i dati necessari (e li modificheremo tantissime volte per rimediare a inevitabili errori). Il comando per fare ciò è semplicemente

ia metadata - spreadsheet=metadata.csv

Il lavoro vero sarà riempire il foglio elettronico finale con migliaia di righe di dati; ma facciamo un passo alla volta e carichiamo un solo oggetto, per cui un file di tre righe basterà.

Il nostro primo documento conterrà due file tra quelli generati per l'archiviazione, il Pdf come documento principale e l'Html entrocontenuto come secondo file; aggiungeremo anche un minimo sindacale di metadati e l'identificativo verrà scelto uguale al nome dei file, tolta l'estensione. Insomma, dopo molti, molti tentativi ecco il foglio.

Sembra facile ma c'è voluta mezza giornata di lavoro per avere il primo inserimento soddisfacente. Minuzie apparentemente insignificanti ma in realtà diaboliche hanno richiesto un sacco di tempo per prove e controprove. Ve ne racconto qualcuna qui, sperando così di farvi risparmiare tempo prezioso.

1. Quando salvate un foglio elettronico in formato CSV, che vuol dire "valori separati da virgole" non fidatevi della vostra applicazione. In certi casi, qui in Italia, l'applicazione potrebbe decidere di usare non la virgola ma il punto e virgola, e voi non ve ne accorgerete subito. Giuro, è successo!

2. Disabilitate, nell'applicazione con cui state gestendo il foglio elettronico, tutti gli strumenti di autocorrezione; altrimenti il programma deciderà certamente di sostituire qualcosa per il vostro bene. Nel mio caso ha deciso di sostituire due segni meno consecutivi, presenti nei nomi di file, con un "trattino lungo", una modifica praticamente invisibile, anche da linea comandi. Questo ha portato all'inspiegabile messaggio di errore di file non trovato e ha reso necessarie alcune dozzine di prove, con relativi arrampicamenti sugli specchi. Non riferisco qui le parole che sono state pronunciate quando il problema è stato finalmente localizzato!

3. State molto attenti quando inserite i valori nei campi. Un singolo spazio bianco prima o dopo il valore può non farlo interpretare e avere effetti imprevisti. Uno spazio all'inizio di " test_collection" per esempio ha impedito l'assegnazione corretta dell'oggetto alla collection di test, destinata, come già sapete, ad abilitare la cancellazione automatica dopo 30 giorni. In più considerate che non è possibile assegnare esplicitamente l'oggetto a collezioni pubbliche come "opendata", ma bisogna accettare la selezione automatica che verrà operata dal sistema.

4. Inserite nel foglio la colonna mediatype quando i documenti sono testuali (Txt, Html, Pdf e via dicendo). Usate il valore "texts" altrimenti il sistema assegnerà automaticamente il valore "data" e questo avrà effetti collaterali insidiosi. Per esempio il browser di oggetti non vi farà sfogliare le pagine, malgrado tutti i file derivati necessari siano stati creati correttamente. Il mediatype, contrariamente alla grande maggioranza dei parametri, non può più essere modificato, ma è necessario cancellare e rigenerare l'oggetto.

5. Cancellare un oggetto non è un'operazione istantanea, ma richiede minuti o decine di minuti prima che l'effetto si propaghi in tutte le parti dell'interfaccia del sito. Non merita cancellare da linea comandi con ia; è decisamente più pratico farlo dalla pagina My Upload. Ricaricate spesso la pagina, e se notate cose strane, provate anche a svuotare la cache del browser.

6. La comparsa di un oggetto appena creato nella finestra My Upload stranamente è abbastanza veloce, ma scatena tutte le operazioni "derivative", che a loro volta generano gli altri file in tempi variabili ma abbastanza lunghi. Questo vuol dire, per esempio, che il browser di oggetti non sarà in grado di farvi sfogliare le pagine prima di una mezz'ora, e che la funzionalità di ricerca interna al browser di oggetti sarà attiva solo dopo parecchie ore.

Però, alla fine, che soddisfazione...

