Archiviamo Cassandra, parte seconda

Archivismi/ Dopo aver preparato i Pdf non ci sono più scuse, dobbiamo archiviare il nostro primo articolo.



[ZEUS News - www.zeusnews.it - 29-02-2024]

archiviamo cassandra parte seconda

Questo è un articolo su più pagine: ti invitiamo a leggere la pagina iniziale
Archivismi: la preservazione della cultura

Nelle precedenti pagine di Archivismi abbiamo raccontato le caratteristiche principali di Internet Archive e caricato un semplice documento di esempio. Successivamente ci siamo dati l'ambizioso obiettivo di uploadare l'opera omnia di Cassandra, e abbiamo faticosamente preparato il materiale necessario nei formati e struttura più opportuni.

Non ci sono più scuse; è il momento di iniziare a caricare il primo documento di Cassandra Crossing, con tutte le cosette e i metadati al posto giusto! Dobbiamo quindi cimentarci davvero con ia e, visto che dovremo caricare centinaia di documenti, non farlo direttamente con la linea comandi, caricando un file per volta e scrivendo tutti i parametri e i metadati su una lunghissima linea comandi.

Molto meglio impratichirsi fin da subito con i bulk upload, che si realizzano fornendo a ia un unico parametro, cioè il nome di un foglio elettronico in formato CSV, in cui inseriremo i dati necessari (e li modificheremo tantissime volte per rimediare a inevitabili errori). Il comando per fare ciò è semplicemente

ia metadata - spreadsheet=metadata.csv

Il lavoro vero sarà riempire il foglio elettronico finale con migliaia di righe di dati; ma facciamo un passo alla volta e carichiamo un solo oggetto, per cui un file di tre righe basterà.

Il nostro primo documento conterrà due file tra quelli generati per l'archiviazione, il Pdf come documento principale e l'Html entrocontenuto come secondo file; aggiungeremo anche un minimo sindacale di metadati e l'identificativo verrà scelto uguale al nome dei file, tolta l'estensione. Insomma, dopo molti, molti tentativi ecco il foglio.

Sembra facile ma c'è voluta mezza giornata di lavoro per avere il primo inserimento soddisfacente. Minuzie apparentemente insignificanti ma in realtà diaboliche hanno richiesto un sacco di tempo per prove e controprove. Ve ne racconto qualcuna qui, sperando così di farvi risparmiare tempo prezioso.

1. Quando salvate un foglio elettronico in formato CSV, che vuol dire "valori separati da virgole" non fidatevi della vostra applicazione. In certi casi, qui in Italia, l'applicazione potrebbe decidere di usare non la virgola ma il punto e virgola, e voi non ve ne accorgerete subito. Giuro, è successo!

2. Disabilitate, nell'applicazione con cui state gestendo il foglio elettronico, tutti gli strumenti di autocorrezione; altrimenti il programma deciderà certamente di sostituire qualcosa per il vostro bene. Nel mio caso ha deciso di sostituire due segni meno consecutivi, presenti nei nomi di file, con un "trattino lungo", una modifica praticamente invisibile, anche da linea comandi. Questo ha portato all'inspiegabile messaggio di errore di file non trovato e ha reso necessarie alcune dozzine di prove, con relativi arrampicamenti sugli specchi. Non riferisco qui le parole che sono state pronunciate quando il problema è stato finalmente localizzato!

archiviamo cassandra foglio

3. State molto attenti quando inserite i valori nei campi. Un singolo spazio bianco prima o dopo il valore può non farlo interpretare e avere effetti imprevisti. Uno spazio all'inizio di " test_collection" per esempio ha impedito l'assegnazione corretta dell'oggetto alla collection di test, destinata, come già sapete, ad abilitare la cancellazione automatica dopo 30 giorni. In più considerate che non è possibile assegnare esplicitamente l'oggetto a collezioni pubbliche come "opendata", ma bisogna accettare la selezione automatica che verrà operata dal sistema.

4. Inserite nel foglio la colonna mediatype quando i documenti sono testuali (Txt, Html, Pdf e via dicendo). Usate il valore "texts" altrimenti il sistema assegnerà automaticamente il valore "data" e questo avrà effetti collaterali insidiosi. Per esempio il browser di oggetti non vi farà sfogliare le pagine, malgrado tutti i file derivati necessari siano stati creati correttamente. Il mediatype, contrariamente alla grande maggioranza dei parametri, non può più essere modificato, ma è necessario cancellare e rigenerare l'oggetto.

5. Cancellare un oggetto non è un'operazione istantanea, ma richiede minuti o decine di minuti prima che l'effetto si propaghi in tutte le parti dell'interfaccia del sito. Non merita cancellare da linea comandi con ia; è decisamente più pratico farlo dalla pagina My Upload. Ricaricate spesso la pagina, e se notate cose strane, provate anche a svuotare la cache del browser.

6. La comparsa di un oggetto appena creato nella finestra My Upload stranamente è abbastanza veloce, ma scatena tutte le operazioni "derivative", che a loro volta generano gli altri file in tempi variabili ma abbastanza lunghi. Questo vuol dire, per esempio, che il browser di oggetti non sarà in grado di farvi sfogliare le pagine prima di una mezz'ora, e che la funzionalità di ricerca interna al browser di oggetti sarà attiva solo dopo parecchie ore.

Però, alla fine, che soddisfazione...

Ti invitiamo a leggere la pagina successiva di questo articolo:
Archiviamo Cassandra, parte terza

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Google Drive ora fa il backup dell'intero Pc
Backup automatico, e non ci pensi più
Casseforti in hotel, i consigli degli esperti
Ricerche intelligenti e archiviazione automatica
Come si recuperano i file cancellati?
Sony e il supernastro da 185 Terabyte

Commenti all'articolo (ultimi 5 di 21)

Grazie 🙏🏻
23-4-2024 14:03

:cappello: Leggi tutto
20-4-2024 15:09

Riallacciandomi alla pietra, anche una scheda perforata potrebbe essere durevole, ma invece di essere fatte di cartone ( sono passati quarantanni da quando ne ho visto l'ultima) se fossero fatte di metallo, come mi mostrarono all'epoca, avrebbero una durata notevolmente superiore a quelle attualmente esistenti. L'esempio delle lamine di... Leggi tutto
16-4-2024 12:19

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Da dove scarichi di solito i file (app, film, libri, giochi)?
Scarico i file da fonti sempre diverse
Scarico file da siti di cui mi fido
Non scarico molti file e presto sempre attenzione al sito da cui li scarico
Scarico i file solo da negozi online e da app store di fiducia
Non scarico nulla

Mostra i risultati (1551 voti)
Aprile 2024
Enel nel mirino dell'Antitrust per le bollette esagerate
TIM, altre ''rimodulazioni'' in arrivo
L'algoritmo di ricarica che raddoppia la vita utile delle batterie
Hype e Banca Sella, disservizi a profusione
Falla nei NAS D-Link, ma la patch non arriverà mai
La navigazione in incognito non è in incognito
Le tre stimmate della posta elettronica
Amazon abbandona i negozi coi cassieri a distanza
Marzo 2024
Buone azioni e serrature ridicole
Il piano Merlyn, ovvero la liquidazione di Tim
Falla nelle serrature elettroniche, milioni di stanze d'hotel a rischio
L'antenato di ChatGPT in un foglio Excel
La valle inquietante
La crisi di Tim e la divisione sindacale
La fine del mondo, virtuale
Tutti gli Arretrati
Accadde oggi - 27 aprile


web metrics