Archiviamo Cassandra, parte seconda

Archivismi/ Dopo aver preparato i Pdf non ci sono più scuse, dobbiamo archiviare il nostro primo articolo.



[ZEUS News - www.zeusnews.it - 29-02-2024]

archiviamo cassandra parte seconda

Questo è un articolo su più pagine: ti invitiamo a leggere la pagina iniziale
Archivismi: la preservazione della cultura

Nelle precedenti pagine di Archivismi abbiamo raccontato le caratteristiche principali di Internet Archive e caricato un semplice documento di esempio. Successivamente ci siamo dati l'ambizioso obiettivo di uploadare l'opera omnia di Cassandra, e abbiamo faticosamente preparato il materiale necessario nei formati e struttura più opportuni.

Non ci sono più scuse; è il momento di iniziare a caricare il primo documento di Cassandra Crossing, con tutte le cosette e i metadati al posto giusto! Dobbiamo quindi cimentarci davvero con ia e, visto che dovremo caricare centinaia di documenti, non farlo direttamente con la linea comandi, caricando un file per volta e scrivendo tutti i parametri e i metadati su una lunghissima linea comandi.

Molto meglio impratichirsi fin da subito con i bulk upload, che si realizzano fornendo a ia un unico parametro, cioè il nome di un foglio elettronico in formato CSV, in cui inseriremo i dati necessari (e li modificheremo tantissime volte per rimediare a inevitabili errori). Il comando per fare ciò è semplicemente

ia metadata - spreadsheet=metadata.csv

Il lavoro vero sarà riempire il foglio elettronico finale con migliaia di righe di dati; ma facciamo un passo alla volta e carichiamo un solo oggetto, per cui un file di tre righe basterà.

Il nostro primo documento conterrà due file tra quelli generati per l'archiviazione, il Pdf come documento principale e l'Html entrocontenuto come secondo file; aggiungeremo anche un minimo sindacale di metadati e l'identificativo verrà scelto uguale al nome dei file, tolta l'estensione. Insomma, dopo molti, molti tentativi ecco il foglio.

Sembra facile ma c'è voluta mezza giornata di lavoro per avere il primo inserimento soddisfacente. Minuzie apparentemente insignificanti ma in realtà diaboliche hanno richiesto un sacco di tempo per prove e controprove. Ve ne racconto qualcuna qui, sperando così di farvi risparmiare tempo prezioso.

1. Quando salvate un foglio elettronico in formato CSV, che vuol dire "valori separati da virgole" non fidatevi della vostra applicazione. In certi casi, qui in Italia, l'applicazione potrebbe decidere di usare non la virgola ma il punto e virgola, e voi non ve ne accorgerete subito. Giuro, è successo!

2. Disabilitate, nell'applicazione con cui state gestendo il foglio elettronico, tutti gli strumenti di autocorrezione; altrimenti il programma deciderà certamente di sostituire qualcosa per il vostro bene. Nel mio caso ha deciso di sostituire due segni meno consecutivi, presenti nei nomi di file, con un "trattino lungo", una modifica praticamente invisibile, anche da linea comandi. Questo ha portato all'inspiegabile messaggio di errore di file non trovato e ha reso necessarie alcune dozzine di prove, con relativi arrampicamenti sugli specchi. Non riferisco qui le parole che sono state pronunciate quando il problema è stato finalmente localizzato!

archiviamo cassandra foglio

3. State molto attenti quando inserite i valori nei campi. Un singolo spazio bianco prima o dopo il valore può non farlo interpretare e avere effetti imprevisti. Uno spazio all'inizio di " test_collection" per esempio ha impedito l'assegnazione corretta dell'oggetto alla collection di test, destinata, come già sapete, ad abilitare la cancellazione automatica dopo 30 giorni. In più considerate che non è possibile assegnare esplicitamente l'oggetto a collezioni pubbliche come "opendata", ma bisogna accettare la selezione automatica che verrà operata dal sistema.

4. Inserite nel foglio la colonna mediatype quando i documenti sono testuali (Txt, Html, Pdf e via dicendo). Usate il valore "texts" altrimenti il sistema assegnerà automaticamente il valore "data" e questo avrà effetti collaterali insidiosi. Per esempio il browser di oggetti non vi farà sfogliare le pagine, malgrado tutti i file derivati necessari siano stati creati correttamente. Il mediatype, contrariamente alla grande maggioranza dei parametri, non può più essere modificato, ma è necessario cancellare e rigenerare l'oggetto.

5. Cancellare un oggetto non è un'operazione istantanea, ma richiede minuti o decine di minuti prima che l'effetto si propaghi in tutte le parti dell'interfaccia del sito. Non merita cancellare da linea comandi con ia; è decisamente più pratico farlo dalla pagina My Upload. Ricaricate spesso la pagina, e se notate cose strane, provate anche a svuotare la cache del browser.

6. La comparsa di un oggetto appena creato nella finestra My Upload stranamente è abbastanza veloce, ma scatena tutte le operazioni "derivative", che a loro volta generano gli altri file in tempi variabili ma abbastanza lunghi. Questo vuol dire, per esempio, che il browser di oggetti non sarà in grado di farvi sfogliare le pagine prima di una mezz'ora, e che la funzionalità di ricerca interna al browser di oggetti sarà attiva solo dopo parecchie ore.

Però, alla fine, che soddisfazione...

Ti invitiamo a leggere la pagina successiva di questo articolo:
Archiviamo Cassandra, parte terza

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Google Drive ora fa il backup dell'intero Pc
Backup automatico, e non ci pensi più
Casseforti in hotel, i consigli degli esperti
Ricerche intelligenti e archiviazione automatica
Come si recuperano i file cancellati?
Sony e il supernastro da 185 Terabyte

Commenti all'articolo (ultimi 5 di 24)

Il tempo cancella tutto quello che viene consumato dal tempo. Puoi sempre trovare qualcosa che anche il tempo abbia difficoltà a cancellare. :P Come diceva un proverbio arabo; L'uomo teme il tempo, il Tempo teme le piramidi =) Io poi non sono convinto del formato in cui sono conservati dati poiché il film su pellicola, per la sua... Leggi tutto
14-5-2024 18:44

{Apon75}
Ahahahaha! Che divertimento. Prima congelavano i corpi, nella speranza che in futuro, si disponga di conoscenze e tecniche per "svegliare" il morto e sanarlo dalla malattia incurabile della sua epoca. Visto che la criostasi è una leggenda moderna a cui non crede quasi più nessuno (con i soldi), data... Leggi tutto
9-5-2024 15:24

Grazie 🙏🏻
23-4-2024 14:03

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Qual è l'affidabilità dell'informazione su internet?
La rete è piena di giornalisti non professionisti che scrivono per lo più sulla base del sentito dire, senza una reale verifica dei dati.
Può andar bene per farsi un'idea velocemente, ma è carente se dall'informazione si vuole approfondimento e commento.
L'informazione reperibile in rete è del tutto paragonabile per contenuti e affidabilità a quella dei media tradizionali.
La qualità dell'informazione su internet è certamente più varia di quella offerta dai media tradizionali, ma sapendo scegliere siti e fonti giuste può essere superiore.
Internet è l'ultima frontiera dell'informazione libera e non irreggimentata.

Mostra i risultati (3517 voti)
Marzo 2026
Office EU, la suite open source europea che sfida Microsoft e Google
Svelato per errore MacBook Neo, il portatile economico di Apple
Windows 12 è in arrivo: NPU obbligatoria e milioni di PC a rischio obsolescenza
Motorola lascia Android e va su GrapheneOS, per la massima privacy
Copia privata, scattano gli aumenti: tassato anche il cloud!
Febbraio 2026
Il titolo IBM precipita in borsa: colpa dell'IA e c'entra il COBOL
Outlook diventa inutilizzabile, un bug fa sparire il cursore del mouse
ISEE, la presentazione non è più necessaria: il sistema automatico rivoluziona controlli e procedure
Meta chiude il sito di Messenger
Winhance ottimizza Windows 11: meno app inutili, più velocità e controllo sistema
Grave falla in Chrome già attivamente sfruttata: aggiornare subito il browser di Google
Western Digital ha già venduto tutti gli hard disk del 2026
Claude, il piano gratuito si potenzia: quattro funzioni premium ora accessibili a tutti
Windows più leggero e veloce: WinUtil elimina il superfluo e personalizza il sistema in profondità
Agenzia delle Entrate su IO: avvisi, scadenze e comunicazioni fiscali
Tutti gli Arretrati
Accadde oggi - 10 marzo


web metrics