Il giorno dopo l'upload

Archivismi - Ieri abbiamo fatto il nostro primo upload e ne abbiamo visto i risultati. Ma oggi è cambiato qualcosa?



[ZEUS News - www.zeusnews.it - 15-01-2024]

archivismi 4 main

Questo è un articolo su più pagine: ti invitiamo a leggere la pagina iniziale
Archivismi: la preservazione della cultura

Nelle scorse puntate Cassandra ha cercato di raccontarvi una parte del funzionamento di Internet Archive. Abbiamo appena scalfito la superficie delle sue caratteristiche, e per non annoiarci abbiamo provato ad archiviare il file Pdf di un articolo di Cassandra, e a descrivere cosa succedeva.

Ci siamo così resi conto di aver avviato un processo tanto complesso quanto lento, ma per fortuna completamente automatico. Tanto lento che dopo più di mezz'ora non si era ancora concluso. Tornando oggi sulla pagina del documento, troviamo il browser di oggetti di Internet Archive attivo, e il processo che si è completato. 

archivismi 4 01

E' possibile sfogliare rapidamente le pagine, farle leggere a una voce molto robotica e selezionare parti di testo su qualsiasi pagina. Sembrano cose da poco, considerando che la sorgente era un pdf "moderno", ottenuto direttamente da un documento LibreOffice, ma in effetti l'apparentemente "semplice" pdf è stato scomposto in una quantità di file, alcuni dei quali non avevamo ancora analizzato.

archivismi 4 02

Anche solo dai nomi, possiamo facilmente capire che un qualche processo OCR di riconoscimento dei caratteri è stato eseguito automaticamente. Questi file, alcuni dei quali vengono usati dal browser di oggetti di Internet Archive, permettono a quest'ultimo di visualizzare il documento.

A questo punto qualcuno degli informatissimi 24 lettori sbotterà «Ma tutto questo è assolutamente banale: lo si poteva fare anche con Acrobat Reader, senza tutto questo ambaradan». Il caro lettore ha ragione sul fatto specifico, ma torto sulla questione più generale. Si', perché archiviando il pdf moderno di 3 pagine abbiamo in realtà usato un cannone per ammazzare una zanzara, per di più gracilina e malata.

Ora è arrivato il momento di provare a scatenare tutta la potenza archiviativa di Internet Archive. Per questo Cassandra ha sfruttato un lavoro di archiviazione che attendeva il suo alter-ego Marco Calamari. Si trattava di archiviare un centinaio di numeri di una piccola rivista, uscita negli ultimi 30 anni ed esclusivamente in formato cartaceo. 

Erano già stati raccolti i file .pdf generati dai vari programmi di impaginazione elettronica usati per realizzare la rivista, e per fortuna conservati come sottoprodotto. Erano state anche realizzate, artigianalmente e in vari modi, le scansioni dei primi numeri cartacei, anche questi in formato pdf, ma ovviamente non ricercabili, essendo le pagine delle "fotografie".

Tutto questo materiale, anche se già in formato digitale, avrebbe richiesto un tempo lunghissimo per essere messo insieme, allineato e pubblicato in un formato ricercabile e riutilizzabile, particolarmente in ambiti di archiviazione "seria".

Infatti il vero, grosso problema non era quello di creare una collezione di file pdf, ma quella di archiviarla in maniera utile, ricercabile e consultabile. Altrimenti, come spesso accade, questi file, pur faticosamente raccolti, sarebbero prima o poi finiti dimenticati in una chiavetta in fondo a un cassetto, o in un angolo di cloud commerciale, effimero e dove nessuno (tranne i GAFAM) li avrebbe potuti trovare e utilizzare.

Ma è bastato mettere insieme i 75 file di vario formato e contenuto in un unico pdf, usando l'utilissimo software libero Pdftk, realizzando cosi' un pdf unico di quasi 1 Tbyte, e uploadare quest'ultimo su Internet Archive, esattamente come avevamo fatto per l'articoletto di tre pagine. Anche questo file è stato preso in carico dal sistema e "tritato" per tutta la notte; stamani era già disponibile.

Tutte le anomalie e le differenze erano state risolte automaticamente; un documento di 662 pagine contenente l'intera raccolta della rivista era disponibile, rapidamente sfogliabile, selezionabile, ricercabile e ascoltabile, ed era stato creato con un impegno di pochi minuti di tempo.

archivismi 4 03

Se aggiungiamo a questo il fatto che il documento è stato archiviato in maniera ridondante in più data center, e si trova in una in una biblioteca digitale che lo mette a disposizione di chiunque, liberamente ricercabile e visualizzabile, la cosa diventa quasi stupefacente, anche senza aggiungere che è disponibile pure in formato ebook (.epub) e che se necessario può essere ulteriormente "lavorato" per altri scopi. 

Giusto per descrivere in linea di massima cosa è stato prodotto durante l'archiviazione: il pdf originale è stato diviso in pagine, prima di tutto per velocizzarne la visualizzazione. Ciascuna pagina è costituita da un file pdf in un formato particolare, una immagine di sfondo, la scansione della pagina originale, più un layer di testo selezionabile, sovrapposto alla pagina e generato sottoponendo a OCR la scansione stessa. 

La cosa veramente notevole è che il sistema è stato in grado di gestire correttamente un misto di file pdf con differenti strutture interne, da semplici scansioni a pdf strutturati, e di riportarli tutti a un minimo comune multiplo costituito dai pdf a strati delle singole pagine.

Se tutto questo vi sembrasse poco, è perché questa serie di articoli non è adatta a voi; è invece adatta ai futuri bibliotecari digitali che, per caso o per fortuna, siano capitati su queste paginette. Ma potreste ancora cambiare idea.

Ti invitiamo a leggere la pagina successiva di questo articolo:
L'organizzazione dei documenti in Internet Archive

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
The Internet Archive raggiunge i 4,5 petabyte
Biblioteche digitali nel terzo millennio

Commenti all'articolo (ultimi 5 di 24)

Il tempo cancella tutto quello che viene consumato dal tempo. Puoi sempre trovare qualcosa che anche il tempo abbia difficoltà a cancellare. :P Come diceva un proverbio arabo; L'uomo teme il tempo, il Tempo teme le piramidi =) Io poi non sono convinto del formato in cui sono conservati dati poiché il film su pellicola, per la sua... Leggi tutto
14-5-2024 18:44

{Apon75}
Ahahahaha! Che divertimento. Prima congelavano i corpi, nella speranza che in futuro, si disponga di conoscenze e tecniche per "svegliare" il morto e sanarlo dalla malattia incurabile della sua epoca. Visto che la criostasi è una leggenda moderna a cui non crede quasi più nessuno (con i soldi), data... Leggi tutto
9-5-2024 15:24

Grazie 🙏🏻
23-4-2024 14:03

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Chi di questi 10 non ha meritato il premio Nobel per la Pace?
Elihu Root, segretario di Stato USA, vincitore nel 1912, indagato per la repressione degli indipendentisti filippini.
Aristide Briand, politico francese, vincitore nel 1926, nonostante molti sostengano che gli accordi da lui voluti abbiano portato la Germania a tentare la successiva espansione verso est.
Frank Kellogg, vincitore nel 1929: la sua idea per evitare le guerre fu sconfessata di lì a breve dalla politica tedesca.
Carl von Ossietzky, giornalista tedesco, vincitore nel 1935 per aver rivelato la politica tedesca di riarmo in violazione dei trattati. Meritava il premio, ma la tempistica fu pessima: venne deportato in un campo di concentramento.
Nessuno: nel 1948 il premio non venne assegnato. Sarebbe potuto andare a Mohandas Ghandi, ma era stato assassinato e il Comitato non permise che il premio fosse assegnato alla memoria.
Henry Kissinger e Le Duc Tho, vincitori nel 1973 per aver negoziato il ritiro delle truppe USA dal Vietnam. Il primo però approvò il bombardamento contro la Cambogia; il secondo rifiutò il premio.
Yasser Arafat, Shimon Peres e Yitzakh Rabin, vincitori nel 1994, sebbene gli accordi di Oslo abbiano avuto effetti molto brevi.
Kofi Annan e le Nazioni Unite, vincitori nel 2001, investigato nel 2004 per il coinvolgimento del figlio in un caso di pagamenti illegali nel programma Oil for Food.
Wangari Muta Maathai, vincitrice nel 2004, convinta che il virus HIV sia stato creato in laboratorio e sfuggito per errore.
Barack Obama, vincitore nel 2009, appena eletto presidente degli USA.

Mostra i risultati (2088 voti)
Aprile 2025
"Imbrogliare su tutto": dagli esami universitari ai colloqui di lavoro
Intel pronta a licenziare 20.000 persone
Fire TV stick, Amazon pronta a lasciare Android per Vega OS
Siti per adulti, Agcom impone la verifica dell’età con il doppio anonimato
Android sempre più esigente: ora servono almeno 32 Gbyte
Il terzo giorno Android si riavvia
Microsoft: ''Non toccate la cartella misteriosa''
Windows Recall, forse è la volta buona
Le funzioni di Skype che Teams non ha
WhatsApp per Windows: non aprite quell'immagine
Vibe coding: creare programmi senza saper programmare
Dalla Cina l'alternativa a HDMI e DisplayPort
Pesci d'aprile, ci casca anche la IA
Thunderbird si evolve: in arrivo una versione Pro e il servizio Thundermail
Segnali dal futuro
Tutti gli Arretrati
Accadde oggi - 28 aprile


web metrics