Rinfrescare, riordinare, rivedere, rimpolpare

Appunti di Archivismi/ Quando si crea un'archiviazione di informazioni se ne deve curare anche aggiornamento, manutenzione e correzioni. Se si è usato Internet Archive è bene conoscere potenzialità, problemi e trucchi.



[ZEUS News - www.zeusnews.it - 05-10-2025]

L'iniziativa Archivismi ha lasciato a Cassandra l'onere di occuparsi (con gioia) di tutto quanto archiviato. E se l'archiviazione nell'Arctic World Archive non permette, e quindi neppure richiede, alcuna manutenzione, essendo laggiù possibile solo effettuare una nuova archiviazione, altrettanto non si può dire per le archiviazioni fatte su Internet Archive. Si tratta infatti di archiviazioni "vive", come in una biblioteca vera, si possono inserire nuovi libri, si può cancellare un libro danneggiato, si possono aggiornare i libri con un'edizione successiva qualitativamente migliore, si possono aggiungere allegati a un libro, si possono ampliare o correggere collezioni di libri.

Come in precedenti articoli di Archivismi, anche questo sarà formato da singoli punti monotematici; se quello che vi è descritto vi dovesse capitare, avrete così una soluzione già pronta in mano. E comunque anche solo leggerli serve anche a capire come muoversi.

Zero: Grazie al lavoro fatto, Cassandra ha scoperto una grossa falla nel processo di estrazione dei dati che Medium.com offre, cosa che solo per fortuna non ha prodotto serie conseguenze nell'archiviazione di Cassandra Crossing. Quando si esportano i dati di un account di Medium.com, si ottiene, come in altri social, una serie di directory, ciascuna delle quali contiene informazioni di un certo tipo, il tutto eventualmente con una pagina Html di indice. Questo era il caso di Medium.com; scompattando l'estrazione, una della directory conteneva tutti gli articoli in formato Html. Si trattava però di un Html pessimo, pieno di tag utili solo al funzionamento del loro sito, che lo rendevano illeggibile e difficilmente elaborabile. Quindi, prima di produrre i file per l'archiviazione, era necessario ripulire l'Html e solo poi generare i file Markdown, Html e Pdf destinati all'archiviazione finale.

Tutto questo era stato eseguito in maniera automatica da un singolo script bash, tramite l'impiego di normali utility Unix e di Pandoc, un programma di conversione di formati testuali estremamente potente, che usa LaTeX come formato intermedio. Modificare lo script per altri sistemi operativi dovrebbe essere fattibile ma lasciamo volentieri l'esercizio al lettore, che nel frattempo potrebbe anche cadere vittima della tentazione di passare a un sistema operativo libero. Cassandra vi aveva già fornito e spiegato lo script nelle precedenti puntate di Archivismi, in particolare questa e questa. L'ultima versione, come quella di allora, non è perfetta ma sempre un work-in-progress; Cassandra ve lo riallega nuovamente, per i piccoli ma importantissimi cambiamenti che ha apportato in questi mesi (e questa volta non c'è bisogno di convertire i caratteri!).

# Procedura per la preparazione all'archiviazione degli articoli # di Cassandra Crossing # # inizializzazioni varie _base="./"
_base2="./posts/"
_base3="./markdown/"
_base4="./temp/"
_base5="./html/"
_base6="./pdf/"
_base7="./post2/"
_base8="./md2/"
_temp="temp.txt"
_temp2="temp2.txt"
_temp3="temp3.txt"
#
# cambio directory di lavoro, creazione directory e pulizia file
cd "${_base}"
mkdir markdown html temp pdf post2 md2
rm ./markdown/* ./html/* ./temp/* ./pdf/* ./post/temp* ./post2/* ./md2/*
cd "${_base2}"
rm "${_temp}" "${_temp2}"
_dfiles="*"
#
# inizio loop principale
for f in $_dfiles
do
rm "${_temp}"
#
# estrazione del numero dell'articolo
g=`grep -Eo -m 1 '\([0-9]+\)' $f | tr -d '()'`
g="000"$g
g=`echo $g | rev | cut -c 1-3 | rev`
h=`echo $f | cut -d '_' -f2- | rev | cut -d '-' -f2-| rev`
#
# formazione del nuovo nome del file e copia col nuovo nome
i=$g"_"$h
echo "---> Identifier: $i"
echo "$i" >> "${_temp3}"
cp $f "../$_base4${i}.html"
cp $f "../$_base7${i}.html"
#
# conversione in formato markdown, ripulitura e riconversione in html
# traduzione del file html da Medium.com in markdown con risorse incorporate
pandoc --embed-resources=true -f html -t markdown "../"$_base4$i".html" > "${_temp}"
# pulizia del markdown da porcherie html provenienti da Medium.com
grep -v "^:::" "${_temp}" |sed -e 's|{#.*}||g' > "../"${_base3}$i".md"
# traduzione del markdown embedded in html embedded
pandoc -V geometry:margin=2cm --embed-resources --standalone -f markdown -t html "../"${_base3}$i".md"> "../"${_base5}$i".html"
# traduzione html in pdf, con size, pagina, link e margini, ma sposta le immagini grandi in fondo e ha ancora un riassunto in testa
pandoc --metadata title="" -V papersize:a4 -V fontsize=12pt -V colorlinks -V geometry:mrgin=2cm --embed-resources --standalone --pdf-engine=xelatex -f html -t pdf "../"$_base5$i".html" > "../"${_base6}$i".pdf"
echo `cat "../"${_base3}$i".md" | tr "\n" " " | sed -e "s/.*\*(//" | sed -e "s/\*.*//"` >> "${_temp2}"
#
# pulizia e fine ciclo
done
#rm -rf "${_temp}" "../$_base4"

All'inizio Cassandra aveva deciso di archiviare i file Html originali provenienti da Medium.com come fonte originale degli articoli, considerando gli altri file prodotti da questi come file derivati. Si era accorta però che il file originali non contenevano le immagini, ma solo dei link che puntavano a server di Medium.com, cosa abbastanza comune. Aveva quindi fatto in modo di archiviare anche una seconda versione di Html che, grazie ai miracoli di Pandoc, conteneva le immagini come risorse codificate rot64. Durante l'ultima campagna di aggiornamento della collezione degli articoli di Cassandra Crossing, la vostra profetessa preferita si è tuttavia accorta che molti degli articoli originali erano troppo piccoli per la quantità di testo che avrebbero dovuto contenere. Ha constatato, non senza una buona dose di raccapriccio e di rabbia verso chi bara nei confronti dei propri utenti, che intere parti di testo, e spesso l'intero articolo, non erano contenute nel file ma venivano anche esse caricate come risorse esterne dai server di Medium.com.

Insomma, nei file originali non solo le immagini ma anche intere parti di testo degli articoli non c'erano, ma erano per fortuna state incluse successivamente dal processo di conversione realizzato da Cassandra. Andreottianamente, Cassandra non crede che queste caratteristiche siano state inserite per sbaglio. Morale: Cassandra ha deciso che il file originale degli articoli sarà un file Markdown con le immagini embedded e che il file Html di Medium.com continuerà a essere allegato solo per motivi storici come file accessorio. Questo richiederà una riarchiviazione completa di tutti i file principali di tutti articoli, anche se non richiederà la creazione di nuovi oggetti e nemmeno la modifica dei metadati. Gli automatismi di Internet Archive e lo script di archiviazione dovrebbero permettere di risolvere il problema con un paio di ore di lavoro.

Uno: il formato dei Pdf per l'archiviazione e la leggibilità dei suoi contenuti sono probabilmente la cosa più importante per l'utente. La prima archiviazione di Cassandra Crossing su Internet Archive era stata fatta dopo aver superato molti ostacoli e con una conoscenza molto limitata di Pandoc e LaTeX. Per questo i Pdf prodotti erano ben lungi da essere ottimali, perché l'uso di Pandoc non permetteva di cambiarne le caratteristiche in maniera semplice, come si sarebbe fatto con qualunque elaboratore di testi. I primi Pdf avevano i seguenti problemi:
- margini ridicolmente larghi;
- font eccessivamente piccoli;
- la prima pagina di ogni articolo aveva una bruttissima intestazione, contenente l'ID Internet Archive del documento;
- gli articoli più recenti iniziavano con una doppia copia di titolo e sottotitolo;
- i link erano inclusi nel Pdf e cliccabili, ma la loro veste grafica era assolutamente indistinguibile dallo scritto normale; quindi, per trovarli e utilizzarli, bisognava passarci sopra il cursore per vedere quando cambiava da freccia a manina.
Risolvere tutti questi apparentemente banali problemi e ottimizzare alcuni altri aspetti ha richiesto un minimo di studio di Pandoc e molte, ma davvero molte prove; le modifiche si sono alla fine tradotte nell'aggiunta di pochi parametri sulla linea comandi di Pandoc.

Tuttavia la risoluzione di questi problemi ha comportato dover lasciare maggiormente la mano libera a LaTeX, che ha preso l'autonoma e inarrestabile decisione di spostare le immagini troppo grandi in posizione fuori testo. Cassandra leva perciò il suo grido di aiuto a chi possa aiutare a risolvere il problema, partendo per esempio dal confronto dei file Html e Pdf di un articolo. Grazie anticipatamente! Cosa dire per tirare un po' le somme di questa esternazione? Probabilmente la cosa più importante, almeno per chi deve archiviare molti dati, è la raccomandazione di stare estremamente attenti ai dati che vi vengono forniti dalle applicazioni cloud, al loro formato, alla loro completezza e alla presenza di risorse remote. Anche Cassandra, notoriamente pignola, ci stava cascando.

Due: la gestione delle correzioni necessarie ad alcuni degli oggetti preesistenti, creati in maniera errata (pochissimi, per fortuna), ha richiesto abbastanza tempo e non è ancora stata completata; per questa ragione Cassandra la rimanda al prossimo numero di questa piccola saga. Resta comunque a disposizione dei suoi lettori per consigli o discussione. Enjoy!

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Cassandra tra i ghiacci
Cassandra e la miniera
Cassandra attraverso i secoli
Il decennale di una piccola censura
Cassandra Crossing è per sempre!
Archiviamo Cassandra
API, quando il gioco si fa duro
Tre rimedi per i link spezzati
I link e la salute dell'Infosfera

Commenti all'articolo (0)


La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Quanto spendi di elettricità ogni mese?
Meno di 30 euro
Tra 30 e 50 euro
Tra 50 e 75 euro
Tra 75 e 100 euro
Tra 100 e 150 euro
Più di 150 euro

Mostra i risultati (3024 voti)
Ottobre 2025
Open Printer, stampante inkjet open source. Cartucce ricaricabili, design modulare e niente DRM
Amazon Prime elimina la prova gratuita in Italia: i giorni di test passano da 30 a 7. E si pagano
Settembre 2025
SPID a pagamento, l'era gratuita è finita: le Poste introducono un canone annuale
YouTube ammette: "Obbligati dall'amministrazione Biden a sospendere certi canali"
Commodore 64 Ultra convince: boom di vendite, acquisizione anticipata
Cookie, si va verso il consenso unico. L'Europa valuta l'integrazione nei browser web
Google lancia l'app "unificata" per la ricerca in Windows: documenti locali, web e Google Drive
Poste Italiane, i dati di un milione di utenti nel dark web. L'azienda: "Non ci hanno attaccati"
Windows 11, lo speed test si integra nella barra: misura velocità di up/download e latenze
ISEE, titoli di studio e certificati arrivano su IT Wallet. Il portafoglio digitale si espande
Microsoft contro ValueLicensing: fine delle licenze di Windows e Office a prezzi stracciati?
Il web aperto è ufficialmente in crisi: lo ammette pure Google. La colpa è anche della IA
Intelligenza artificiale per le automobili, licenziati 54 ricercatori a Torino
Dolcificanti a zero calorie e declino cognitivo: una ricerca brasiliana scopre un preoccupante legame
WinToUSB trasforma una chiavetta USB in un sistema Windows perfettamente funzionante
Tutti gli Arretrati
Accadde oggi - 5 ottobre


web metrics