Salta il menu

Newsletter Feed RSS Facebook Forum Contatti Accadde oggi Cerca

Rinfrescare, riordinare, rivedere, rimpolpare

Appunti di Archivismi/ Quando si crea un'archiviazione di informazioni se ne deve curare anche aggiornamento, manutenzione e correzioni. Se si è usato Internet Archive è bene conoscere potenzialità, problemi e trucchi.

[ZEUS News - www.zeusnews.it - 05-10-2025]

Foto di Matias Megapixel.

L'iniziativa Archivismi ha lasciato a Cassandra l'onere di occuparsi (con gioia) di tutto quanto archiviato. E se l'archiviazione nell'Arctic World Archive non permette, e quindi neppure richiede, alcuna manutenzione, essendo laggiù possibile solo effettuare una nuova archiviazione, altrettanto non si può dire per le archiviazioni fatte su Internet Archive. Si tratta infatti di archiviazioni "vive", come in una biblioteca vera, si possono inserire nuovi libri, si può cancellare un libro danneggiato, si possono aggiornare i libri con un'edizione successiva qualitativamente migliore, si possono aggiungere allegati a un libro, si possono ampliare o correggere collezioni di libri.

Come in precedenti articoli di Archivismi, anche questo sarà formato da singoli punti monotematici; se quello che vi è descritto vi dovesse capitare, avrete così una soluzione già pronta in mano. E comunque anche solo leggerli serve anche a capire come muoversi.

Zero: Grazie al lavoro fatto, Cassandra ha scoperto una grossa falla nel processo di estrazione dei dati che Medium.com offre, cosa che solo per fortuna non ha prodotto serie conseguenze nell'archiviazione di Cassandra Crossing. Quando si esportano i dati di un account di Medium.com, si ottiene, come in altri social, una serie di directory, ciascuna delle quali contiene informazioni di un certo tipo, il tutto eventualmente con una pagina Html di indice. Questo era il caso di Medium.com; scompattando l'estrazione, una della directory conteneva tutti gli articoli in formato Html. Si trattava però di un Html pessimo, pieno di tag utili solo al funzionamento del loro sito, che lo rendevano illeggibile e difficilmente elaborabile. Quindi, prima di produrre i file per l'archiviazione, era necessario ripulire l'Html e solo poi generare i file Markdown, Html e Pdf destinati all'archiviazione finale.

Tutto questo era stato eseguito in maniera automatica da un singolo script bash, tramite l'impiego di normali utility Unix e di Pandoc, un programma di conversione di formati testuali estremamente potente, che usa LaTeX come formato intermedio. Modificare lo script per altri sistemi operativi dovrebbe essere fattibile ma lasciamo volentieri l'esercizio al lettore, che nel frattempo potrebbe anche cadere vittima della tentazione di passare a un sistema operativo libero. Cassandra vi aveva già fornito e spiegato lo script nelle precedenti puntate di Archivismi, in particolare questa e questa. L'ultima versione, come quella di allora, non è perfetta ma sempre un work-in-progress; Cassandra ve lo riallega nuovamente, per i piccoli ma importantissimi cambiamenti che ha apportato in questi mesi (e questa volta non c'è bisogno di convertire i caratteri!).

Leggi anche:

L'importanza dei metadati

Internet delle Cose: temere il vecchio o il nuovo?

Minima complessità necessaria

L'archivio per la conservazione di Internet... a fine mandato

# Procedura per la preparazione all'archiviazione degli articoli # di Cassandra Crossing # # inizializzazioni varie _base="./" _base2="./posts/" _base3="./markdown/" _base4="./temp/" _base5="./html/" _base6="./pdf/" _base7="./post2/" _base8="./md2/" _temp="temp.txt" _temp2="temp2.txt" _temp3="temp3.txt" # # cambio directory di lavoro, creazione directory e pulizia file cd "${_base}" mkdir markdown html temp pdf post2 md2 rm ./markdown/* ./html/* ./temp/* ./pdf/* ./post/temp* ./post2/* ./md2/* cd "${_base2}" rm "${_temp}" "${_temp2}" _dfiles="*" # # inizio loop principale for f in $_dfiles do rm "${_temp}" # # estrazione del numero dell'articolo g=`grep -Eo -m 1 '$[0-9]+$' $f | tr -d '()'` g="000"$g g=`echo $g | rev | cut -c 1-3 | rev` h=`echo $f | cut -d '_' -f2- | rev | cut -d '-' -f2-| rev` # # formazione del nuovo nome del file e copia col nuovo nome i=$g"_"$h echo "---> Identifier: $i" echo "$i" >> "${_temp3}" cp $f "../$_base4${i}.html" cp $f "../$_base7${i}.html" # # conversione in formato markdown, ripulitura e riconversione in html # traduzione del file html da Medium.com in markdown con risorse incorporate pandoc --embed-resources=true -f html -t markdown "../"$_base4$i".html" > "${_temp}" # pulizia del markdown da porcherie html provenienti da Medium.com grep -v "^:::" "${_temp}" |sed -e 's|{#.*}||g' > "../"${_base3}$i".md" # traduzione del markdown embedded in html embedded pandoc -V geometry:margin=2cm --embed-resources --standalone -f markdown -t html "../"${_base3}$i".md"> "../"${_base5}$i".html" # traduzione html in pdf, con size, pagina, link e margini, ma sposta le immagini grandi in fondo e ha ancora un riassunto in testa pandoc --metadata title="" -V papersize:a4 -V fontsize=12pt -V colorlinks -V geometry:mrgin=2cm --embed-resources --standalone --pdf-engine=xelatex -f html -t pdf "../"$_base5$i".html" > "../"${_base6}$i".pdf" echo `cat "../"${_base3}$i".md" | tr "\n" " " | sed -e "s/.*\*(//" | sed -e "s/\*.*//"` >> "${_temp2}" # # pulizia e fine ciclo done #rm -rf "${_temp}" "../$_base4"

All'inizio Cassandra aveva deciso di archiviare i file Html originali provenienti da Medium.com come fonte originale degli articoli, considerando gli altri file prodotti da questi come file derivati. Si era accorta però che il file originali non contenevano le immagini, ma solo dei link che puntavano a server di Medium.com, cosa abbastanza comune. Aveva quindi fatto in modo di archiviare anche una seconda versione di Html che, grazie ai miracoli di Pandoc, conteneva le immagini come risorse codificate rot64. Durante l'ultima campagna di aggiornamento della collezione degli articoli di Cassandra Crossing, la vostra profetessa preferita si è tuttavia accorta che molti degli articoli originali erano troppo piccoli per la quantità di testo che avrebbero dovuto contenere. Ha constatato, non senza una buona dose di raccapriccio e di rabbia verso chi bara nei confronti dei propri utenti, che intere parti di testo, e spesso l'intero articolo, non erano contenute nel file ma venivano anche esse caricate come risorse esterne dai server di Medium.com.

Insomma, nei file originali non solo le immagini ma anche intere parti di testo degli articoli non c'erano, ma erano per fortuna state incluse successivamente dal processo di conversione realizzato da Cassandra. Andreottianamente, Cassandra non crede che queste caratteristiche siano state inserite per sbaglio. Morale: Cassandra ha deciso che il file originale degli articoli sarà un file Markdown con le immagini embedded e che il file Html di Medium.com continuerà a essere allegato solo per motivi storici come file accessorio. Questo richiederà una riarchiviazione completa di tutti i file principali di tutti articoli, anche se non richiederà la creazione di nuovi oggetti e nemmeno la modifica dei metadati. Gli automatismi di Internet Archive e lo script di archiviazione dovrebbero permettere di risolvere il problema con un paio di ore di lavoro.

Per approfondire:

Il Grande Saccheggio

Bucato l'Internet Archive, sottratti i dati di 31 milioni di utenti

Le pagine dell'Internet Archive entrano nella ricerca Google

Come castelli di sabbia in riva al mare

Uno: il formato dei Pdf per l'archiviazione e la leggibilità dei suoi contenuti sono probabilmente la cosa più importante per l'utente. La prima archiviazione di Cassandra Crossing su Internet Archive era stata fatta dopo aver superato molti ostacoli e con una conoscenza molto limitata di Pandoc e LaTeX. Per questo i Pdf prodotti erano ben lungi da essere ottimali, perché l'uso di Pandoc non permetteva di cambiarne le caratteristiche in maniera semplice, come si sarebbe fatto con qualunque elaboratore di testi. I primi Pdf avevano i seguenti problemi:
- margini ridicolmente larghi;
- font eccessivamente piccoli;
- la prima pagina di ogni articolo aveva una bruttissima intestazione, contenente l'ID Internet Archive del documento;
- gli articoli più recenti iniziavano con una doppia copia di titolo e sottotitolo;
- i link erano inclusi nel Pdf e cliccabili, ma la loro veste grafica era assolutamente indistinguibile dallo scritto normale; quindi, per trovarli e utilizzarli, bisognava passarci sopra il cursore per vedere quando cambiava da freccia a manina.
Risolvere tutti questi apparentemente banali problemi e ottimizzare alcuni altri aspetti ha richiesto un minimo di studio di Pandoc e molte, ma davvero molte prove; le modifiche si sono alla fine tradotte nell'aggiunta di pochi parametri sulla linea comandi di Pandoc.

Tuttavia la risoluzione di questi problemi ha comportato dover lasciare maggiormente la mano libera a LaTeX, che ha preso l'autonoma e inarrestabile decisione di spostare le immagini troppo grandi in posizione fuori testo. Cassandra leva perciò il suo grido di aiuto a chi possa aiutare a risolvere il problema, partendo per esempio dal confronto dei file Html e Pdf di un articolo. Grazie anticipatamente! Cosa dire per tirare un po' le somme di questa esternazione? Probabilmente la cosa più importante, almeno per chi deve archiviare molti dati, è la raccomandazione di stare estremamente attenti ai dati che vi vengono forniti dalle applicazioni cloud, al loro formato, alla loro completezza e alla presenza di risorse remote. Anche Cassandra, notoriamente pignola, ci stava cascando.

Due: la gestione delle correzioni necessarie ad alcuni degli oggetti preesistenti, creati in maniera errata (pochissimi, per fortuna), ha richiesto abbastanza tempo e non è ancora stata completata; per questa ragione Cassandra la rimanda al prossimo numero di questa piccola saga. Resta comunque a disposizione dei suoi lettori per consigli o discussione. Enjoy!

Per approfondire:

Diablo ora si gioca direttamente dal browser

L'ultima versione di WordStar si può scaricare liberamente

Da diritto a reato

L'inaccettabile fragilità delle infrastrutture

Commenti all'articolo (3)

calamarim

C'è un equivoco di fondo. Cassandra non archivia pagine web e non gliene può fregare di meno. Cassandra archivia articoli. In vari formati. Leggi tutto
9-10-2025 13:42

maes

Non sono pratico di pandoc, ma di LaTeX sì. LaTeX per le immagini utilizza l'ambiente figure, che ha una serie di vantaggi, per esempio la creazione di un indice delle figure e anche quella di inserirle nella parte del testo più comoda per l'impaginazione. Si può provare a forzare aggiungendo [h!] h sta per here, il punto esclamativo... Leggi tutto
7-10-2025 22:17

zero

Se si vuol salvare una pagina web per documentarne lo stato ad una certa data, tale pagina non deve subire nessun genere di modifica. Invece, tutte queste elaborazioni eseguite sulla pagina, la modificano profondamente (anche se apparentemente sembra uguale). Se si volesse presentare tale documento come una prova, non avrebbe nessun... Leggi tutto
6-10-2025 10:36

Inserisci un commento - anche se NON sei registrato

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.


News(10 commenti) Emma-5, la IA italiana che non conosce nemmeno le tabelline	Sicurezza(7 commenti) Hackerata Trenitalia, rubati i dati di viaggio dei passeggeri

Sicurezza(4 commenti)

Cloudflare e i browser contro i bot: PACT verifica l'identità degli utenti senza Captcha

Flash(2 commenti)

Kena, sostituzione obbligatoria della SIM

News(1 commento)

Windows 11, arriva il ripristino point-in-time

News(2 commenti)

L'UE approva l'euro digitale

E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.

Sondaggio

Che cosa hai fatto almeno una volta nella vita in una cabina telefonica?