Usare le API di Archive.org

Archivismi: API, quando il gioco si fa duro.



[ZEUS News - www.zeusnews.it - 07-02-2024]

cassandra archivismi api 2

Questo è un articolo su più pagine: ti invitiamo a leggere la pagina iniziale
Archivismi: la preservazione della cultura

Ma non si era detto che avremmo programmato qualcosa? Verissimo, e passiamo subito alla pratica. Per partire da qualcosa di semplice e innocuo, ipotizziamo di aver trovato una serie di cose che ci interessano, per esempio parecchi numeri di una rivista, e di volerli scaricare in maniera veloce, affidabile, e che non richieda operazioni manuali ripetitive.

Per semplicità, faremo il tutto da linea comandi, senza utilizzare direttamente le API e quindi senza dover scrivere un vero programma in Python o simili; ci basterà scaricare il programma Python "ia" (internetarchive) e utilizzarlo. ia è un programma già pseudo-compilato, cioè scritto in un linguaggio intermedio detto Python bytecode, che è portabile su qualsiasi piattaforma abbia un ambiente Python 3 installato.

L'utilizzo di una versione di Linux - Debian, Ubuntu e via dicendo - è vivamente consigliato. Potete anche utilizzarlo in una macchina virtuale Virtualbox o VMWare su qualsiasi computer. Dovrebbe anche funzionare l'ambiente WSL di Windows, ma qui Cassandra non procede oltre e abbandona gli arditi che volessero cimentarsi; anzi, eventualmente aspetta da loro dei feedback a riguardo per integrare questo articolo.

Quindi torniamo con Cassandra alla sua amata Debian e installiamo e configuriamo ia con la procedura che troviamo qui. Ma anche un semplice

sudo apt install internetarchive
è sufficiente. Miracoli di Debian. In breve, su un computer dove sia installato l'ambiente Python 3, si deve scaricare dove preferiamo (oppure installare) il comando ia, renderlo eseguibile e infine lanciarlo con il parametro configure per associarlo al nostro utente (avete creato il vostro utente, vero?)

È tutto pronto; come primo esempio con il seguente comando possiamo scaricare il solo Pdf originale del nostro articolo di esempio, che avevamo caricato la scorsa puntata.

$ ./ia download cassandra-crossing-2558-il-dizionario-di-cassandra-archivismi -no-directories -format="Text PDF"

Ma se avessimo voluto scaricare tutto l'oggetto, file derivativi inclusi, avremmo potuto scrivere ancor più semplicemente

$ ./ia download cassandra-crossing-2558-il-dizionario-di-cassandra-archivismi

Avremmo così ottenuto una directory con lo stesso nome dell'identificatore dell'oggetto, contenente tutti i file da cui è formato. Lo stesso procedimento funziona anche per scaricare una intera collezione, o parti di essa. Un'altra raccomandazione: calcolate prima quanto è grande la selezione che avete fatto; su Internet Archive ci sono oggetti di dimensioni enormi.

Per avere aiuto, oltre che consultare la guida online, basta dare i comandi

$ ./ia help
$ ./ia help download
$ ./ia help upload

Terminiamo con altre raccomandazioni in ordine sparso. Se caricate nuovi oggetti, è meglio usare il metodo con foglio elettronico in formato CSV, di cui trovate un esempio qui o nella guida. In questo modo avrete sempre sotto controllo tutti i parametri insieme. Dare tutti i parametri da linea comandi può essere complesso e si possono facilmente commettere errori.

Quando creerete i vostri oggetti, inseriteli sempre nella collezione test_collection, come è mostrato anche nel foglio di esempio. I motivi li abbiamo già spiegati. Quando invece inserirete i vostri primi oggetti definitivi, non inserite tra i parametri la collection, lasciando quella di default opensource. Buona sperimentazione!

Ti invitiamo a leggere la pagina successiva di questo articolo:
Archiviamo Cassandra

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Un milione e mezzo di torrent su Internet Archive
Il più grande drive al mondo
Geocities chiude per sempre
The Internet Archive raggiunge i 4,5 petabyte
Il videogioco del terrorista
Violato Icq.it, ma niente panico per la chat
Sconfiggere Urbani, aggiornamento
Licenze MP3, che confusione

Commenti all'articolo (ultimi 5 di 24)

Il tempo cancella tutto quello che viene consumato dal tempo. Puoi sempre trovare qualcosa che anche il tempo abbia difficoltà a cancellare. :P Come diceva un proverbio arabo; L'uomo teme il tempo, il Tempo teme le piramidi =) Io poi non sono convinto del formato in cui sono conservati dati poiché il film su pellicola, per la sua... Leggi tutto
14-5-2024 18:44

{Apon75}
Ahahahaha! Che divertimento. Prima congelavano i corpi, nella speranza che in futuro, si disponga di conoscenze e tecniche per "svegliare" il morto e sanarlo dalla malattia incurabile della sua epoca. Visto che la criostasi è una leggenda moderna a cui non crede quasi più nessuno (con i soldi), data... Leggi tutto
9-5-2024 15:24

Grazie 🙏🏻
23-4-2024 14:03

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Qual è il motivo principale che ti può far desistere (oppure no) dal compiere un acquisto online?
La scarsa accessibilità del sito di ecommerce.
I tempi di consegna non certi.
La scomodità di dover rimanere a casa o di dover concordare la consegna con il corriere.
La possibilità che il pacco vada perso, se la spedizione non è tracciata.
La poca fiducia riposta nel negozio online.
Il prezzo maggiore del prodotto.
Le spese di spedizione elevate.
Il sovrapprezzo applicato per la spedizione contrassegno.
La scomodità di dover rispedire il pacco qualora la merce ricevuta sia danneggiata o difettosa.
La maggior difficoltà a far valere le condizioni di garanzia.
L'impossibilità di trattare sul prezzo o di chiedere uno sconto.
La poca fiducia riposta nei sistemi di pagamento online disponibili.

Mostra i risultati (2462 voti)
Luglio 2024
Crowdstrike si scusa per il disastro. Con un buono da 10 dollari
Intel rinuncia alla fabbrica italiana
Non è tutta colpa di Microsoft o di Crowdstrike
La Marina tedesca cerca una soluzione per sostituire i floppy da 8 pollici
WhatsApp, arriva la trascrizione automatica dei messaggi vocali
10 miliardi di password rubate e pubblicate in chiaro
Copilot si aggiorna e diventa inutile
La super SIM cinese con processore RISC-V
Giugno 2024
Tim al capolinea: dal 2 luglio la Rete non sarà più sua
Gli USA mettono al bando Kaspersky
Windows 11, l'ultimo aggiornamento è infestato da bug
Il viaggio verso Marte rischia di devastare i reni degli astronauti
2030, Mastercard elimina il numero della carta di credito.
HP, un BIOS difettoso rende inutilizzabili i ProBook
Adobe, utenti in rivolta contro i nuovi Termini d'Uso
Tutti gli Arretrati
Accadde oggi - 27 luglio


web metrics