Salta il menu

Newsletter Feed RSS Facebook Forum Contatti Accadde oggi Cerca

Oltre Google: il futuro della ricerca in rete

Internet ha finora fatto a meno, per motivi economici, degli standard di catalogazione professionale adottati da sempre nelle biblioteche. Questo potrebbe avere serie conseguenze sulla nostra capacità di conservare le memorie digitali.

[ZEUS News - www.zeusnews.it - 08-01-2004]

La recente notizia secondo cui i dati incisi su Cd-R non avrebbero che pochi anni di vita ha suscitato una certa preoccupazione, e risollevato la questione di come riuscire a conservare le nostre memorie digitali. La durata del supporto, comunque, non è che uno degli aspetti del problema: gli altri aspetti sui cui hanno insistito alcuni osservatori consistono nella sostituzione di una vecchia tecnologia con una nuova, o nell'abbandono di un formato.

Lo scopo di questo articolo è portare all'attenzione dei lettori un ulteriore aspetto della questione che, se non affrontato, potrebbe contribuire all'impossibilità di tramandare ai posteri il nostro prezioso patrimonio culturale: si tratta del problema di come catalogare al meglio i documenti elettronici remoti al fine di garantirne la reperibilità.

Prendiamo, ad esempio, una biblioteca: la sua funzione non consiste solo nel conservare i libri, ma anche nel renderli accessibili al pubblico, nel permettere che essi vengano letti. A che serve, infatti, conservare tanta saggezza se poi questa è destinata a rimanere lettera morta in uno stanzone ammuffito?

Rendere accessibile, d'altra parte, significa mettere in grado l'utente di trovare proprio la risorsa che cerca fra tutte quelle che sono presenti in biblioteca. Non serve a nulla che un dato libro sia presente in una data biblioteca, se nessuno sa che c'è, e non serve a nulla sapere che c'è se non si è in grado di localizzarlo perché costituisce il classico ago nel pagliaio. Una biblioteca quindi, oltre che conservare, deve catalogare i libri in deposito, e il sistema di catalogazione deve essere il più efficiente possibile.

Il compito di elaborare sistemi efficienti di catalogazione è stato affrontato, nel corso dei secoli, da generazioni di bibliotecari e studiosi, i quali hanno messo a punto teorie e strumenti la cui utilità è collaudata dal tempo: thesaurus, soggettari, vocabolari controllati, criteri di classificazione ecc., tutti strumenti il cui uso richiede un elevato grado di professionalità.

Prendiamo, adesso, Internet: la vostra pagina web può essere bella e interessante quanto volete, ma se non riuscite a fare in modo che compaia ai primi posti in una ricerca effettuata con Google (o un altro motore di ricerca), sarà come se non esistesse.

Internet può quindi essere considerato come un'immensa biblioteca, le cui risorse, invece che cartacee, sono elettroniche e remote, e le cui problematiche sono alquanto simili. Non è sufficiente per una pagina web essere messa on line: bisogna che si sappia che esiste, e che si sappia dove trovarla. Il problema è che oggi mancano per Internet dei sistemi di catalogazione efficienti come quelli in uso nelle biblioteche.

Quest'ultima affermazione potrebbe suonare sorprendente: non è Google quello strumento meraviglioso e quel prodigio della tecnologia che tutti dicono? Beh, è certamente un prodigio tecnologico, per essere il tipo di strumento che è. L'utilizzo esclusivo di questo strumento, tuttavia, presenta certi inconvenienti. Per comprendere meglio di che si tratta sarà utile ricorrere a un esempio concreto, e a un confronto con la ricerca bibliotecaria di tipo tradizionale.

Supponiamo di voler raccogliere tutte le informazioni possibili su Francis Bacon, il filosofo e scienziato inglese del XVII secolo. Un buon sistema potrebbe essere quello di andare in biblioteca e consultare tutti i libri ivi presenti che parlano di Francis Bacon: visitiamo quindi la Biblioteca Nazionale Centrale di Firenze e proviamo a sfogliare il catalogo per soggetti.

La ricerca su "Bacon, Francis" in quest'elenco di soggetti mi rinvia a nove suddivisioni tra le quali scegliere, e qui subito mi accorgo che le ultime tre non riguardano il Francis Bacon filosofo, ma un pittore contemporaneo. Le altre sei voci invece non solo sono pertinenti alla mia ricerca, ma raggruppano le risorse così trovate in soggetti più specifici, ad esempio "Bacon, Francis <1561-1626> - Pensiero pedagogico". Così se di Bacon m'interessa solo il pensiero pedagogico non ho bisogno di leggere i documenti raggruppati altrove. In tutto, ho trovato 19 libri su Francis Bacon.

È già un ottimo punto di partenza per il mio studio. Se volessi ampliare ulteriormente la mia conoscenza potrei ripetere la ricerca in una biblioteca universitaria o straniera. Quel che conta comunque è che ho buone garanzie che ognuno dei 19 libri parla proprio del soggetto che m'interessa, e anche che è tutto quello che la biblioteca contiene su quest'argomento. La mia ricerca, in altre parole, ha un altissimo grado sia di precisione che di richiamo.

Proviamo adesso ad andare su Google e digitiamo "Francis Bacon": stavolta ottengo la bellezza di 199.000 risultati, e non ho modo di distinguere quali tra questi si riferiscono al filosofo, quali al pittore, o quali a nessuno dei due, perché sono tutti presentati alla rinfusa. Posso affinare la ricerca aggiungendo altre parole, ma la conclusione è sempre lo stessa: un enorme numero di "risultati" con un bassissimo grado di precisione.

Il fatto è che Google e motori di ricerca consimili utilizzano il più primitivo fra tutti i dispositivi possibili: la semplice ricerca per parole chiave. Un tale dispositivo, di natura puramente sintattica e meccanica, non è in grado di distinguere fra i vari significati di una stessa espressione, o di analizzare il contesto in cui essa si trova. Non solo non distingue, cioè, fra il Bacon pittore e il Bacon filosofo, ma considera come pertinente un documento dove magari si afferma "questa pagina web non ha nulla ha che vedere con Francis Bacon".

Senza contare i problemi di richiamo: Francis Bacon è chiamato anche Francesco Bacone. Il bibliotecario lo sa, e raggruppa sotto lo stesso soggetto sia i libri che parlano di Bacon che quelli nominano Bacone, e magari inserisce un opportuno rimando alla voce "Francesco Bacone". Google non solo non capisce che Bacon e Bacone sono la stessa persona, ma non riconosce nemmeno l'identità tra "Bacon, Francis" e "Francis Bacon".

Una vera catalogazione richiede quindi delle persone che analizzino con intelligenza i documenti da classificare, e addestrate professionalmente a questo scopo. Il problema è che una cosa del genere richiede denaro e che, dato l'astronomico numero di siti web esistenti, nessuno al mondo può permettersi di pagare un esercito di bibliotecari per classificarli tutti. C'è poi il rischio che un tale lavoro sia in gran parte inutile a causa dell'elevata mortalità dei siti, o del loro trasferimento ad altri indirizzi.

D'altra parte, il denaro che non viene investito subito sarà poi perduto (in valuta-tempo) dai tutti quei milioni di utenti che non trovano subito ciò che cercano. Ecco perché si è andati in cerca, negli ultimi anni, di soluzioni intermedie fra la vera e propria catalogazione professionale (troppo costosa) e la semplice ricerca per parole (troppo inefficace).

Il progetto più avanzato in questo senso si chiama "Dublin Core", e prevede l'utilizzo dei metadati. L'idea, in parole povere, è quella di impiegare in modo più strutturato i meta-tag presenti nelle pagine web (e che vengono già usati dai motori di ricerca), e soprattutto di fornire standard rigorosi per quanto riguarda il loro uso. Nella sua formulazione più essenziale, lo standard Dublin Core consiste di 15 elementi contrassegnati da un identificativo univoco ("Creator", "Title", etc.) e delle rispettive istruzioni. Riempiendo i 15 rispettivi campi (non tutti obbligatori), sarebbero quindi gli stessi autori delle pagine web ad auto-catalogarsi, purché rispettino le regole.

Sebbene un utilizzo più razionale e standardizzato dei metadati sia certamente destinato a migliorare lo stato della ricerca in rete, si deve anche notare che progetti del genere vivono di una contraddizione insanabile. Per avere la massima diffusione, infatti, le regole devono essere molto semplici e alla portata di tutti. Più le regole sono semplici, però, più inefficace e incompleta risulterà la ricerca, per il banalissimo motivo che la catalogazione non è un affare semplice. Questa è la ragione per cui molti bibliotecari storcono il naso di fronte a simili iniziative, oltre al fatto che si sentono scippati delle loro competenze e professionalità.

C'è un altro serio problema riguardo all'auto-catalogazione: il bibliotecario, che svolge una funzione d'intermediario tra autore e lettore, ha interesse solo a descrivere la risorsa da catalogare nel modo più accurato e fedele possibile. L'autore invece ha interesse anche a promuovere le proprie creazioni, e quando autore e catalogatore coincidono si può creare un conflitto d'interessi. Una ditta potrebbe inserire il nome di un concorrente commerciale nei metadati del proprio sito in modo da dirottarvi i clienti, oppure un sito che parla di uncinetto potrebbe cercare di attirare nuovi lettori inserendo parole-chiave come "sesso", "Mp3" o "Pamela Anderson". Non sono solo cose che potrebbero accadere: accadono quotidianamente.

Una vera e propria catalogazione, fatta da professionisti, sembra quindi l'unica garanzia di sopravvivenza per le tutte le preziose conoscenze contenute nelle risorse in rete. Ma come si è detto sarebbe inconcepibile catalogare in questo modo l'intero web esistente, a causa dei costi. Un motivo di consolazione è costituito dal fatto che dopo tutto non c'è nessun bisogno di farlo, dato lo scarso valore culturale della maggior parte di queste risorse. Basterebbe allora individuare alcuni criteri di qualità per poi procedere a catalogare solo quella minoranza di risorse in grado di soddisfarli.

Questo potrebbe apparire eccessivamente brutale e "anti-democratico": dopo tutto nessun bibliotecario si arrogherebbe mai il diritto di decidere quali libri meritano di essere catalogati (e quindi conservati), e quali possono essere mandati al macero. C'è però una differenza fondamentale tra l'editoria elettronica e quella su carta stampata: il prezzo.

Nell'epoca dei documenti a stampa il fatto stesso che un libro trovasse un editore disposto a spendere dei soldi per curarne la pubblicazione, stamparlo e distribuirlo, era in certa misura una garanzia del suo valore. Il bibliotecario poteva quindi permettersi un certo egualitarismo nell'esercizio della sua professione, perché la selezione era già avvenuta, in modo naturale, dal basso. La rivoluzione elettronica ha però abbattuto i costi di pubblicazione, rendendo possibile a chiunque di pubblicare la propria autobiografia, le poesie adolescenziali, il diario delle vacanze.

Questo ha naturalmente dei lati positivi: la diffusione della conoscenza ha meno probabilità di essere condizionata da influenze economiche e politiche. Tuttavia, le nostre considerazioni mostrano come il momento di una selezione (e quindi e di una possibile censura e oppressione) venga semplicemente spostato in avanti: dal momento della pubblicazione, o messa on line, al momento della catalogazione. Non ci possiamo fare niente, e dobbiamo assumerci quindi la responsabilità di stabilire cosa merita di essere tramandato ai posteri, pena l'oblio totale o quasi.

Quale sarà, dunque, il futuro della ricerca in rete? La mia previsione è che al vecchio, caro, e insostituibile Google saranno presto affiancati dei motori di ricerca che sfrutteranno al meglio lo standard Dublin Core, e usati da una minoranza di persone in grado di comprendere i limiti della pura ricerca per parole. A usufruire di questo standard potranno essere i siti di qualsiasi natura, compresi quelli commerciali.

D'altro lato ci sarà una minoranza ancora più piccola di siti che, per il loro elevato contenuto culturale o per la loro evidente utilità pubblica, godranno di una vera e propria catalogazione fatta da professionisti del settore, conservata in appositi archivi creati dalle istituzioni bibliotecarie, e ai quali forse si potrà accedere solo dietro pagamento. Esistono già alcuni di questi archivi, il più importante dei quali è forse Bubl Link, ma hanno ancora un numero di siti recensiti relativamente basso.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Erik Boni

Commenti all'articolo (ultimi 5 di 9)

Esatto Leggi tutto
22-5-2004 12:24

Erik Boni

"insomma l'autore non conosce la differenza fra cataloghi on line (Yahoo, ODP, Looksmart) e i motori di ricerca?".Ogni catalogo che si rispetti deve avere delle funzioni di ricerca, che possono assumere varie forme, tra cui quella delle ricerca per parole in stile Google.Ogni motore di ricerca, d'altra parte, dovrà pur... Leggi tutto
14-1-2004 17:08

Carlo

Odp Leggi tutto
13-1-2004 23:30

Erik Boni

Google: pro e contro Leggi tutto
12-1-2004 00:33

Andrea

Commento fuori tema o non conforme al regolamento del forum.
10-1-2004 03:11

Leggi gli altri 4 commenti nel forum Olimpo Informatico
Inserisci un commento - anche se NON sei registrato

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.


News(6 commenti) Williams progetta auto da F1 con foglio Excel da 20.000 righe	News(5 commenti) Microsoft conferma Office 2024 LTSC

News(1 commento)

L'antenato di ChatGPT in un foglio Excel

News(4 commenti)

Fastweb compra Vodafone Italia

News(11 commenti)

La crisi di Tim e la divisione sindacale

News(4 commenti)

Il Parlamento Europeo approva la legge sull'intelligenza artificiale

E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.

Sondaggio

Di quale generazione fai parte?