Alla scoperta del deep web

Quella parte di Internet sconosciuta ai motori di ricerca.



[ZEUS News - www.zeusnews.it - 03-03-2009]

deep web

Pensiamo a Internet e immaginiamo un mondo sconfinato: desideriamo trovare qualcosa e immediatamente cerchiamo con Google che "tutto sa" della rete.

Pare che non sia affatto così, almeno per quanto attiene le capacità dei motori di ricerca di scandagliare la Rete. Le pagine ma soprattutto i contenuti visitati dagli spider pare infatti siano solo una minima parte di quelli effettivamente presenti online. Internet sarebbe come un iceberg: ciò che si vede è di molto inferiore a ciò che resta immerso sott'acqua.

Là fuori ci sarebbe tutto un web nascosto - o deep web come si usa dire - non indicizzato dai motori di ricerca e di fatto, se non proprio introvabile, sicuramente poco utilizzabile. Si parte dai siti interamente in flash, che al momento non vengono correttamente visti dagli spider che solcano la rete, ma ci sono anche uno sterminato volume di informazioni, dati, pagine, risorse.

Non viene indicizzato, per esempio, tutto quello che è disponibile solo a pagamento, ma anche quei contenuti che vengono esposti sul web in vetrina per poco tempo come articoli e notizie on line dei vari portali o testate giornalistiche e che in breve spariscono alla vista e anche ai link incrociati, divenendo di fatto irraggiungibili.

Allo stesso modo sono non tutto visibili altri contenuti inseriti in formati non tipicamente testuali propri delle pagine web come ad esempio file Pdf (solo recentemente indicizzati da Google), video, fogli elettronici, database e molti altri esempi: tutto ciò che non è correlato al web da hyperlink diretti utilizzati dai crawler per navigare, scoprire e indicizzare i contenuti di Internet.

Secondo una società specializzata nell'indicizzazione dei contenuti dinamici, questa manchevolezza implicherebbe che solo l'un per cento dei contenuti presenti su Internet sia indicizzato. Probabilmente si tratta di stime eccessivamente pessimistiche, comunque il dato deve far riflettere.

Questa mole di dati è naturalmente estremamente appetibile per chi di mestiere si occupa di indicizzare il web. Non stupisce il fatto che Google abbia costituito dei gruppi di lavoro per recuperare queste informazioni seppellite nel web profondo, con la sfida di riuscire a creare algoritmi di ricerca in grado di rispondere a domande che prevedono un ragionamento alla base, cioè con un approccio semantico effettivamente funzionante.

Ma Google non è certo da sola: Kosmix è una start-up che vede tra i propri fondatori Jeffrey Bezos (già amministratore delegato di Amazon) nata con il compito di svelare e recuperare questo "mondo sommerso". Juliana Freire dell'Università dello Utah ha creato il progetto DeepPeep.

I motivi sono ovvi: ciò che non è indicizzato non è sostanzialmente accessibile e utilizzabile e - a parità di algoritmo di ricerca e analisi - i risultati dovrebbero affinarsi con un maggior numero di dati da cui estrapolare il risultato della ricerca.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Cosa trovare nel Deep Web, Paese per Paese
Deep web e dark web
Sequestrato Silk Road 2.0

Commenti all'articolo (ultimi 5 di 8)

mi sembra strano anche a me che la maggior parte dei siti non venga indicizzato, magari lo è ma molto infondo e come giustamente detto uno non va oltre la terza pagina... e comunque si può evitare anche di proposito che venga indicizzato o totalmente o in parte usando le istruzioni <meta name="robots"... Leggi tutto
4-3-2009 10:36

Il ranking non è basato sul numero dei link che puntano alla pagina? Leggi tutto
3-3-2009 20:58

Credo che "vincenzo2342" nel post che segue abbia riportato ampiamente ciò che penso; e cioè che i motori non indicizzano la qualità ma solo il numero dei click :evil: Leggi tutto
3-3-2009 20:04

Il fatto è che i motori di ricerca, Google in primis, indicizzano i siti e li propinano tra i risultati di ricerca in base alle parole chiave (giustamente) ma anche in base alle statistiche del sito (quanto è cliccato, quanto è aggiornato..). Pertanto questi siti che possono contenere materiale di ottima qualità possono essere seppelliti... Leggi tutto
3-3-2009 17:32

questa è allo stesso tempo la forza di internet .... la libertà :D Leggi tutto
3-3-2009 17:21

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Hai mai incontrato persone conosciute online?
Non è mai capitato, ma vorrei.
Non è mai capitato e non ne ho intenzione.
E' capitato, ma continuiamo a tenerci in contatto prevalentemente attraverso Internet.
E' capitato e ora la relazione è prevalentemente telefonica o dal vivo.
E' capitato, ma la delusione è stata tale che non ci sentiamo più.

Mostra i risultati (2700 voti)
Agosto 2020
Che cosa succede dentro a uno pneumatico quando si viaggia?
Chrome permetterà di modificare le password salvate
Red Hat: Non installate quella patch
Il dispositivo che assorda gli Amazon Echo
Luglio 2020
La vecchia raccolta di Cd e Dvd potrebbe essere in pericolo
5G: come eliminare il 90% delle emissioni
Bloatbox ripulisce Windows 10 dalle app indesiderate
Non coprite quella webcam
Falla nei caricabatterie: telefoni e tablet a rischio incendio
Windows 10, come aggirare il bug che segnala la mancanza di connessione
Windows 10 e l'aggiornamento che risolve tutti i bug
Razzismo: via i termini blacklist, master e slave dal kernel Linux
WindowsFX, la distribuzione Linux per chi vuole lasciare Windows 10
Come disinstallare il nuovo Edge da Windows 10
Iliad diventa operatore di rete fissa
Tutti gli Arretrati


web metrics