Alla scoperta del deep web

Quella parte di Internet sconosciuta ai motori di ricerca.



[ZEUS News - www.zeusnews.it - 03-03-2009]

deep web

Pensiamo a Internet e immaginiamo un mondo sconfinato: desideriamo trovare qualcosa e immediatamente cerchiamo con Google che "tutto sa" della rete.

Pare che non sia affatto così, almeno per quanto attiene le capacità dei motori di ricerca di scandagliare la Rete. Le pagine ma soprattutto i contenuti visitati dagli spider pare infatti siano solo una minima parte di quelli effettivamente presenti online. Internet sarebbe come un iceberg: ciò che si vede è di molto inferiore a ciò che resta immerso sott'acqua.

Là fuori ci sarebbe tutto un web nascosto - o deep web come si usa dire - non indicizzato dai motori di ricerca e di fatto, se non proprio introvabile, sicuramente poco utilizzabile. Si parte dai siti interamente in flash, che al momento non vengono correttamente visti dagli spider che solcano la rete, ma ci sono anche uno sterminato volume di informazioni, dati, pagine, risorse.

Non viene indicizzato, per esempio, tutto quello che è disponibile solo a pagamento, ma anche quei contenuti che vengono esposti sul web in vetrina per poco tempo come articoli e notizie on line dei vari portali o testate giornalistiche e che in breve spariscono alla vista e anche ai link incrociati, divenendo di fatto irraggiungibili.

Allo stesso modo sono non tutto visibili altri contenuti inseriti in formati non tipicamente testuali propri delle pagine web come ad esempio file Pdf (solo recentemente indicizzati da Google), video, fogli elettronici, database e molti altri esempi: tutto ciò che non è correlato al web da hyperlink diretti utilizzati dai crawler per navigare, scoprire e indicizzare i contenuti di Internet.

Secondo una società specializzata nell'indicizzazione dei contenuti dinamici, questa manchevolezza implicherebbe che solo l'un per cento dei contenuti presenti su Internet sia indicizzato. Probabilmente si tratta di stime eccessivamente pessimistiche, comunque il dato deve far riflettere.

Questa mole di dati è naturalmente estremamente appetibile per chi di mestiere si occupa di indicizzare il web. Non stupisce il fatto che Google abbia costituito dei gruppi di lavoro per recuperare queste informazioni seppellite nel web profondo, con la sfida di riuscire a creare algoritmi di ricerca in grado di rispondere a domande che prevedono un ragionamento alla base, cioè con un approccio semantico effettivamente funzionante.

Ma Google non è certo da sola: Kosmix è una start-up che vede tra i propri fondatori Jeffrey Bezos (già amministratore delegato di Amazon) nata con il compito di svelare e recuperare questo "mondo sommerso". Juliana Freire dell'Università dello Utah ha creato il progetto DeepPeep.

I motivi sono ovvi: ciò che non è indicizzato non è sostanzialmente accessibile e utilizzabile e - a parità di algoritmo di ricerca e analisi - i risultati dovrebbero affinarsi con un maggior numero di dati da cui estrapolare il risultato della ricerca.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (ultimi 5 di 8)

mi sembra strano anche a me che la maggior parte dei siti non venga indicizzato, magari lo è ma molto infondo e come giustamente detto uno non va oltre la terza pagina... e comunque si può evitare anche di proposito che venga indicizzato o totalmente o in parte usando le istruzioni <meta name="robots"... Leggi tutto
4-3-2009 10:36

Il ranking non è basato sul numero dei link che puntano alla pagina? Leggi tutto
3-3-2009 20:58

Credo che "vincenzo2342" nel post che segue abbia riportato ampiamente ciò che penso; e cioè che i motori non indicizzano la qualità ma solo il numero dei click :evil: Leggi tutto
3-3-2009 20:04

Il fatto è che i motori di ricerca, Google in primis, indicizzano i siti e li propinano tra i risultati di ricerca in base alle parole chiave (giustamente) ma anche in base alle statistiche del sito (quanto è cliccato, quanto è aggiornato..). Pertanto questi siti che possono contenere materiale di ottima qualità possono essere seppelliti... Leggi tutto
3-3-2009 17:32

questa è allo stesso tempo la forza di internet .... la libertà :D Leggi tutto
3-3-2009 17:21

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Hai una stampante?
Sì, laser.
Sì, a getto d'inchiostro.
Avevo una stampante ma ora non ne ho più bisogno.
Mai avuto una stampante.

Mostra i risultati (3036 voti)
Aprile 2026
Oracle licenzia 30.000 dipendenti via email
Marzo 2026
Windows 11 avrà una barra delle applicazioni compatta in stile Windows 10
CPU Intel e AMD introvabili
Mozilla lancia la VPN gratuita in Firefox
Windows 11, vacilla l'obbligo dell'account Microsoft
Attacco informatico paralizza gli etilometri con alcolock: migliaia di veicoli fermi
La Ricerca Live di Google arriva in Italia
Samsung ritira il Galaxy Z TriFold dopo tre mesi
Linea fissa TIM, in arrivo la rimodulazione: rincari di 2,99 euro a partire da maggio
DR-DOS torna in vita: riscritto da zero in assembly, non usa codice legacy e non è open source
Perplexity trasforma il Mac mini in un dipendente digitale che lavora per l'utente
Excel, cinque trucchi che ogni principiante dovrebbe imparare subito
50.000 specchi satellitari illumineranno la Terra
Office EU, la suite open source europea che sfida Microsoft e Google
Svelato per errore MacBook Neo, il portatile economico di Apple
Tutti gli Arretrati
Accadde oggi - 4 aprile


web metrics