Alla scoperta del deep web

Quella parte di Internet sconosciuta ai motori di ricerca.



[ZEUS News - www.zeusnews.it - 03-03-2009]

deep web

Pensiamo a Internet e immaginiamo un mondo sconfinato: desideriamo trovare qualcosa e immediatamente cerchiamo con Google che "tutto sa" della rete.

Pare che non sia affatto così, almeno per quanto attiene le capacità dei motori di ricerca di scandagliare la Rete. Le pagine ma soprattutto i contenuti visitati dagli spider pare infatti siano solo una minima parte di quelli effettivamente presenti online. Internet sarebbe come un iceberg: ciò che si vede è di molto inferiore a ciò che resta immerso sott'acqua.

Là fuori ci sarebbe tutto un web nascosto - o deep web come si usa dire - non indicizzato dai motori di ricerca e di fatto, se non proprio introvabile, sicuramente poco utilizzabile. Si parte dai siti interamente in flash, che al momento non vengono correttamente visti dagli spider che solcano la rete, ma ci sono anche uno sterminato volume di informazioni, dati, pagine, risorse.

Non viene indicizzato, per esempio, tutto quello che è disponibile solo a pagamento, ma anche quei contenuti che vengono esposti sul web in vetrina per poco tempo come articoli e notizie on line dei vari portali o testate giornalistiche e che in breve spariscono alla vista e anche ai link incrociati, divenendo di fatto irraggiungibili.

Allo stesso modo sono non tutto visibili altri contenuti inseriti in formati non tipicamente testuali propri delle pagine web come ad esempio file Pdf (solo recentemente indicizzati da Google), video, fogli elettronici, database e molti altri esempi: tutto ciò che non è correlato al web da hyperlink diretti utilizzati dai crawler per navigare, scoprire e indicizzare i contenuti di Internet.

Secondo una società specializzata nell'indicizzazione dei contenuti dinamici, questa manchevolezza implicherebbe che solo l'un per cento dei contenuti presenti su Internet sia indicizzato. Probabilmente si tratta di stime eccessivamente pessimistiche, comunque il dato deve far riflettere.

Questa mole di dati è naturalmente estremamente appetibile per chi di mestiere si occupa di indicizzare il web. Non stupisce il fatto che Google abbia costituito dei gruppi di lavoro per recuperare queste informazioni seppellite nel web profondo, con la sfida di riuscire a creare algoritmi di ricerca in grado di rispondere a domande che prevedono un ragionamento alla base, cioè con un approccio semantico effettivamente funzionante.

Ma Google non è certo da sola: Kosmix è una start-up che vede tra i propri fondatori Jeffrey Bezos (già amministratore delegato di Amazon) nata con il compito di svelare e recuperare questo "mondo sommerso". Juliana Freire dell'Università dello Utah ha creato il progetto DeepPeep.

I motivi sono ovvi: ciò che non è indicizzato non è sostanzialmente accessibile e utilizzabile e - a parità di algoritmo di ricerca e analisi - i risultati dovrebbero affinarsi con un maggior numero di dati da cui estrapolare il risultato della ricerca.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Cosa trovare nel Deep Web, Paese per Paese
Deep web e dark web
Sequestrato Silk Road 2.0

Commenti all'articolo (ultimi 5 di 8)

mi sembra strano anche a me che la maggior parte dei siti non venga indicizzato, magari lo è ma molto infondo e come giustamente detto uno non va oltre la terza pagina... e comunque si può evitare anche di proposito che venga indicizzato o totalmente o in parte usando le istruzioni <meta name="robots"... Leggi tutto
4-3-2009 10:36

Il ranking non è basato sul numero dei link che puntano alla pagina? Leggi tutto
3-3-2009 20:58

Credo che "vincenzo2342" nel post che segue abbia riportato ampiamente ciò che penso; e cioè che i motori non indicizzano la qualità ma solo il numero dei click :evil: Leggi tutto
3-3-2009 20:04

Il fatto è che i motori di ricerca, Google in primis, indicizzano i siti e li propinano tra i risultati di ricerca in base alle parole chiave (giustamente) ma anche in base alle statistiche del sito (quanto è cliccato, quanto è aggiornato..). Pertanto questi siti che possono contenere materiale di ottima qualità possono essere seppelliti... Leggi tutto
3-3-2009 17:32

questa è allo stesso tempo la forza di internet .... la libertà :D Leggi tutto
3-3-2009 17:21

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
La rete ha reso famosi due personaggi per certi versi simili anche se molto diversi: secondo te chi è il più grande?
Julian Assange. Prende informazioni dalle grandi aziende e dai governi e le rende pubbliche gratuitamente. È stato accusato - tra le altre cose - di terrorismo.
Mark Zuckerberg. Prende informazioni e dati personali e li vende alle grandi aziende e ai governi. È diventato l'uomo dell'anno.

Mostra i risultati (2037 voti)
Gennaio 2022
Amazon introduce la consegna con la password
Parchimetri e pagamenti via codice QR, la truffa è servita
Norton e Avira generano criptovalute coi PC degli utenti
Chiude per sempre Popcorn Time, il netflix dei pirati
Digitale terrestre, riparte il balletto delle frequenze
BlackBerry addio, stavolta per davvero
Dicembre 2021
Il nuovo, vecchio e doppio laptop di Cassandra
L'app che “sgonfia” Windows 10 e 11
Il CEO di Vivaldi: “Microsoft è disperata”
Gli AirTag? Ottimi per rubare le auto
Microsoft ammette: SSD più lenti con Windows 11
Smart working: dall'emergenza alla normalità
Perché Intel accumula hardware obsoleto in Costa Rica?
Antitrust, 30 aziende contro Microsoft per colpa di OneDrive
Novembre 2021
L'app va in crash, e la Tesla non parte più
Tutti gli Arretrati
Accadde oggi - 19 gennaio


web metrics