Alla scoperta del deep web

Quella parte di Internet sconosciuta ai motori di ricerca.



[ZEUS News - www.zeusnews.it - 03-03-2009]

deep web

Pensiamo a Internet e immaginiamo un mondo sconfinato: desideriamo trovare qualcosa e immediatamente cerchiamo con Google che "tutto sa" della rete.

Pare che non sia affatto così, almeno per quanto attiene le capacità dei motori di ricerca di scandagliare la Rete. Le pagine ma soprattutto i contenuti visitati dagli spider pare infatti siano solo una minima parte di quelli effettivamente presenti online. Internet sarebbe come un iceberg: ciò che si vede è di molto inferiore a ciò che resta immerso sott'acqua.

Là fuori ci sarebbe tutto un web nascosto - o deep web come si usa dire - non indicizzato dai motori di ricerca e di fatto, se non proprio introvabile, sicuramente poco utilizzabile. Si parte dai siti interamente in flash, che al momento non vengono correttamente visti dagli spider che solcano la rete, ma ci sono anche uno sterminato volume di informazioni, dati, pagine, risorse.

Non viene indicizzato, per esempio, tutto quello che è disponibile solo a pagamento, ma anche quei contenuti che vengono esposti sul web in vetrina per poco tempo come articoli e notizie on line dei vari portali o testate giornalistiche e che in breve spariscono alla vista e anche ai link incrociati, divenendo di fatto irraggiungibili.

Allo stesso modo sono non tutto visibili altri contenuti inseriti in formati non tipicamente testuali propri delle pagine web come ad esempio file Pdf (solo recentemente indicizzati da Google), video, fogli elettronici, database e molti altri esempi: tutto ciò che non è correlato al web da hyperlink diretti utilizzati dai crawler per navigare, scoprire e indicizzare i contenuti di Internet.

Secondo una società specializzata nell'indicizzazione dei contenuti dinamici, questa manchevolezza implicherebbe che solo l'un per cento dei contenuti presenti su Internet sia indicizzato. Probabilmente si tratta di stime eccessivamente pessimistiche, comunque il dato deve far riflettere.

Questa mole di dati è naturalmente estremamente appetibile per chi di mestiere si occupa di indicizzare il web. Non stupisce il fatto che Google abbia costituito dei gruppi di lavoro per recuperare queste informazioni seppellite nel web profondo, con la sfida di riuscire a creare algoritmi di ricerca in grado di rispondere a domande che prevedono un ragionamento alla base, cioè con un approccio semantico effettivamente funzionante.

Ma Google non è certo da sola: Kosmix è una start-up che vede tra i propri fondatori Jeffrey Bezos (già amministratore delegato di Amazon) nata con il compito di svelare e recuperare questo "mondo sommerso". Juliana Freire dell'Università dello Utah ha creato il progetto DeepPeep.

I motivi sono ovvi: ciò che non è indicizzato non è sostanzialmente accessibile e utilizzabile e - a parità di algoritmo di ricerca e analisi - i risultati dovrebbero affinarsi con un maggior numero di dati da cui estrapolare il risultato della ricerca.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Approfondimenti
Cosa trovare nel Deep Web, Paese per Paese
Deep web e dark web
Sequestrato Silk Road 2.0

Commenti all'articolo (ultimi 5 di 8)

mi sembra strano anche a me che la maggior parte dei siti non venga indicizzato, magari lo è ma molto infondo e come giustamente detto uno non va oltre la terza pagina... e comunque si può evitare anche di proposito che venga indicizzato o totalmente o in parte usando le istruzioni <meta name="robots"... Leggi tutto
4-3-2009 10:36

Il ranking non è basato sul numero dei link che puntano alla pagina? Leggi tutto
3-3-2009 20:58

Credo che "vincenzo2342" nel post che segue abbia riportato ampiamente ciò che penso; e cioè che i motori non indicizzano la qualità ma solo il numero dei click :evil: Leggi tutto
3-3-2009 20:04

Il fatto è che i motori di ricerca, Google in primis, indicizzano i siti e li propinano tra i risultati di ricerca in base alle parole chiave (giustamente) ma anche in base alle statistiche del sito (quanto è cliccato, quanto è aggiornato..). Pertanto questi siti che possono contenere materiale di ottima qualità possono essere seppelliti... Leggi tutto
3-3-2009 17:32

questa è allo stesso tempo la forza di internet .... la libertà :D Leggi tutto
3-3-2009 17:21

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
Cosa ne pensi del ritocco digitale dei film classici (non solo di fantascienza)?
E' un falso storico; i film vanno visti come furono girati.
E' necessario, per evitare che certi film vengano dimenticati.
Va bene, basta che sia indicato chiaramente.
Non me ne può fregar di meno.

Mostra i risultati (3158 voti)
Novembre 2020
Seria falla in Windows 7, la patch c'è ma non è ufficiale
Clienti Amazon: i corrieri rubano le nostre PlayStation
Edge, una marea di estensioni pericolose ruba i dati degli utenti
Apple, multa milionaria per aver rallentato gli iPhone
Il malware che colpisce gli utenti dei siti porno
Google Foto, si va verso il servizio a pagamento
Expedia, Booking, Hotels e altri: dati degli utenti visibili e accessibili
L'aspirapolvere che recupera gli AirPod dalle rotaie
Open Shell riporta in vita il menu Start di Windows 7
WhatsApp, ora è più facile eliminare foto e video inutili
Ottobre 2020
Windows 10, Microsoft si prepara a rivoluzionare l'interfaccia
Windows 10 elimina la schermata Sistema, un trucco la riporta in vita
L'app che “spoglia” le donne: garante privacy apre istruttoria
Gasolio addio, FS vuole i treni a idrogeno
Windows 10, guai a catena dopo l'ultimo aggiornamento
Tutti gli Arretrati


web metrics