Alla scoperta del deep web

Quella parte di Internet sconosciuta ai motori di ricerca.



[ZEUS News - www.zeusnews.it - 03-03-2009]

deep web

Pensiamo a Internet e immaginiamo un mondo sconfinato: desideriamo trovare qualcosa e immediatamente cerchiamo con Google che "tutto sa" della rete.

Pare che non sia affatto così, almeno per quanto attiene le capacità dei motori di ricerca di scandagliare la Rete. Le pagine ma soprattutto i contenuti visitati dagli spider pare infatti siano solo una minima parte di quelli effettivamente presenti online. Internet sarebbe come un iceberg: ciò che si vede è di molto inferiore a ciò che resta immerso sott'acqua.

Là fuori ci sarebbe tutto un web nascosto - o deep web come si usa dire - non indicizzato dai motori di ricerca e di fatto, se non proprio introvabile, sicuramente poco utilizzabile. Si parte dai siti interamente in flash, che al momento non vengono correttamente visti dagli spider che solcano la rete, ma ci sono anche uno sterminato volume di informazioni, dati, pagine, risorse.

Non viene indicizzato, per esempio, tutto quello che è disponibile solo a pagamento, ma anche quei contenuti che vengono esposti sul web in vetrina per poco tempo come articoli e notizie on line dei vari portali o testate giornalistiche e che in breve spariscono alla vista e anche ai link incrociati, divenendo di fatto irraggiungibili.

Allo stesso modo sono non tutto visibili altri contenuti inseriti in formati non tipicamente testuali propri delle pagine web come ad esempio file Pdf (solo recentemente indicizzati da Google), video, fogli elettronici, database e molti altri esempi: tutto ciò che non è correlato al web da hyperlink diretti utilizzati dai crawler per navigare, scoprire e indicizzare i contenuti di Internet.

Secondo una società specializzata nell'indicizzazione dei contenuti dinamici, questa manchevolezza implicherebbe che solo l'un per cento dei contenuti presenti su Internet sia indicizzato. Probabilmente si tratta di stime eccessivamente pessimistiche, comunque il dato deve far riflettere.

Questa mole di dati è naturalmente estremamente appetibile per chi di mestiere si occupa di indicizzare il web. Non stupisce il fatto che Google abbia costituito dei gruppi di lavoro per recuperare queste informazioni seppellite nel web profondo, con la sfida di riuscire a creare algoritmi di ricerca in grado di rispondere a domande che prevedono un ragionamento alla base, cioè con un approccio semantico effettivamente funzionante.

Ma Google non è certo da sola: Kosmix è una start-up che vede tra i propri fondatori Jeffrey Bezos (già amministratore delegato di Amazon) nata con il compito di svelare e recuperare questo "mondo sommerso". Juliana Freire dell'Università dello Utah ha creato il progetto DeepPeep.

I motivi sono ovvi: ciò che non è indicizzato non è sostanzialmente accessibile e utilizzabile e - a parità di algoritmo di ricerca e analisi - i risultati dovrebbero affinarsi con un maggior numero di dati da cui estrapolare il risultato della ricerca.

Se questo articolo ti è piaciuto e vuoi rimanere sempre informato con Zeus News ti consigliamo di iscriverti alla Newsletter gratuita. Inoltre puoi consigliare l'articolo utilizzando uno dei pulsanti qui sotto, inserire un commento (anche anonimo) o segnalare un refuso.
© RIPRODUZIONE RISERVATA

Commenti all'articolo (ultimi 5 di 8)

mi sembra strano anche a me che la maggior parte dei siti non venga indicizzato, magari lo è ma molto infondo e come giustamente detto uno non va oltre la terza pagina... e comunque si può evitare anche di proposito che venga indicizzato o totalmente o in parte usando le istruzioni <meta name="robots"... Leggi tutto
4-3-2009 10:36

Il ranking non è basato sul numero dei link che puntano alla pagina? Leggi tutto
3-3-2009 20:58

Credo che "vincenzo2342" nel post che segue abbia riportato ampiamente ciò che penso; e cioè che i motori non indicizzano la qualità ma solo il numero dei click :evil: Leggi tutto
3-3-2009 20:04

Il fatto è che i motori di ricerca, Google in primis, indicizzano i siti e li propinano tra i risultati di ricerca in base alle parole chiave (giustamente) ma anche in base alle statistiche del sito (quanto è cliccato, quanto è aggiornato..). Pertanto questi siti che possono contenere materiale di ottima qualità possono essere seppelliti... Leggi tutto
3-3-2009 17:32

questa è allo stesso tempo la forza di internet .... la libertà :D Leggi tutto
3-3-2009 17:21

La liberta' di parola e' un diritto inviolabile, ma nei forum di Zeus News vige un regolamento che impone delle restrizioni e che l'utente e' tenuto a rispettare. I moderatori si riservano il diritto di cancellare o modificare i commenti inseriti dagli utenti, senza dover fornire giustificazione alcuna. Gli utenti non registrati al forum inoltre sono sottoposti a moderazione preventiva. La responsabilita' dei commenti ricade esclusivamente sui rispettivi autori. I principali consigli: rimani sempre in argomento; evita commenti offensivi, volgari, violenti o che inneggiano all'illegalita'; non inserire dati personali, link inutili o spam in generale.
E' VIETATA la riproduzione dei testi e delle immagini senza l'espressa autorizzazione scritta di Zeus News. Tutti i marchi e i marchi registrati citati sono di proprietà delle rispettive società. Informativa sulla privacy. I tuoi suggerimenti sono di vitale importanza per Zeus News. Contatta la redazione e contribuisci anche tu a migliorare il sito: pubblicheremo sui forum le lettere piu' interessanti.
Sondaggio
I bambini sempre più spesso entrano in contatto con la tecnologia a una tenera età (per giocare, comunicare e cercare informazioni), anche grazie alla diffusione di smartphone e tablet. Quale dovrebbe essere la maggiore preoccupazione dei genitori?
Potrebbero visionare materiale inappropriato o visitare siti inopportuni.
Potrebbero comunicare con sconosciuti o persone non ritenute affidabili.
Potrebbero essere vittime di cyberbullismo, sui social network o altrove.
Potrebbero spendere denaro online senza che i genitori lo sappiano, anche a causa delle app che richiedono acquisti online durante i giochi.
Potrebbero diffondere dati personali (compresi foto e filmati) senza essere coscienti dei rischi.
Potrebbero incorrere in difficoltà a relazionarsi con amici dal vivo, nascondendosi dietro relazioni disintermediate dal mezzo informatico.

Mostra i risultati (1544 voti)
Ottobre 2025
WhatsApp, arrivano i nomi utente: presto sarà possibile prenotare quello preferito
Guida autonoma in 60 città italiane: Italia primo laboratorio europeo per i test
Infotainment in auto, nuove regole: i veicoli smart dovranno avere un'autoradio FM/DAB+
Mozilla introduce Firefox VPN: navigazione cifrata nel browser. Privata e gratuita
Windows 11 25H2: debutta il menu Start con layout dinamico e integrazione con lo smartphone
DAZN chiede 500 euro di risarcimento a 2000 utenti già multati per pirateria. E minaccia cause
Energia elettrica: il prezzo cambia ogni 15 minuti. Fasce orario stravolte, la sera costa di più
Clothoff bloccata in Italia: il Garante Privacy ferma l'app che spoglia le persone con la IA
Open Printer, stampante inkjet open source. Cartucce ricaricabili, design modulare e niente DRM
Amazon Prime elimina la prova gratuita in Italia: i giorni di test passano da 30 a 7. E si pagano
Settembre 2025
SPID a pagamento, l'era gratuita è finita: le Poste introducono un canone annuale
YouTube ammette: "Obbligati dall'amministrazione Biden a sospendere certi canali"
Commodore 64 Ultimate convince: boom di vendite, acquisizione anticipata
Cookie, si va verso il consenso unico. L'Europa valuta l'integrazione nei browser web
Google lancia l'app "unificata" per la ricerca in Windows: documenti locali, web e Google Drive
Tutti gli Arretrati
Accadde oggi - 22 ottobre


web metrics