În acest articol vom explora lumea fascinantă a lui Deep Web și toate dimensiunile care o înconjoară. De la origini și până la impactul de astăzi, ne vom cufunda într-o călătorie care ne va conduce să-i descoperim multiplele fațete și posibilele interpretări. Deep Web este un subiect care a stârnit interesul multor oameni de-a lungul istoriei, iar în acest articol vom încerca să facem lumină asupra misterelor sale și să dezvăluim posibilele sale semnificații. Pregătește-te să intri într-un univers plin de surprize și descoperiri, în timp ce explorăm împreună tot ce are de oferit Deep Web. Nu rata!
Deep Web (în traducere aproximativă „internetul în profunzime”) numit și Deepnet, Invisible Web, Undernet sau Hidden Web, este conținut al World Wide Web. Deep Web nu face parte a Internetului superficial (Surface Web), care este indexat de motoarele de căutare standard. El nu trebuie confundat cu dark Internet, sau cu rețeaua de găzduire și distribuție de fișiere Darknet. Există îngrijorarea că darknet poate fi utilizat pentru activități criminale destul de serioase.[1]
Majoritatea informației din internet este ascunsă în site-uri generate dinamic, și astfel motoarele de căutare tradiționale nu o pot găsi. În 2001, deep Web era de câteva zeci de ori mai voluminos decât internetul superficial.[2]
Esența problemei
Într-o rețea profundă există pagini web care nu sunt legate de alte hyperlink-uri (de exemplu, pagini web de tip "dead-end" creat în mod dinamic de scripturi pe site-uri, la cerere, care nu sunt direct menționate), precum și accesul la site- și pagini de Internet accesibile numai prin parolă.
Motoarele de căutare utilizează un robot special care navighează prin hyperlink-uri și indexează conținutul paginilor web care apar, punând conținutul lor și hyperlink-urile în bazele lor de date. După ce a găsit link-uri către alte pagini de pe pagina web indexată, botul de căutare navighează prin ele și indexează conținutul fiecărei pagini găsite, găsește noi hyperlink-uri și trece peste ele pentru indexare; Ca urmare a legăturilor care depășesc paginile indexate numărul de pagini web indexate este în continuă creștere. Pentru a ajunge la pagini web care nu sunt menționate de alte pagini botul de căutare nu poate, din cauza conținutului acestor pagini care nu este indexat. Prin urmare, fără a cunoaște adresa URL a site-ului sau a paginii web a "Deep Web", un utilizator obișnuit nu le poate accesa.
De asemenea, "Deep Web" include site-uri ai căror proprietari au refuzat în mod voluntar să fie indexați de motoarele de căutare (de exemplu utilizând fișierul "robots.txt"), precum și site-uri web și pagini web protejate prin autorizare de a vizualiza informații de către terțe părți. În acest caz, fără a cunoaște numele de conectare și/sau parola pe pagina web, este imposibil să vizualizați complet conținutul acestuia sau să utilizați site-ul Web.
Mărimea
Estimările unui studiu realizat la Universitatea Berkeley din California în 2001,[2] indicau că deep Web constă din aproape 7,5 petabyte. Alte estimări indicau că în 2004 existau în jur de 300.000 de site-uri web în deep web,[3] iar, conform lui Șestakov, circa 14.000 de site-uri deep web existau în spațiul rusesc din internet în 2006.[4]
Resurse Deep Web
Metodele care împiedică paginile web să fie indexate de motoarele de căutare tradiționale pot fi clasificate în mai multe categorii:
pagini cu conținut dinamic: pagini dinamice care apar ca răspuns la un anumit tip de căutare sau care sunt accesate prin formulare web (câmpuri de text)
pagini care nu sunt legate de altele prin link-uri
web privat: pagini care necesită un nume de utilizator și parolă
web contextual: pagini al căror conținut variază în funcție de contextul în care sunt accesate (clasa de adresă IP, sau secvența de navigare precedentă).
pagini cu conținut limitat: pagini cu acces limitat tehnic (folosesc programe care împiedică sau chiar exclud accesul roboților de căutare și motoarelor de căutare să le indexeze și să creeze copii cache); pentru aceasta, robotul utilizează un fișier text (robots.txt) aflat în rădăcina site-ului care poate permite sau restricționa roboții motoarelor de căutare să acceseze paginile site-ului
conținut scriptat: pagini ce sunt accesibile doar prin link-uri de JavaScript, dar și alte conținuturi dinamice descărcate de pe serverele web
conținut non-HTML/text: conținut textual codat în fișiere multimedia sau alte formate specifice ce nu sunt suportate de motoarele de căutare. [5]
Motoare de căutare în Deep Web
Infomine: a fost realizat de mai multe biblioteci din S.U.A.; informații din baze de date, jurnale electronice, cărți electronice, buletine de știri, liste de mail, cataloage online, articole și alte resurse.
The WWW Virtual Library: considerat a fi cel mai vechi catalog web
Intute: motor de căutare care indexează site-urile unor universitati prestigioase, ce oferă resurse pentru studiu și cercetare.
Complete Planet: indexează în jur de 70.000 de baze de date al căror conținut variază de la agricultură la domeniul militar.
Infoplease: conține enciclopedii, almanahuri, atlase și biografii.
DeepPeep: accesează căutarea în interiorul mai multor domenii: auto, aviație, cărți, biologie, hotel, locuri de muncă, închirieri.
IncyWincy: folosește alte motoare de căutare și apoi filtrează rezultatele.
DeepWebTech: ofera 5 motoare de căutare pentru anumite subiecte; printre domeniile acoperite sunt din știinta, medicina și afaceri.
Scirus: motor de căutare puternic axat doar pe știință; indexează jurnale, site-uri personale ale unor savanți, materiale de curs și rețele instituționale.
TechXtra: motor de căutare axat pe inginerie, matematică și IT; indexează știrile din aceste domenii, oferte de muncă, rapoarte tehnice, documente electronice, resurse de studiu și cercetare, alte article și informatii relevante. [6][7]
^Denis Shestakov (). „Sampling the National Deep Web”. Proceedings of the 22nd International Conference on Database and Expert Systems Applications (DEXA) (în Russian). Springer.com. pp. 331–340. Arhivat din original(PDF) la . Accesat în .Mentenanță CS1: Limbă nerecunoscută (link)
Barker, Joe (), „Invisible Web: What it is, Why it exists, How to find it, and its inherent ambiguity”, Teaching Library Internet Workshops, Berkeley, CA, USA: UC.