Deep Web – drugie dno internetu

Deep Web –
drugie dno internetu
Sabina Cisek
#InfoPRO, 2018-10-24, Kraków
1

Czym jest Deep Web?
Co się w nim znajduje?
2

Warstwy internetu
Powierzchniowy Web (Surface Web)
Deep/Invisible Web
Darknet/Darkweb
3

Z punktu widzenia przeciętnego użytkownika w
Deep/Invisible Web znajduje się wszystko to,
• co nie pojawia się na pierwszej stronie
rezultatów wyszukiwania wiodących serwisów
(Google),
• czego nie ma w newsfeedzie na portalach
społecznościowych (Facebook).
4

Co znajduje się w Deep Web? [1]
• Zasoby nieindeksowane przez uniwersalne
wyszukiwarki, zwłaszcza Google – z różnych
powodów, tym technicznych (błędne metadane, czas
działania, nietypowe formaty itp.), ale też związanych
z "polityką" wyszukiwarek lub właścicieli serwisów
www
• Zasoby indeksowane – ale do których nie tak łatwo
dotrzeć, których odnalezienie i wykorzystanie
wymaga rozwiniętej strategii wyszukiwawczej
5

• dokumenty w nietypowych formatach, np. skompresowane,
• serwisy WWW zabezpieczone hasłem, np. fora, intranety,
listy dyskusyjne wymagające zalogowania się,
• serwisy WWW, do których nie prowadzą odsyłacze z innych
witryn,
• strony wyłączone z procesu indeksacji przez twórców, takie,
których autorzy „zabronili” robotom indeksowania ich
treści,
• treści generowane dynamicznie, w czasie rzeczywistym, np.
w odpowiedzi na zapytanie użytkownika,
6

• zasoby de facto indeksowane przez wyszukiwarki uniwersalne,
ale pojawiające się na odległych miejscach na liście wyników
wyszukiwania (aspekt algorytmów rankingowych) albo takie,
których odnalezienie wymaga zaawansowanej strategii
wyszukiwawczej
• zawartość komercyjnych baz danych, czasopism, wypożyczalni
online itd., wymagających dokonania rejestracji albo
subskrypcji,
• zawartość publicznie dostępnych baz danych, archiwów i
repozytoriów typu Open Access, bibliotek cyfrowych,
katalogów bibliotecznych itp.
• źródła, do których dociera się dzięki "poleceniom" innych
7

• Bazy danych, tworzone z reguły przez podmioty rządowe lub
naukowe, w których wyszukiwanie za pomocą ich własnych
interfejsów (a nie interfejsu Google czy innej wyszukiwarki
globalnej) jest o wiele bardziej efektywne i których zawartość
jest uważana za wiarygodną
• Dane – badawcze, statystyczne i inne oraz zbiory takich
danych
• Grafiki, multimedia – a właściwie ich zawartość
• Pełne teksty artykułów i książek
• Zawartość portali społecznościowych
• ……..
8

Dlaczego Deep Web jest często
mylony w mediach z Darknetem?
Czym różnią się te dwa zjawiska?
9

Wybrane publikacje o deep web
• Bergman, Michael K. (2001). White Paper: The Deep Web: Surfacing Hidden Value.
The Journal of Electronic Publishing, vol. 18, issue 1. DOI
http://dx.doi.org/10.3998/3336451.0007.104
• Sherman Chris, Price Gary (2001). The Invisible Web. Uncovering Information
Sources Search Engines Can’t See. Medford, New Jersey: Information Today, Inc.
[dostęp w Google Książki]
• Mider, Daniel (2015). Mappa Mundi Ukrytego Internetu. Próba kategoryzacji kanałów
komunikacji i treści. Praktyka i Teoria Informacji Naukowej PTINT, t. XXIII, nr 1, s. 3-
13. http://www.ptin.org.pl/ (zakładka PTINT)
• Pamuła-Cieślak, Natalia (2015). Ukryty Internet jako przedmiot edukacji
informacyjnej. Toruń: Wydawnictwo Naukowe Uniwersytetu Mikołaja Kopernika.
• Szpunar, Magdalena (2014). Sieć ukryta a sieć widzialna. O zasobach WWW
nieindeksowanych przez wyszukiwarki. Przegląd Kulturoznawczy, nr 1 (19), s. 44-55.
10

Jakie są przyczyny powstania
Deep Webu?
Dlaczego Google nie indeksuje
niektórych zasobów?
11

Przyczyny istnienia Deep Webu
• Polityka i sposób działania wiodących serwisów
www, zwłaszcza wyszukiwarek globalnych
• Postępowanie dostawców treści/zasobów
informacyjnych – dostęp restrykcyjny, w tym
komercyjny
• Brak kompetencji cyfrowych/informacyjnych
użytkowników (digital literacy, information
literacy)
12

Zasoby nieindeksowane i/lub nieudostępniane
przez Google
• dokumenty w nietypowych formatach, np. skompresowane,
• serwisy WWW zabezpieczone hasłem, np. fora, intranety,
komercyjne bazy danych, listy dyskusyjne – wymagające
zalogowania się,
• serwisy WWW, do których nie prowadzą odsyłacze z innych witryn,
• strony wyłączone z procesu indeksacji przez twórców, takie, których
autorzy „zabronili” robotom indeksowania ich treści,
• treści generowane dynamicznie, w czasie rzeczywistym, np. w
odpowiedzi na zapytanie użytkownika,
• zasoby „cenzurowane” ze względu na cechy użytkownika (język,
lokalizacja, historia wyszukiwania, sprzęt ..)  algorytmy filtrujące,
personalizacja, bańka informacyjna
13

Na ile jest możliwe wyznaczenie
granic Deep Webu i jego
objętości?
14

• Oszacowanie wielkości zasobów Deep Web nie
jest proste – podawane są różne liczby – od 2 razy
większy od Surface Web do ok. 500 razy większy.
• „(…) wypracowano trzy metody badania wielkości
ukrytych zasobów: Host-IP Cluster Sampling, czyli
próbkowanie IP maszyn (hostów) w klastrach,
metoda random sampling of IP addresses (rsIP)
polegająca na wnioskowaniu z losowo dobranych
adresów oraz tzw. overlap analysis.” (Mider, 2015, s. 5)
15

Sposoby dostępu do zasobów
Deep Web
16

I. Wykorzystaj wyszukiwarki uniwersalne,
np. Bing, DuckDuckGo albo Google [1]
• Sformułuj wyrażenia wyszukiwawcze z użyciem
terminów: „archiwum”, „baza danych”, „portal”
itp., np.:
– „słowo kluczowe” „baza danych” OR „bazy danych”
– „słowo kluczowe” „archiwum” OR „bazy danych”
OR portal
17

18
PRZYKŁAD: Bing – wyrażenie wyszukiwawcze: rolnictwo

19
PRZYKŁAD: Bing – wyrażenie wyszukiwawcze: rolnictwo
(„baza danych” OR „bazy danych”)

• Przejrzyj nie tylko pierwszą stronę wyników
wyszukiwania – ale również kolejne
20
Idź głębiej

Możesz wypróbować też https://millionshort.com/, żeby
znaleźć rezultaty z „długiego ogona” – spoza
najpopularniejszych serwisów www
21

• Używaj operatorów boolowskich, frazy,
komend, formularzy wyszukiwania
zaawansowanego, narzędzi pracy z wynikami
wyszukiwania, specjalistycznych „sub-
wyszukiwarek” (Google Grafika, Google
Scholar, Google Wiadomości itp.)
22

Przykład – Co ludzie piszą w blogach o sieci
sklepów Biedronka?
23

II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [1]
• Bibliografie online, dziedzinowe bazy danych,
społecznościowe biblio- i webografie, zbiorcze katalogi
bibliotek, czyli źródła informacji skierowującej, np.
BazEkon https://bazybg.uek.krakow.pl/bazekon/,
BibSonomy http://www.bibsonomy.org/, NUKAT
http://katalog.nukat.edu.pl/
• Katalogi i wykazy linków, np. http://www.zillman.us/
24

startowe,
• Przewodniki dziedzinowe (subject gateways), np.
BazTOL
http://baztol.library.put.poznan.pl/baztol_czytelni
k/baztol albo CEOExpress
https://ceoexpress.com/home
26

28
CEOExpress https://ceoexpress.com/home

startowe,
• Przewodniki biblioteczne – libguides, np.
http://libguides.exeter.ac.uk/biosciences
• Profesjonalne serwisy tematyczne (wortale),
np. Infor.pl http://www.infor.pl/
29

Wyrażenia wyszukiwawcze: inurl:libguides
„archeology” albo intitle:libguide „archeology”
30
Przykład
wyszukanego libguide
https://libguides.rug.
nl/archeology

III. Zastanów się kto (instytucja,
ministerstwo, organizacja, uczelnia itp.)
mógłby być dysponentem poszukiwanej
informacji/zasobu
• Serwisy www wyspecjalizowanych instytucji i
organizacji, np. CIOP PIB https://www.ciop.pl/,
Europa http://europa.eu/index_pl.htm
31

32
CIOP PIB https://www.ciop.pl/

IV. Wykorzystaj serwisy wyszukiwawcze
dedykowane Deep Web (przykłady)
• Otwarte dane (informacja publiczna)
https://dane.gov.pl/
• Quandl https://www.quandl.com/
• Serwisy wyszukiwawcze zasobów naukowych –
zob. dalsza część prezentacji
33

V. Znajdź zasoby (pliki, strony), które
zniknęły z obecnego Webu
• Internet Archive: Wayback Machine
http://archive.org/web/
34

VI. Znajdź zasoby podobne do wcześniej
zidentyfikowanych
• https://www.alexa.com/find-similar-sites
• SimilarSites.com https://www.similarsites.com/
35

VII. Są też wyspecjalizowane firmy i
usługodawcy w zakresie Deep Web
• BrightPlanet http://www.brightplanet.com/
• Deep Web Technologies
http://www.deepwebtech.com/
36

VIII. Zapytaj eksperta
• Przykład – poszukuję publikacji o zachowaniach
informacyjnych – za pomocą frazy „zachowania
informacyjne” – w Google, Google Scholar,
BASE, Federacji Bibliotek Cyfrowych – i nigdzie
nie znajduję książki Anny Mierzeckiej Badania
zachowań informacyjnych (Warszawa, 2013).
• Jednak taka książka istnieje – i co więcej – jest
dostępna w pełnym tekście online 
37

Jakiego typu informacje możemy
znaleźć w Deep Webie?
38

• Bazy danych , tworzone z reguły przez podmioty naukowe,
rządowe, organizacje międzynarodowe, w których
wyszukiwanie za pomocą ich własnych interfejsów (a nie
interfejsu Google) jest o wiele bardziej efektywne i których
zawartość jest uważana za wiarygodną
• Dane – badawcze, statystyczne i inne oraz zbiory takich
danych
• Grafiki, multimedia – a właściwie ich zawartość
• Pełne teksty artykułów i książek – naukowych, ale także
literatury pięknej
• Zawartość portali społecznościowych
39

Jak Deep Web może być wykorzystany przez naukę?
W budowaniu dorobku naukowego?
• Rzetelne tworzenie/uchwycenie faktycznego stanu badań  poszukiwanie
publikacji naukowych, zwłaszcza – ale nie tylko – w języku polskim
• Poszukiwanie i ewentualne powtórne wykorzystanie „surowych” danych
badawczych
• Poszukiwanie zasobów „około-naukowych”  blogi, grupy dyskusyjne,
prezentacje dydaktyczne i z konferencji; zasoby związane z zarządzaniem
nauką (awanse, granty, prawo, wykazy pracowników itp.)
• Dzielenie się pomysłami przed publikacją i dorobkiem po publikacji 
archiwa i repozytoria Open Access  rozwój dyskusji naukowej
• Zwiększenie intersubiektywnej sprawdzalności  kontrola wyników badań
naukowych, m.in. przez dostęp do zbiorów danych badawczych, które
stanowiły podstawę publikacji
• Zwiększenie własnej „wyszukiwalności”
41

42
Jak znaleźć publikacje/teksty
naukowe?
Nie tylko Google Scholar

Jak znaleźć publikacje/teksty naukowe? [1]
• Wyszukiwarki naukowe wielodziedzinowe
– Google Scholar https://scholar.google.pl/
– BASE https://www.base-search.net/
– FreeFullPDF http://www.freefullpdf.com
– Microsoft Academic
http://academic.research.microsoft.com/
43

44
BASE https://www.base-search.net/

45
Ponad 80 milionów
plików pdf
z wszystkich dziedzin
nauki
w wolnym dostępie

46
Microsoft Academic https://academic.microsoft.com/

• Specjalistyczne serwisy wyszukiwawcze – bazy tematyczne
i przewodniki dziedzinowe (subject gateways)
– Agro (baza bibliograficzna, są też pełne teksty, nauki przyrodnicze,
rolnicze i pokrewne)
http://agro.icm.edu.pl/agro/browse/articles.action
– BazEkon (baza bibliograficzna, także pełne teksty, cytowania, nauki
ekonomiczne i pokrewne) https://bazybg.uek.krakow.pl/bazekon/
– BazHUM (baza bibliograficzna, nauki humanistyczne i społeczne)
http://bazhum.pl/
– BazTECH (baza bibliograficzno-abstraktowa, cytowania, coraz więcej
pełnych tekstów, nauki techniczne i pokrewne)
https://baztech.icm.edu.pl/index.php/pl/
47

Jak znaleźć publikacje/teksty naukowe? [2a]
– BazTOL http://baztol.library.put.poznan.pl/baztol/pl/ba
ztol.html (przewodnik dziedzinowy, nauki techniczne)
– CIBiE WBP w Krakowie Zasoby on-line
http://www.cibie.pl/zasoby-on-line.html (przewodnik
dziedzinowy, biznes, ekonomia)
– Ekonomia on-line (przewodnik dziedzinowy, ekonomia i
dyscypliny pokrewne)
https://bg.uek.krakow.pl/biblioteka/ekonomia/
– Euroforest Portal (przewodnik dziedzinowy, leśnictwo i
dziedziny pokrewne) http://forestportal.efi.int/
48

• Informacja bibliograficzna/skierowująca
– Przykład – NUKAT – katalog zbiorów polskich
bibliotek naukowych
50

• Zasoby Open Access
– Złota droga i zielona droga
– Kolekcje – archiwa dziedzinowe, repozytoria
instytucjonalne, (niektóre) biblioteki cyfrowe
– Serwisy wyszukiwawcze dedykowane Open Access
51

Wyszukiwarki i zasoby Open Access (OA)
• Serwisy wyszukiwawcze dedykowane OA: ARIANTA, DOAB,
DOAJ, OpenDOAR, także Federacja Bibliotek Cyfrowych
• Wydawcy czasopism w trybie OA: Bentham Open, BioMed
Central, De Gruyter Open, MDPI, PLOS
• Archiwa dyscyplin naukowych: arXiv, CDS CERN Document
Server, Cogprints, DLIST, E-LIS, Infona, PhilSci Archive
• Repozytoria instytucjonalne, uczelniane
• Więcej – zobacz:
https://sabinacisek.blogspot.com/2011/06/wyszukiwanie-
penych-tekstow-naukowych.html
52

54
Federacja Bibliotek Cyfrowych https://fbc.pionier.net.pl/

56
Jak znaleźć (surowe) dane
badawcze?

Repozytoria (archiwa) "surowych"
danych badawczych
Są to intencjonalnie stworzone zbiory danych (materiałów),
powstałych w wyniku badań empirycznych w różnych
przedsięwzięciach naukowych lub też zgromadzonych na
potrzeby konkretnych projektów badawczych.
Innymi słowy, termin ten nie określa wszystkich istniejących
kolekcji danych, które ewentualnie mogłyby „przydać się” w
dociekaniach naukowych, lecz tylko te, które obejmują
materiały uzyskane w rezultacie badań, a także zostały
zorganizowane celowo, odpowiednio uporządkowane,
opisane metadanymi i przygotowane do udostępniania.
57

Przykłady zbiorów danych (datasets)
• CLUES
• NIH Data Sharing Repositories (medycyna)
• PANGAEA. Data Publisher for Earth
& Environmental Science,
np. https://doi.pangaea.de/10.1594/PANGAEA
.860961
• WALS (World Atlas of Language Structures)
• World Data Centre
58

Globalne internetowe serwisy
indeksujące repozytoria i/lub promujące
(otwarty) dostęp do „surowych” danych
badawczych [1]
• re3data.org Registry of Research Data
Repositories http://www.re3data.org/, rejestr
powstały w 2012 roku w Niemczech, indeksuje
ponad 1500 archiwów (repozytoriów) danych
badawczych z całego świata
62

Globalne internetowe serwisy ...... [2]
• DataCite http://www.datacite.org/, założona w 2009 roku
międzynarodowa organizacja non-profit, mająca na celu
ułatwienie dostępu do danych badawczych w Internecie
• Data Repositories
http://oad.simmons.edu/oadwiki/Data_repositories
(dotyczy danych otwartych, niekompletny)
• ICSU World Data System http://www.icsu-wds.org/,
istniejące od 2008 roku przedsięwzięcie Międzynarodowej
Rady Nauki (International Council for Science), z dostępem
do zbiorów danych badawczych poprzez Data Portal
http://www.icsu-wds.org/services/data-portal
63

Data journals [1]
• Czasopisma publikujące dane badawcze lub
informacje o zbiorach danych badawczych (ze
wskazaniem repozytoriów, w których są
przechowywane)
• Wykazy
– Data Journals Guide http://ands.org.au/guides/data-
journals.html
– Open Data Journals
https://www.fosteropenscience.eu/foster-
taxonomy/open-data-journals
65

Data journals – przykłady [2]
• Data in Brief, http://www.journals.elsevier.com/data-in-brief/,
http://www.sciencedirect.com/science/journal/23523409/1
• Geoscience Data Journal
http://onlinelibrary.wiley.com/journal/10.1002/%28ISSN%292049-
6060
• Journal of Open Archaeology Data,
http://openarchaeologydata.metajnl.com/, wykaz polecanych
repozytoriów
http://openarchaeologydata.metajnl.com/about/#repo
• Journal of Open Psychology Data
http://openpsychologydata.metajnl.com/
66

68
Fragment z Journal of Open Archaeology Data

Gdzie można zamieścić zbiór własnych
danych badawczych (dataset)?
• FigShare https://figshare.com/
• Repozytorium Otwartych Danych RepOD
CEON https://repod.pon.edu.pl/pl/
• Zenodo https://zenodo.org/
69

70
FigShare https://figshare.com/browse

Więcej na temat Deep Web, poszukiwania
informacji i publikacji naukowych itp. znajdziesz
w blogu Informacja biznesowa, naukowa i
infobrokering https://sabinacisek.blogspot.com/
73

Deep Web – drugie dno internetu

Empfohlen

Empfohlen

Weitere ähnliche Inhalte

Was ist angesagt?

Was ist angesagt? (20)

Ähnlich wie Deep Web – drugie dno internetu

Ähnlich wie Deep Web – drugie dno internetu (20)

Mehr von Sabina Cisek

Mehr von Sabina Cisek (20)

Deep Web – drugie dno internetu