4. Z punktu widzenia przeciętnego użytkownika w
Deep/Invisible Web znajduje się wszystko to,
• co nie pojawia się na pierwszej stronie
rezultatów wyszukiwania wiodących serwisów
(Google),
• czego nie ma w newsfeedzie na portalach
społecznościowych (Facebook).
4
5. Co znajduje się w Deep Web? [1]
• Zasoby nieindeksowane przez uniwersalne
wyszukiwarki, zwłaszcza Google – z różnych
powodów, tym technicznych (błędne metadane, czas
działania, nietypowe formaty itp.), ale też związanych
z "polityką" wyszukiwarek lub właścicieli serwisów
www
• Zasoby indeksowane – ale do których nie tak łatwo
dotrzeć, których odnalezienie i wykorzystanie
wymaga rozwiniętej strategii wyszukiwawczej
5
6. Co znajduje się w Deep Web? [2]
• dokumenty w nietypowych formatach, np. skompresowane,
• serwisy WWW zabezpieczone hasłem, np. fora, intranety,
listy dyskusyjne wymagające zalogowania się,
• serwisy WWW, do których nie prowadzą odsyłacze z innych
witryn,
• strony wyłączone z procesu indeksacji przez twórców, takie,
których autorzy „zabronili” robotom indeksowania ich
treści,
• treści generowane dynamicznie, w czasie rzeczywistym, np.
w odpowiedzi na zapytanie użytkownika,
6
7. Co znajduje się w Deep Web? [3]
• zasoby de facto indeksowane przez wyszukiwarki uniwersalne,
ale pojawiające się na odległych miejscach na liście wyników
wyszukiwania (aspekt algorytmów rankingowych) albo takie,
których odnalezienie wymaga zaawansowanej strategii
wyszukiwawczej
• zawartość komercyjnych baz danych, czasopism, wypożyczalni
online itd., wymagających dokonania rejestracji albo
subskrypcji,
• zawartość publicznie dostępnych baz danych, archiwów i
repozytoriów typu Open Access, bibliotek cyfrowych,
katalogów bibliotecznych itp.
• źródła, do których dociera się dzięki "poleceniom" innych
7
8. Co znajduje się w Deep Web? [4]
• Bazy danych, tworzone z reguły przez podmioty rządowe lub
naukowe, w których wyszukiwanie za pomocą ich własnych
interfejsów (a nie interfejsu Google czy innej wyszukiwarki
globalnej) jest o wiele bardziej efektywne i których zawartość
jest uważana za wiarygodną
• Dane – badawcze, statystyczne i inne oraz zbiory takich
danych
• Grafiki, multimedia – a właściwie ich zawartość
• Pełne teksty artykułów i książek
• Zawartość portali społecznościowych
• ……..
8
9. Dlaczego Deep Web jest często
mylony w mediach z Darknetem?
Czym różnią się te dwa zjawiska?
9
10. Wybrane publikacje o deep web
• Bergman, Michael K. (2001). White Paper: The Deep Web: Surfacing Hidden Value.
The Journal of Electronic Publishing, vol. 18, issue 1. DOI
http://dx.doi.org/10.3998/3336451.0007.104
• Sherman Chris, Price Gary (2001). The Invisible Web. Uncovering Information
Sources Search Engines Can’t See. Medford, New Jersey: Information Today, Inc.
[dostęp w Google Książki]
• Mider, Daniel (2015). Mappa Mundi Ukrytego Internetu. Próba kategoryzacji kanałów
komunikacji i treści. Praktyka i Teoria Informacji Naukowej PTINT, t. XXIII, nr 1, s. 3-
13. http://www.ptin.org.pl/ (zakładka PTINT)
• Pamuła-Cieślak, Natalia (2015). Ukryty Internet jako przedmiot edukacji
informacyjnej. Toruń: Wydawnictwo Naukowe Uniwersytetu Mikołaja Kopernika.
• Szpunar, Magdalena (2014). Sieć ukryta a sieć widzialna. O zasobach WWW
nieindeksowanych przez wyszukiwarki. Przegląd Kulturoznawczy, nr 1 (19), s. 44-55.
10
11. Jakie są przyczyny powstania
Deep Webu?
Dlaczego Google nie indeksuje
niektórych zasobów?
11
12. Przyczyny istnienia Deep Webu
• Polityka i sposób działania wiodących serwisów
www, zwłaszcza wyszukiwarek globalnych
• Postępowanie dostawców treści/zasobów
informacyjnych – dostęp restrykcyjny, w tym
komercyjny
• Brak kompetencji cyfrowych/informacyjnych
użytkowników (digital literacy, information
literacy)
12
13. Zasoby nieindeksowane i/lub nieudostępniane
przez Google
• dokumenty w nietypowych formatach, np. skompresowane,
• serwisy WWW zabezpieczone hasłem, np. fora, intranety,
komercyjne bazy danych, listy dyskusyjne – wymagające
zalogowania się,
• serwisy WWW, do których nie prowadzą odsyłacze z innych witryn,
• strony wyłączone z procesu indeksacji przez twórców, takie, których
autorzy „zabronili” robotom indeksowania ich treści,
• treści generowane dynamicznie, w czasie rzeczywistym, np. w
odpowiedzi na zapytanie użytkownika,
• zasoby „cenzurowane” ze względu na cechy użytkownika (język,
lokalizacja, historia wyszukiwania, sprzęt ..) algorytmy filtrujące,
personalizacja, bańka informacyjna
13
14. Na ile jest możliwe wyznaczenie
granic Deep Webu i jego
objętości?
14
15. • Oszacowanie wielkości zasobów Deep Web nie
jest proste – podawane są różne liczby – od 2 razy
większy od Surface Web do ok. 500 razy większy.
• „(…) wypracowano trzy metody badania wielkości
ukrytych zasobów: Host-IP Cluster Sampling, czyli
próbkowanie IP maszyn (hostów) w klastrach,
metoda random sampling of IP addresses (rsIP)
polegająca na wnioskowaniu z losowo dobranych
adresów oraz tzw. overlap analysis.” (Mider, 2015, s. 5)
15
20. I. Wykorzystaj wyszukiwarki uniwersalne,
np. Bing, DuckDuckGo albo Google [2]
• Przejrzyj nie tylko pierwszą stronę wyników
wyszukiwania – ale również kolejne
20
Idź głębiej
21. Możesz wypróbować też https://millionshort.com/, żeby
znaleźć rezultaty z „długiego ogona” – spoza
najpopularniejszych serwisów www
21
22. I. Wykorzystaj wyszukiwarki uniwersalne,
np. Bing, DuckDuckGo albo Google [3]
• Używaj operatorów boolowskich, frazy,
komend, formularzy wyszukiwania
zaawansowanego, narzędzi pracy z wynikami
wyszukiwania, specjalistycznych „sub-
wyszukiwarek” (Google Grafika, Google
Scholar, Google Wiadomości itp.)
22
23. Przykład – Co ludzie piszą w blogach o sieci
sklepów Biedronka?
23
24. II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [1]
• Bibliografie online, dziedzinowe bazy danych,
społecznościowe biblio- i webografie, zbiorcze katalogi
bibliotek, czyli źródła informacji skierowującej, np.
BazEkon https://bazybg.uek.krakow.pl/bazekon/,
BibSonomy http://www.bibsonomy.org/, NUKAT
http://katalog.nukat.edu.pl/
• Katalogi i wykazy linków, np. http://www.zillman.us/
24
26. II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [2]
• Przewodniki dziedzinowe (subject gateways), np.
BazTOL
http://baztol.library.put.poznan.pl/baztol_czytelni
k/baztol albo CEOExpress
https://ceoexpress.com/home
26
29. II. Wykorzystaj specjalistyczne punkty
startowe,
tworzone przez ekspertów, nie przez roboty [3]
• Przewodniki biblioteczne – libguides, np.
http://libguides.exeter.ac.uk/biosciences
• Profesjonalne serwisy tematyczne (wortale),
np. Infor.pl http://www.infor.pl/
29
31. III. Zastanów się kto (instytucja,
ministerstwo, organizacja, uczelnia itp.)
mógłby być dysponentem poszukiwanej
informacji/zasobu
• Serwisy www wyspecjalizowanych instytucji i
organizacji, np. CIOP PIB https://www.ciop.pl/,
Europa http://europa.eu/index_pl.htm
31
33. IV. Wykorzystaj serwisy wyszukiwawcze
dedykowane Deep Web (przykłady)
• Otwarte dane (informacja publiczna)
https://dane.gov.pl/
• Quandl https://www.quandl.com/
• Serwisy wyszukiwawcze zasobów naukowych –
zob. dalsza część prezentacji
33
34. V. Znajdź zasoby (pliki, strony), które
zniknęły z obecnego Webu
• Internet Archive: Wayback Machine
http://archive.org/web/
34
35. VI. Znajdź zasoby podobne do wcześniej
zidentyfikowanych
• https://www.alexa.com/find-similar-sites
• SimilarSites.com https://www.similarsites.com/
35
36. VII. Są też wyspecjalizowane firmy i
usługodawcy w zakresie Deep Web
• BrightPlanet http://www.brightplanet.com/
• Deep Web Technologies
http://www.deepwebtech.com/
36
37. VIII. Zapytaj eksperta
• Przykład – poszukuję publikacji o zachowaniach
informacyjnych – za pomocą frazy „zachowania
informacyjne” – w Google, Google Scholar,
BASE, Federacji Bibliotek Cyfrowych – i nigdzie
nie znajduję książki Anny Mierzeckiej Badania
zachowań informacyjnych (Warszawa, 2013).
• Jednak taka książka istnieje – i co więcej – jest
dostępna w pełnym tekście online
37
39. • Bazy danych , tworzone z reguły przez podmioty naukowe,
rządowe, organizacje międzynarodowe, w których
wyszukiwanie za pomocą ich własnych interfejsów (a nie
interfejsu Google) jest o wiele bardziej efektywne i których
zawartość jest uważana za wiarygodną
• Dane – badawcze, statystyczne i inne oraz zbiory takich
danych
• Grafiki, multimedia – a właściwie ich zawartość
• Pełne teksty artykułów i książek – naukowych, ale także
literatury pięknej
• Zawartość portali społecznościowych
39
41. Jak Deep Web może być wykorzystany przez naukę?
W budowaniu dorobku naukowego?
• Rzetelne tworzenie/uchwycenie faktycznego stanu badań poszukiwanie
publikacji naukowych, zwłaszcza – ale nie tylko – w języku polskim
• Poszukiwanie i ewentualne powtórne wykorzystanie „surowych” danych
badawczych
• Poszukiwanie zasobów „około-naukowych” blogi, grupy dyskusyjne,
prezentacje dydaktyczne i z konferencji; zasoby związane z zarządzaniem
nauką (awanse, granty, prawo, wykazy pracowników itp.)
• Dzielenie się pomysłami przed publikacją i dorobkiem po publikacji
archiwa i repozytoria Open Access rozwój dyskusji naukowej
• Zwiększenie intersubiektywnej sprawdzalności kontrola wyników badań
naukowych, m.in. przez dostęp do zbiorów danych badawczych, które
stanowiły podstawę publikacji
• Zwiększenie własnej „wyszukiwalności”
41
43. Jak znaleźć publikacje/teksty naukowe? [1]
• Wyszukiwarki naukowe wielodziedzinowe
– Google Scholar https://scholar.google.pl/
– BASE https://www.base-search.net/
– FreeFullPDF http://www.freefullpdf.com
– Microsoft Academic
http://academic.research.microsoft.com/
43
47. Jak znaleźć publikacje/teksty naukowe? [2]
• Specjalistyczne serwisy wyszukiwawcze – bazy tematyczne
i przewodniki dziedzinowe (subject gateways)
– Agro (baza bibliograficzna, są też pełne teksty, nauki przyrodnicze,
rolnicze i pokrewne)
http://agro.icm.edu.pl/agro/browse/articles.action
– BazEkon (baza bibliograficzna, także pełne teksty, cytowania, nauki
ekonomiczne i pokrewne) https://bazybg.uek.krakow.pl/bazekon/
– BazHUM (baza bibliograficzna, nauki humanistyczne i społeczne)
http://bazhum.pl/
– BazTECH (baza bibliograficzno-abstraktowa, cytowania, coraz więcej
pełnych tekstów, nauki techniczne i pokrewne)
https://baztech.icm.edu.pl/index.php/pl/
47
48. Jak znaleźć publikacje/teksty naukowe? [2a]
– BazTOL http://baztol.library.put.poznan.pl/baztol/pl/ba
ztol.html (przewodnik dziedzinowy, nauki techniczne)
– CIBiE WBP w Krakowie Zasoby on-line
http://www.cibie.pl/zasoby-on-line.html (przewodnik
dziedzinowy, biznes, ekonomia)
– Ekonomia on-line (przewodnik dziedzinowy, ekonomia i
dyscypliny pokrewne)
https://bg.uek.krakow.pl/biblioteka/ekonomia/
– Euroforest Portal (przewodnik dziedzinowy, leśnictwo i
dziedziny pokrewne) http://forestportal.efi.int/
48
50. Jak znaleźć publikacje/teksty naukowe? [3]
• Informacja bibliograficzna/skierowująca
– Przykład – NUKAT – katalog zbiorów polskich
bibliotek naukowych
50
51. Jak znaleźć publikacje/teksty naukowe? [4]
• Zasoby Open Access
– Złota droga i zielona droga
– Kolekcje – archiwa dziedzinowe, repozytoria
instytucjonalne, (niektóre) biblioteki cyfrowe
– Serwisy wyszukiwawcze dedykowane Open Access
51
57. Repozytoria (archiwa) "surowych"
danych badawczych
Są to intencjonalnie stworzone zbiory danych (materiałów),
powstałych w wyniku badań empirycznych w różnych
przedsięwzięciach naukowych lub też zgromadzonych na
potrzeby konkretnych projektów badawczych.
Innymi słowy, termin ten nie określa wszystkich istniejących
kolekcji danych, które ewentualnie mogłyby „przydać się” w
dociekaniach naukowych, lecz tylko te, które obejmują
materiały uzyskane w rezultacie badań, a także zostały
zorganizowane celowo, odpowiednio uporządkowane,
opisane metadanymi i przygotowane do udostępniania.
57
58. Przykłady zbiorów danych (datasets)
• CLUES
• NIH Data Sharing Repositories (medycyna)
• PANGAEA. Data Publisher for Earth
& Environmental Science,
np. https://doi.pangaea.de/10.1594/PANGAEA
.860961
• WALS (World Atlas of Language Structures)
• World Data Centre
58
62. Globalne internetowe serwisy
indeksujące repozytoria i/lub promujące
(otwarty) dostęp do „surowych” danych
badawczych [1]
• re3data.org Registry of Research Data
Repositories http://www.re3data.org/, rejestr
powstały w 2012 roku w Niemczech, indeksuje
ponad 1500 archiwów (repozytoriów) danych
badawczych z całego świata
62
63. Globalne internetowe serwisy ...... [2]
• DataCite http://www.datacite.org/, założona w 2009 roku
międzynarodowa organizacja non-profit, mająca na celu
ułatwienie dostępu do danych badawczych w Internecie
• Data Repositories
http://oad.simmons.edu/oadwiki/Data_repositories
(dotyczy danych otwartych, niekompletny)
• ICSU World Data System http://www.icsu-wds.org/,
istniejące od 2008 roku przedsięwzięcie Międzynarodowej
Rady Nauki (International Council for Science), z dostępem
do zbiorów danych badawczych poprzez Data Portal
http://www.icsu-wds.org/services/data-portal
63
65. Data journals [1]
• Czasopisma publikujące dane badawcze lub
informacje o zbiorach danych badawczych (ze
wskazaniem repozytoriów, w których są
przechowywane)
• Wykazy
– Data Journals Guide http://ands.org.au/guides/data-
journals.html
– Open Data Journals
https://www.fosteropenscience.eu/foster-
taxonomy/open-data-journals
65
66. Data journals – przykłady [2]
• Data in Brief, http://www.journals.elsevier.com/data-in-brief/,
http://www.sciencedirect.com/science/journal/23523409/1
• Geoscience Data Journal
http://onlinelibrary.wiley.com/journal/10.1002/%28ISSN%292049-
6060
• Journal of Open Archaeology Data,
http://openarchaeologydata.metajnl.com/, wykaz polecanych
repozytoriów
http://openarchaeologydata.metajnl.com/about/#repo
• Journal of Open Psychology Data
http://openpsychologydata.metajnl.com/
66
69. Gdzie można zamieścić zbiór własnych
danych badawczych (dataset)?
• FigShare https://figshare.com/
• Repozytorium Otwartych Danych RepOD
CEON https://repod.pon.edu.pl/pl/
• Zenodo https://zenodo.org/
69
73. Więcej na temat Deep Web, poszukiwania
informacji i publikacji naukowych itp. znajdziesz
w blogu Informacja biznesowa, naukowa i
infobrokering https://sabinacisek.blogspot.com/
73