SlideShare ist ein Scribd-Unternehmen logo
1 von 9
FORMATY
Informacja w e-społeczeństwie
     Mostieńczuk Monika
        Kociuba Artur
ZAGADNIENIA:

• Najczęściej spotykane formaty, w których udostępnia się publikacje tekstowe
• Format DjVu
• Formaty plików stosowane w FBC
• dLibra
• Formaty stosowane w polskich księgarniach i w Amazonie
• Podsumowanie możliwości wyszukiwania pełnotekstowego w zasobach
  polskich bibliotek cyfrowych
NAJCZĘŚCIEJ SPOTYKANE FORMATY, W KTÓRYCH
UDOSTĘPNIA SIĘ PUBLIKACJE TEKSTOWE:

•   Plik tekstowy (niesformatowany tekst)
•   RTF (ang. Rich Text Format)
•   HTML (ang. HyperText Markup Language)
•   TIFF
•   DjVu
•   PDF (ang. Portable Document Format)




W repozytoriach multimedialnych mogą znajdować się także pliki graficzne (np. w formatach
PNG, TIFF, DjVu, JPEG), pliki dźwiękowe (np. MP3, Ogg Vorbis, WAV, MIDI) oraz pliki wideo
(np. MPEG, WMV, AVI, Ogg).
FORMAT DJVU

•   odpowiedni dla skanowanych dokumentów z uwagi na rozdzielenie warstwy tła od
    warstwy treści,
•   warstwa treści jest wyodrębniana ze skanów z wykorzystaniem wbudowanego modułu
    OCR (zestaw technik lub oprogramowanie służące do rozpoznawania znaków, zadaniem
    OCR jest zwykle rozpoznanie tekstu w zeskanowanym dokumencie),
•   dzięki temu możliwe jest wyszukiwanie pełnotekstowe,


największe dwie zalety:
- niewielkie rozmiary,
- szybkość dostępu do poszczególnych stron dokumentów opublikowanych online,


największe dwie wady:
- słaby OCR,
- nieindeksowanie przez Google i inne wyszukiwarki
FORMATY PLIKÓW STOSOWANE W FBC:


• Text/HTML 18,99%
• PDF 7,13%
• Pozostałe 1,75%
• DjVu/Image 72,13%
DLIBRA
dLibra to dedykowany system do budowy bibliotek
cyfrowych, który ukierunkowany jest na udostępnianie dokumentów
pochodzących z bibliotek (akademickich i publicznych), instytucji
pozarządowych, fundacji, jednostek publicznych, firm
komercyjnych, a także zbiorów prywatnych.


Ma możliwość przechowywania obiektów cyfrowych w
dowolnym formacie, np. PDF, DjVu, MP3, FLV, JPG.
FORMATY STOSOWANE W POLSKICH
KSIĘGARNIACH I W AMAZONIE

• ePUB
• MOBI
• AZW – odmiana formatu MOBI
• PDF
PODSUMOWANIE MOŻLIWOŚCI WYSZUKIWANIA
PEŁNOTEKSTOWEGO W ZASOBACH POLSKICH BIBLIOTEK
CYFROWYCH
Google oraz inne wyszukiwarki nie są w stanie bezpośrednio indeksować plików djvu; z
innymi formatami (1/4) radzą sobie bardzo dobrze,


•    około 3/4 zasobów polskich bibliotek cyfrowych należy do tzw. niewidocznego
    Internetu,
•   nawet gdyby Google zaczął indeksować pliki djvu, kompletność wyników byłaby
    daleka od oczekiwanej,
•   sposób prezentacji wyników wyszukiwań w znacznym stopniu utrudnia dotarcie do
    fragmentu tekstu zawierającego poszukiwaną frazę


Warto by było wprowadzić oprócz dotychczasowego DjVu, także PDF i TXT. Google
zaindeksuje zarówno PDFy jak i TXT.
DZIĘKUJEMY ZA UWAGĘ

Weitere ähnliche Inhalte

Ähnlich wie Formaty

Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...
Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...
Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...VI Forum Młodych Bibliotekarzy
 
Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...
Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...
Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...Śląska Biblioteka Cyfrowa
 
Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)Marcin Roszkowski
 
Spolecznosc polonizacja grass
Spolecznosc polonizacja grassSpolecznosc polonizacja grass
Spolecznosc polonizacja grassWGUG
 
Sprawy organizacyjne i rozwojowe - prezentacja na X Zebranie ŚBC
Sprawy organizacyjne i rozwojowe  - prezentacja na X Zebranie ŚBCSprawy organizacyjne i rozwojowe  - prezentacja na X Zebranie ŚBC
Sprawy organizacyjne i rozwojowe - prezentacja na X Zebranie ŚBCŚląska Biblioteka Cyfrowa
 
Internet jako środowisko informacyjne
Internet jako środowisko informacyjneInternet jako środowisko informacyjne
Internet jako środowisko informacyjnemalineczka
 
Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...
Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...
Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...Fundacja Rozwoju Społeczeństwa Informacyjnego
 

Ähnlich wie Formaty (12)

Strategia dla wydawców
Strategia dla wydawcówStrategia dla wydawców
Strategia dla wydawców
 
Przetwarzanie i ocr czasopism drukowanych gotykiem - krok po kroku
Przetwarzanie i ocr czasopism drukowanych gotykiem - krok po kroku Przetwarzanie i ocr czasopism drukowanych gotykiem - krok po kroku
Przetwarzanie i ocr czasopism drukowanych gotykiem - krok po kroku
 
Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...
Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...
Wykorzystanie programów firmy Google przy tworzeniu Jagiellońskiej Biblioteki...
 
Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...
Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...
Prezentacja pakietu oprogramowania DInGO (dLibra, dMuseion, dLab, dArceo) ora...
 
Zasoby e książek
Zasoby e książekZasoby e książek
Zasoby e książek
 
Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)Internetowe narzędzia zarządzania informacją (wybór)
Internetowe narzędzia zarządzania informacją (wybór)
 
Edytory tekstu online
Edytory tekstu onlineEdytory tekstu online
Edytory tekstu online
 
Spolecznosc polonizacja grass
Spolecznosc polonizacja grassSpolecznosc polonizacja grass
Spolecznosc polonizacja grass
 
Sprawy organizacyjne i rozwojowe - prezentacja na X Zebranie ŚBC
Sprawy organizacyjne i rozwojowe  - prezentacja na X Zebranie ŚBCSprawy organizacyjne i rozwojowe  - prezentacja na X Zebranie ŚBC
Sprawy organizacyjne i rozwojowe - prezentacja na X Zebranie ŚBC
 
Internet jako środowisko informacyjne
Internet jako środowisko informacyjneInternet jako środowisko informacyjne
Internet jako środowisko informacyjne
 
Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...
Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...
Część 1: OTWÓRZ książkę czy ODTWÓRZ książkę? - czytelnicy w świecie nowoczesn...
 
7
77
7
 

Formaty

  • 1. FORMATY Informacja w e-społeczeństwie Mostieńczuk Monika Kociuba Artur
  • 2. ZAGADNIENIA: • Najczęściej spotykane formaty, w których udostępnia się publikacje tekstowe • Format DjVu • Formaty plików stosowane w FBC • dLibra • Formaty stosowane w polskich księgarniach i w Amazonie • Podsumowanie możliwości wyszukiwania pełnotekstowego w zasobach polskich bibliotek cyfrowych
  • 3. NAJCZĘŚCIEJ SPOTYKANE FORMATY, W KTÓRYCH UDOSTĘPNIA SIĘ PUBLIKACJE TEKSTOWE: • Plik tekstowy (niesformatowany tekst) • RTF (ang. Rich Text Format) • HTML (ang. HyperText Markup Language) • TIFF • DjVu • PDF (ang. Portable Document Format) W repozytoriach multimedialnych mogą znajdować się także pliki graficzne (np. w formatach PNG, TIFF, DjVu, JPEG), pliki dźwiękowe (np. MP3, Ogg Vorbis, WAV, MIDI) oraz pliki wideo (np. MPEG, WMV, AVI, Ogg).
  • 4. FORMAT DJVU • odpowiedni dla skanowanych dokumentów z uwagi na rozdzielenie warstwy tła od warstwy treści, • warstwa treści jest wyodrębniana ze skanów z wykorzystaniem wbudowanego modułu OCR (zestaw technik lub oprogramowanie służące do rozpoznawania znaków, zadaniem OCR jest zwykle rozpoznanie tekstu w zeskanowanym dokumencie), • dzięki temu możliwe jest wyszukiwanie pełnotekstowe, największe dwie zalety: - niewielkie rozmiary, - szybkość dostępu do poszczególnych stron dokumentów opublikowanych online, największe dwie wady: - słaby OCR, - nieindeksowanie przez Google i inne wyszukiwarki
  • 5. FORMATY PLIKÓW STOSOWANE W FBC: • Text/HTML 18,99% • PDF 7,13% • Pozostałe 1,75% • DjVu/Image 72,13%
  • 6. DLIBRA dLibra to dedykowany system do budowy bibliotek cyfrowych, który ukierunkowany jest na udostępnianie dokumentów pochodzących z bibliotek (akademickich i publicznych), instytucji pozarządowych, fundacji, jednostek publicznych, firm komercyjnych, a także zbiorów prywatnych. Ma możliwość przechowywania obiektów cyfrowych w dowolnym formacie, np. PDF, DjVu, MP3, FLV, JPG.
  • 7. FORMATY STOSOWANE W POLSKICH KSIĘGARNIACH I W AMAZONIE • ePUB • MOBI • AZW – odmiana formatu MOBI • PDF
  • 8. PODSUMOWANIE MOŻLIWOŚCI WYSZUKIWANIA PEŁNOTEKSTOWEGO W ZASOBACH POLSKICH BIBLIOTEK CYFROWYCH Google oraz inne wyszukiwarki nie są w stanie bezpośrednio indeksować plików djvu; z innymi formatami (1/4) radzą sobie bardzo dobrze, • około 3/4 zasobów polskich bibliotek cyfrowych należy do tzw. niewidocznego Internetu, • nawet gdyby Google zaczął indeksować pliki djvu, kompletność wyników byłaby daleka od oczekiwanej, • sposób prezentacji wyników wyszukiwań w znacznym stopniu utrudnia dotarcie do fragmentu tekstu zawierającego poszukiwaną frazę Warto by było wprowadzić oprócz dotychczasowego DjVu, także PDF i TXT. Google zaindeksuje zarówno PDFy jak i TXT.