SlideShare ist ein Scribd-Unternehmen logo
1 von 17
Downloaden Sie, um offline zu lesen
duizend jaar geschiedenis ligt op honderd
kilometer plank van het
de geschiedenis dijt uit, jaarlijks met kilometers

Catch+, Scratch+, … Scratch4All
Catch+, Scratch+, ... Scratch4All



Doel



SCRipt Analysis Tools for the Cultural Heritage



"Googelen" in digitale afbeeldingen van
 handgeschreven archiefmateriaal ....
Catch+, Scratch+, ... Scratch4All



 .... ongeacht het handschrift.




19e eeuws handschrift        20e eeuws Sütterlinschrift
MAAR: de computer moet elk handschrift aanleren
Catch+, Scratch+, ... Scratch4All



Methode


• patroonherkenning van woorden en delen van woorden
    • maar ... computer moet handschriften “leren” lezen
• regelmatigheden van de inhoud van teksten (statistische
  computerlinguistiek )
• layout-analyse
Catch+, Scratch+, ... Scratch4All



Nuttig voor archieven ?



• archieven zijn grotendeels
chronologisch geordend

• inventarissen en catalogi
bieden geen toegang

• digitalisering van de metadata
in deze toegangen levert dus te
weinig toegankelijkheid op
Catch+, Scratch+, ... Scratch4All



... want ...

                                    • chronologische archieven zijn
                                    veelal zeer omvangrijk

                                    • en bevatten heel veel
                                    verschillende handschriften,
                                    maar ...
Catch+, Scratch+, ... Scratch4All



... en ...

                                    • ... chronologische archieven:

                                    • zijn vaak wel voorzien van
                                    handgeschreven (alfabetische)
                                    indices, die

                                    • de metadata bevatten van de
                                    documenten in die archieven
                                    opgeslagen
Catch+, Scratch+, ... Scratch4All



dus ...


• de indices scannen
• de digitale afbeeldingen “scratchen”

• de chronologische brievenseries scannen
• GEEN metadata toekennen, behoudens een nummer

• linken van de “gescratchte” metadata van de indices aan de
  chronologisch geordende brieven
Catch+, Scratch+, ... Scratch4All



Metadata ...




• ... elke afzonderlijke paragraaf (index entry) verwijst naar een
document in de chronologische serie,
• i.c. 1903 Maart 4, No. 13
Catch+, Scratch+, ... Scratch4All



... gekoppeld aan het document
Catch+, Scratch+, ... Scratch4All



Huidige situatie

• wetenschappelijke resultaten zeer succesvol

• patroonherkenningssysteem lokaal bij RuG (AI)

• verschillende soorten bronnen zijn bewerkt

• maar:
• geen mogelijkheid om nieuwe bronnen toe te voegen en te
  bewerken
Catch+, Scratch+, ... Scratch4All



Gewenste situatie


• systeem beschikbaar buiten RuG-AI-omgeving

• proces beheersbaar en aanstuurbaar door deelnemende
  erfgoedinstellingen

• “gescratchte” bestanden raadpleegbaar in een
  gebruikersvriendelijke interface
Catch+, Scratch+, ... Scratch4All



Belang


• belangrijk voor erfgoedsector:
    • het kunnen ontsluiten van handgeschreven materiaal, op een
      snellere, efficiëntere manier


• belangrijk voor “het publiek”:
    • handgeschreven materiaal kunnen raadplegen, als ware het
      gedrukt


• innovatief:
    • een nauwelijks bestaande techniek komt beschikbaar
Catch+, Scratch+, ... Scratch4All



Belang voor Nationaal Archief



•          één meter

    “gescratchte” indices biedt
         toegang tot bijna

•          40 meter

  chronologisch geordende
Koninklijke besluiten, wetten en
        kabinetsbrieven
Catch+, Scratch+, ... Scratch4All



… en het archief van het Kabinet der Koningin


                                    • heeft een omvang van

                                     (periode 1798-1988):
                                        - 3250 strekkende meter


                                    • en bestaat uit:
                                        - 28.000 dozen
                                        - met ca. 1000 pagina’s per doos


                                        •    28.000.000 paginas (scans)
Catch+, Scratch+, ... Scratch4All



Resultaat voor andere instellingen


• software voor doorzoekbaar maken van handgeschreven
  teksten, zonder volledige annotatie

• mits:
   • de bron in één of slechts enkele handschriften is
     geschreven
   • de scans van goede kwaliteit zijn
   • de middelen aanwezig zijn om de computer het
     handschrift “aan te leren”
Catch+, Scratch+, ... Scratch4All



Planning

• definiëren gebruiksspecificaties (2009)

• contractonderhandelingen, projectplan (2010 jan.-juni)

• bouw systeemomgeving (2010 juli-okt.)
• bouw beheersmodule (2010 okt.- 2011 feb.)
• aanpassing of bouw transcriptie en zoekmodule (2011 feb.-
  juni)

• testen en instructie gebruik (2011 juli-dec.)
• oplevering (2011 laatste kwartaal)

Weitere ähnliche Inhalte

Mehr von KVANdagen

The voice in the wilderness? Archivists, their knowledge and the public
The voice in the wilderness? Archivists, their knowledge and the public The voice in the wilderness? Archivists, their knowledge and the public
The voice in the wilderness? Archivists, their knowledge and the public KVANdagen
 
Praktische linked data voor archieven
Praktische linked data voor archievenPraktische linked data voor archieven
Praktische linked data voor archievenKVANdagen
 
Werken aan je toekomst
Werken aan je toekomstWerken aan je toekomst
Werken aan je toekomstKVANdagen
 
Big data x big archives = great opportunities
Big data x big archives = great opportunitiesBig data x big archives = great opportunities
Big data x big archives = great opportunitiesKVANdagen
 
Informatie is een conceptueel labyrinth
Informatie is een conceptueel labyrinthInformatie is een conceptueel labyrinth
Informatie is een conceptueel labyrinthKVANdagen
 
Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?KVANdagen
 
The Big Picture
The Big PictureThe Big Picture
The Big PictureKVANdagen
 
Rhc eindhoven&promines
Rhc eindhoven&prominesRhc eindhoven&promines
Rhc eindhoven&prominesKVANdagen
 
Kvan dagen 2014 nha
Kvan dagen 2014 nhaKvan dagen 2014 nha
Kvan dagen 2014 nhaKVANdagen
 
Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2KVANdagen
 
Big Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest DifferenceBig Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest DifferenceKVANdagen
 
20140617 kvan def
20140617 kvan def20140617 kvan def
20140617 kvan defKVANdagen
 
Publiek Geheim
Publiek GeheimPubliek Geheim
Publiek GeheimKVANdagen
 
European Holocaust Research Infrastructure
European Holocaust Research InfrastructureEuropean Holocaust Research Infrastructure
European Holocaust Research InfrastructureKVANdagen
 
VISI, formeel de essentie communiceren
VISI, formeel de essentie communicerenVISI, formeel de essentie communiceren
VISI, formeel de essentie communicerenKVANdagen
 
Bouwen met informatie. Wat u altijd al wilde weten over BIM
Bouwen met informatie. Wat u altijd al wilde weten over BIMBouwen met informatie. Wat u altijd al wilde weten over BIM
Bouwen met informatie. Wat u altijd al wilde weten over BIMKVANdagen
 
Betekenen Big Archives ook Big Risks?
Betekenen Big Archives ook Big Risks?Betekenen Big Archives ook Big Risks?
Betekenen Big Archives ook Big Risks?KVANdagen
 
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!KVANdagen
 
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nlDe ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nlKVANdagen
 

Mehr von KVANdagen (20)

The voice in the wilderness? Archivists, their knowledge and the public
The voice in the wilderness? Archivists, their knowledge and the public The voice in the wilderness? Archivists, their knowledge and the public
The voice in the wilderness? Archivists, their knowledge and the public
 
Praktische linked data voor archieven
Praktische linked data voor archievenPraktische linked data voor archieven
Praktische linked data voor archieven
 
Werken aan je toekomst
Werken aan je toekomstWerken aan je toekomst
Werken aan je toekomst
 
Big data x big archives = great opportunities
Big data x big archives = great opportunitiesBig data x big archives = great opportunities
Big data x big archives = great opportunities
 
Informatie is een conceptueel labyrinth
Informatie is een conceptueel labyrinthInformatie is een conceptueel labyrinth
Informatie is een conceptueel labyrinth
 
Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?Archiefgeschiedenis: wat, waarom, hoe wie?
Archiefgeschiedenis: wat, waarom, hoe wie?
 
The Big Picture
The Big PictureThe Big Picture
The Big Picture
 
Rhc eindhoven&promines
Rhc eindhoven&prominesRhc eindhoven&promines
Rhc eindhoven&promines
 
Kvan dagen 2014 nha
Kvan dagen 2014 nhaKvan dagen 2014 nha
Kvan dagen 2014 nha
 
Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2Noord Hollands Archief Architectuur e depot - v2
Noord Hollands Archief Architectuur e depot - v2
 
Big Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest DifferenceBig Archives, Bigger Websites, Biggest Difference
Big Archives, Bigger Websites, Biggest Difference
 
APEx
APExAPEx
APEx
 
20140617 kvan def
20140617 kvan def20140617 kvan def
20140617 kvan def
 
Publiek Geheim
Publiek GeheimPubliek Geheim
Publiek Geheim
 
European Holocaust Research Infrastructure
European Holocaust Research InfrastructureEuropean Holocaust Research Infrastructure
European Holocaust Research Infrastructure
 
VISI, formeel de essentie communiceren
VISI, formeel de essentie communicerenVISI, formeel de essentie communiceren
VISI, formeel de essentie communiceren
 
Bouwen met informatie. Wat u altijd al wilde weten over BIM
Bouwen met informatie. Wat u altijd al wilde weten over BIMBouwen met informatie. Wat u altijd al wilde weten over BIM
Bouwen met informatie. Wat u altijd al wilde weten over BIM
 
Betekenen Big Archives ook Big Risks?
Betekenen Big Archives ook Big Risks?Betekenen Big Archives ook Big Risks?
Betekenen Big Archives ook Big Risks?
 
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
Toepassingsprofiel Metagegevens: wanhoop niet, het komt goed!
 
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nlDe ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
De ontwikkeling, realisering en lancering van Geschiedenislokaal.nl
 

KVAN10 - Catch+, Schratch+ ... Schratch4All - Henny van Schie

  • 1. duizend jaar geschiedenis ligt op honderd kilometer plank van het de geschiedenis dijt uit, jaarlijks met kilometers Catch+, Scratch+, … Scratch4All
  • 2. Catch+, Scratch+, ... Scratch4All Doel SCRipt Analysis Tools for the Cultural Heritage "Googelen" in digitale afbeeldingen van handgeschreven archiefmateriaal ....
  • 3. Catch+, Scratch+, ... Scratch4All .... ongeacht het handschrift. 19e eeuws handschrift 20e eeuws Sütterlinschrift MAAR: de computer moet elk handschrift aanleren
  • 4. Catch+, Scratch+, ... Scratch4All Methode • patroonherkenning van woorden en delen van woorden • maar ... computer moet handschriften “leren” lezen • regelmatigheden van de inhoud van teksten (statistische computerlinguistiek ) • layout-analyse
  • 5. Catch+, Scratch+, ... Scratch4All Nuttig voor archieven ? • archieven zijn grotendeels chronologisch geordend • inventarissen en catalogi bieden geen toegang • digitalisering van de metadata in deze toegangen levert dus te weinig toegankelijkheid op
  • 6. Catch+, Scratch+, ... Scratch4All ... want ... • chronologische archieven zijn veelal zeer omvangrijk • en bevatten heel veel verschillende handschriften, maar ...
  • 7. Catch+, Scratch+, ... Scratch4All ... en ... • ... chronologische archieven: • zijn vaak wel voorzien van handgeschreven (alfabetische) indices, die • de metadata bevatten van de documenten in die archieven opgeslagen
  • 8. Catch+, Scratch+, ... Scratch4All dus ... • de indices scannen • de digitale afbeeldingen “scratchen” • de chronologische brievenseries scannen • GEEN metadata toekennen, behoudens een nummer • linken van de “gescratchte” metadata van de indices aan de chronologisch geordende brieven
  • 9. Catch+, Scratch+, ... Scratch4All Metadata ... • ... elke afzonderlijke paragraaf (index entry) verwijst naar een document in de chronologische serie, • i.c. 1903 Maart 4, No. 13
  • 10. Catch+, Scratch+, ... Scratch4All ... gekoppeld aan het document
  • 11. Catch+, Scratch+, ... Scratch4All Huidige situatie • wetenschappelijke resultaten zeer succesvol • patroonherkenningssysteem lokaal bij RuG (AI) • verschillende soorten bronnen zijn bewerkt • maar: • geen mogelijkheid om nieuwe bronnen toe te voegen en te bewerken
  • 12. Catch+, Scratch+, ... Scratch4All Gewenste situatie • systeem beschikbaar buiten RuG-AI-omgeving • proces beheersbaar en aanstuurbaar door deelnemende erfgoedinstellingen • “gescratchte” bestanden raadpleegbaar in een gebruikersvriendelijke interface
  • 13. Catch+, Scratch+, ... Scratch4All Belang • belangrijk voor erfgoedsector: • het kunnen ontsluiten van handgeschreven materiaal, op een snellere, efficiëntere manier • belangrijk voor “het publiek”: • handgeschreven materiaal kunnen raadplegen, als ware het gedrukt • innovatief: • een nauwelijks bestaande techniek komt beschikbaar
  • 14. Catch+, Scratch+, ... Scratch4All Belang voor Nationaal Archief • één meter “gescratchte” indices biedt toegang tot bijna • 40 meter chronologisch geordende Koninklijke besluiten, wetten en kabinetsbrieven
  • 15. Catch+, Scratch+, ... Scratch4All … en het archief van het Kabinet der Koningin • heeft een omvang van (periode 1798-1988): - 3250 strekkende meter • en bestaat uit: - 28.000 dozen - met ca. 1000 pagina’s per doos • 28.000.000 paginas (scans)
  • 16. Catch+, Scratch+, ... Scratch4All Resultaat voor andere instellingen • software voor doorzoekbaar maken van handgeschreven teksten, zonder volledige annotatie • mits: • de bron in één of slechts enkele handschriften is geschreven • de scans van goede kwaliteit zijn • de middelen aanwezig zijn om de computer het handschrift “aan te leren”
  • 17. Catch+, Scratch+, ... Scratch4All Planning • definiëren gebruiksspecificaties (2009) • contractonderhandelingen, projectplan (2010 jan.-juni) • bouw systeemomgeving (2010 juli-okt.) • bouw beheersmodule (2010 okt.- 2011 feb.) • aanpassing of bouw transcriptie en zoekmodule (2011 feb.- juni) • testen en instructie gebruik (2011 juli-dec.) • oplevering (2011 laatste kwartaal)