SlideShare ist ein Scribd-Unternehmen logo
Benutzerhandbuch
   Araya Bilinguale
   Termextraktion

            Anleitung zum Einsatz des
            Terminologie-Extraktionswerkzeuges


© Dr. Klemens Waldhör, Heartsome Europe GmbH, 2006, 2007, 2009
Heartsome Europe GmbH
                                                                www.heartsome.de


Der bilinguale Extraktor
    Der bilinguale Extraktor ist ein einfach zu
    bedienendes und effizientes Werkzeug zum
    automatischen Generierung von Termpaaren aus
    übersetzten Dokumenten (TMX Dateien)
         Ein Termpaar ist dabei eine Übersetzung aus Ausgangs-
         und Zielterm (Begriff)
         Ein Term (Begriff) kann aus mehreren Wörtern bestehen.
    Diese Termpaare dienen z.B. zum Aufbau bzw. der
    Ergänzung der erarbeiteten Terminologie.



18.10.2009              (c) 2006, 2007, Heartsome Europe GmbH                           2
Heartsome Europe GmbH
                                                               www.heartsome.de


Versionen
    Der Extraktor wurde gemeinsam von der
    Heartsome Europe GmbH und LNE
    International entwickelt.
    Er ist als
         Einzelplatzversion erhältlich.
         er ist Teil der Araya Server
         Übersetzungswerkzeuge.




18.10.2009             (c) 2006, 2007, Heartsome Europe GmbH                           3
Heartsome Europe GmbH
                                                                  www.heartsome.de


Kurzanleitung zum Extrahieren
    Extrahieren Sie die Begriffe
         Datei -> Extrahiere Bilinguale Terminologie aus
         Datei
             (Option: Öffne Extraktionsdatei nach Extraktion)
    Prüfen Sie die extrahierten Begriffe
         Markieren Sie korrekte Übersetzungen als
         „validiert“
    Exportieren Sie die validierten
    Übersetzungen
         Exportiere validierte Terme …

18.10.2009                (c) 2006, 2007, Heartsome Europe GmbH                           4
Heartsome Europe GmbH
                                                                 www.heartsome.de


Installation




      Die Installation wird in das Verzeichnis c:/Program
      Files/Araya durchgeführt. Es wird empfohlen, diese
      Einstellung nicht zu ändern, da alle Initialisierungsdateien
      darauf ausgelegt sind.


18.10.2009               (c) 2006, 2007, Heartsome Europe GmbH                           5
Heartsome Europe GmbH
                                                         www.heartsome.de


Starten des Araya
Extraktionswerkzeuges
     Gehen Sie zum Verzeichnis:
     c:/Program Files/Araya
     Starten: BiEdit.exe
     Oder Doppelklick auf:




18.10.2009       (c) 2006, 2007, Heartsome Europe GmbH                           6
Heartsome Europe GmbH
                                                         www.heartsome.de


Der Extraktionsansatz aus einer TMX
Datei
    Aus einer TMX Datei werden mögliche
    Übersetzungspaare ermittelt. Dazu wird ein
    statistischer Ansatz verwendet, der die
    Häufigkeit des Auftretens von Termpaaren in
    der Ausgangs- und Zielsprache ermittelt.
    TMX = XML Austauschformat für
    Übersetzungsdatenbanken


18.10.2009       (c) 2006, 2007, Heartsome Europe GmbH                           7
Heartsome Europe GmbH
                                                         www.heartsome.de


Segment
    Die Extraktion erfolgt auf der Basis von
    Segmenten, die in einer TMX Datei
    abgespeichert sind.
    Ein Segment kann dabei jeweils ein Satz
    oder ein Abschnitt sein.
    Formate in der TMX Datei werden ignoriert.




18.10.2009       (c) 2006, 2007, Heartsome Europe GmbH                           8
Heartsome Europe GmbH
                                                                 www.heartsome.de


Bewertung und Validieren
    Jedes gefundene Termpaar wird mit einem
    Qualitätswert versehen
         2. Spalte in der Extraktionstabelle
         Wert liegt zwischen 1,0 (höchste Wahrscheinlichkeit, dass
         Paar zusammenpasst) bis 0,5 (geringste
         Wahrscheinlichkeit, dass Paar zusammenpasst)
    Terme können validiert werden, als zutreffend
    markiert werden
         Letzte Spalte der Tabelle
            Approved = geprüft = validiert
            Unapproved = noch (nicht) validiert
    Validierte Werte können exportiert werden
18.10.2009               (c) 2006, 2007, Heartsome Europe GmbH                           9
Heartsome Europe GmbH
                                                                 www.heartsome.de


Validieren eines Termextraktionspaares
    Selektiere des zu validierenden Termpaares
    Validiere mit
         Doppelten Mausklick auf Termpaar
         Rechten Mausklick
    Entferne Validierungsmarkierung durch
         Doppelten Mausklick auf Termpaar
         Rechten Mausklick




                      Validierte Terme werden grün angezeigt


18.10.2009               (c) 2006, 2007, Heartsome Europe GmbH                           10
Heartsome Europe GmbH
                                                                       www.heartsome.de


 Die Extraktionsdatei
     Eine Extraktionsdatei hat folgendes Format

nr;score;status;term1.LangCode;term1.wordGroup;term1.wordGroup
Len;term1.wFreq;term2.LangCode;term2.wordGroup;term2.wordGroup
Len;term2.wFreq;sentLinked

              Beispielzeile                                      Startzeile = Markierung
                                                                 der Extraktionsdatei



0;1.0;approved;de;DIN;1;15;en;DIN;1;15;11




 18.10.2009                   (c) 2006, 2007, Heartsome Europe GmbH                            11
Heartsome Europe GmbH
                                                                             www.heartsome.de


Die Extraktionsoberfläche

                                       Häufigkeiten in den          Tabelle:
                                       Ausgangs- und                Dieses Fenster enthält
             Verknüpfungen             Zielsegmenten
                                                                    die gefundenen
                                                                    Termpaare

                   Qualität (Wert)


         Termnummer              Ausgangsterm                  Zielterm            Validierung




                                      Statusfenster




18.10.2009                           (c) 2006, 2007, Heartsome Europe GmbH                           12
Heartsome Europe GmbH
                                                                       www.heartsome.de


Die Spalten
    Wert
         Statistisches Maß für die Wahrscheinlichkeit, dass Ausgangs- und Zielbegriff
         (Term) Übersetzungen sind; ein Qualitätsmaß
    SL
         Die Anzahl der Satzpaare, in der sowohl der Ausgangs- als auch der
         Zielbegriff vorkommt.
    Freq 1
         Anzahl der Sätze, in der der Ausgangsbegriff vorkommt
    Freq 2
         Anzahl der Sätze, in der der Zielbegriff vorkommt
    Quellbegriffe
         Der Ausgangsbegriff
    Zielbegriffe
         Die Übersetzung des Ausgangsbegriffs
    Validierung
         Auswahlbox, zur Markierung von korrekten Termpaaren


18.10.2009                     (c) 2006, 2007, Heartsome Europe GmbH                           13
Heartsome Europe GmbH
                                                                           www.heartsome.de

                                                                   Öffnen einer Extraktionsdatei
Das Datei Menü 1
                                                                  Schließen einer Extraktionsdatei

                                                                     Speichern der geöffneten
                                                                         Extraktionsdatei

                                                                   Speichern der geöffneten
                                                              Extraktionsdatei unter neuen Namen




              Speichern selektierte Einträge aus                Speichern der validierten Einträge
             der geöffneten Extraktionsdatei unter             aus der geöffneten Extraktionsdatei
                        neuen Namen                                   unter neuen Namen



                Die geöffnete Datei wird in der Titelzeile angezeigt.


18.10.2009                         (c) 2006, 2007, Heartsome Europe GmbH                             14
Heartsome Europe GmbH
                                                                      www.heartsome.de


Das Datei Menü 2
                                                                         Extrahieren der
                                                                       Termpaare aus einer
                                                                           TMX Datei


                                                                          Exportieren der
                                                                          Einträge aus der
                                                                             geöffneten
                                                                      Extraktionsdatei im TBX
                                                                               Format


     Exportieren der       Exportieren der
   validierten Einträge    Einträge aus der                             Exportieren der
   aus der geöffneten         geöffneten                           validierten Einträge aus
   Extraktionsdatei im    Extraktionsdatei im                           der geöffneten
     Multitermformat       Multitermformat                         Extraktionsdatei im TBX
                                                                            Format
18.10.2009                 (c) 2006, 2007, Heartsome Europe GmbH                              15
Heartsome Europe GmbH
                                                           www.heartsome.de


Das Datei Menü 3




                                                            Exportieren der
                                                            Einträge aus der
                                                               geöffneten
                                                           Extraktionsdatei im
                  Exportieren der                          Araya CSV Format
             validierten Einträge aus
                  der geöffneten
               Extraktionsdatei im
               Araya CSV Format

18.10.2009         (c) 2006, 2007, Heartsome Europe GmbH                           16
Heartsome Europe GmbH
                                                                    www.heartsome.de


Extrahieren der Termpaare aus einer
TMX Datei

                                        Ausgangssprache                    Zielsprache




             Nach Extraktion automatisch öffnen



                                                                Verwende den Lucene Tokenizer für
                                                                    die Erkennung von Worten

18.10.2009                  (c) 2006, 2007, Heartsome Europe GmbH                            17
Heartsome Europe GmbH
                                                                  www.heartsome.de


Extraktionsparameter 1
    Minimale / Maximale Wortanzahl
         Damit wird gesteuert, wie viele Worte mindestens und
         höchstens im Begriff enthalten sein sollen
    Minimale / Maximale Häufigkeit
         Damit wird gesteuert, wie oft der extrahierte Begriff
         mindestens und höchstens vorkommen darf
    Maximale Übersetzungen
         Damit wird gesteuert, wie viele Übersetzungen maximal
         gefunden werden sollen
    Ausgangs/Zielterme in Kleinschreibung
         Damit wird gesteuert, ob die Worte der extrahierten
         Begriffe in Kleinschreibung umgewandelt werden sollen

18.10.2009                (c) 2006, 2007, Heartsome Europe GmbH                           18
Heartsome Europe GmbH
                                                              www.heartsome.de


Extraktionsparameter 2
    Validierte Terminologie zum Ignorieren
         Wenn hier eine Extraktionsterminologiedatei
         angegeben wird, werden bei Extrahieren alle
         Terme, die in dieser Datei als „validiert“
         gekennzeichnet sind, ignoriert.
         Damit werden schon bekannte Übersetzungen
         ignoriert.
    Nach dem Start der Extraktion wird ein
    Statusfenster angezeigt.

18.10.2009            (c) 2006, 2007, Heartsome Europe GmbH                           19
Heartsome Europe GmbH
                                                                www.heartsome.de


Extraktionsparameter 3
    Groß / Kleinschreibung
      Gilt nicht in Kombination mit dem Option Lucene-Tokenizer!
      Wenn diese Option für eine der beiden Sprachen aktiviert wird,
      wird das Segment für die Segmentierung in Kleinschreibung
      umgewandelt.
    Segmentiere Paragraphen
      Wenn das Segment noch aus mehreren Sätzen besteht, wird mit
      dieser Option eine zusätzlich Satzsegmentierung durchgeführt.
      Dies geschieht nur dann, wenn sowohl Quell- als auch
      Zielsprache die gleiche Anzahl von Sätzen aufweisen.
    Lucene Tokenizer
      Die Termextraktion zerlegt in einem ersten Schritt das Segment
      in Worte. Für CJK Sprachen empfiehlt sich der Einsatz der
      Lucene Tokenizers, der diese Sprachen nicht nur auf Basis von
      Leerzeichen etc. zerlegt. Zu Beachten ist, dass der Tokenizer auf
      beide Sprachepaare aus Kongruenzgründen angewendet wird.

18.10.2009              (c) 2006, 2007, Heartsome Europe GmbH                           20
Heartsome Europe GmbH
                                                                 www.heartsome.de


Extraktionsparameter 4
    Zähle TMX TU Einträge
         Ermittle die Anzahl von Einträgen in der TMX Datei.
    Anzahl Analyse-Blöcke
         Derzeit nicht in Verwendung. Es ist geplant, die TMX
         Dateien in mehrere Sub-Blöcke zu teilen und basierend
         darauf die die Stabilität der Extraktion zu testen.
    Entferne gleiche Terme
         Wird die Termextraktion mit identischer Quell und
         Zielsprache angewendet, so werden hier die (trivial)
         gefundenen identischen Terme nicht in die Extraktionsdatei
         übernommen.

18.10.2009               (c) 2006, 2007, Heartsome Europe GmbH                           21
Heartsome Europe GmbH
                                                                       www.heartsome.de


Exportieren
    Beim Exportieren werden die Einträge der geladenen Extraktionsdatei in
    verschiedene Format geschrieben.
         TBX
             Name der Extraktionsdatei + „.tbx“
         Multiterm (™ of Trados/SDL International)
             Name der Extraktionsdatei + „.multiterm“
         Araya CSV
             Name der Extraktionsdatei + „araya.csv“
         Zeichencodierung ist dabei immer UTF-8
    Es können dabei entweder alle Einträge oder nur die validierten Einträge
    geschrieben werden
    Zusätzlich dient der im „Optionen-Menü“ eingestellte Qualitätswert (Export
    Wertefilter) als Selektionskriterium.
         Je nach eingestelltem Wert werden nur die Wert mit mindestens
         der jeweiligen Höhe (z.B. > 0.6) exportiert.



18.10.2009                     (c) 2006, 2007, Heartsome Europe GmbH                           22
Heartsome Europe GmbH
                                                                   www.heartsome.de


Araya CSV Format
    Das Araya CSV Format enthält in der ersten
    Zeile das Sprachpaar gefolgt von den
    extrahierten Begriffen
             Beispiel
                               Sprachen durch ; getrennt
             de;en
             Anschlussplan;Connection diagram
             DIN;DIN
             Dr;Dr
                                         Extrahierte Terme durch ; getrennt




18.10.2009                 (c) 2006, 2007, Heartsome Europe GmbH                           23
Heartsome Europe GmbH
                                                                   www.heartsome.de


Das Optionen Menu 1                                                    Zeichensatz für
                                                                      Anzeigefenster und
                                                                           Tabelle



                                                                   Einstellungen der
                                                                    Minimalqualität
                                                                    für den Export
                                                                    der Termpaare



               Benutzer-
             schnittstellen-
                sprache




18.10.2009                 (c) 2006, 2007, Heartsome Europe GmbH                           24
Heartsome Europe GmbH
                                                         www.heartsome.de


Das Optionen Menu 2                                     Entferne alle Begriffe, die in
                                                        einer Termextraktionsdatei
                                                             gefunden werden.


                                                         Entferne alle Begriffe, die in
                                                         einer Termextraktionsdatei
                                                        gefunden werden und validiert
                                                                     sind.

                                                        Suche Begriffe in Termtabelle



                                                        Erweiterte Suche in Quell- und
                                                                 Zielbegriffen


                                                           Deselektiere alle Terme
             Selektiere Begriffe aus einer
               Wortliste in einer Datei



18.10.2009      (c) 2006, 2007, Heartsome Europe GmbH                                25
Heartsome Europe GmbH
                                                          www.heartsome.de


Filter Term Funktionen
    Die Filterfunktionen entfernen alle Terme aus
    der Termtabelle, die in einer anderen
    Termextraktionsdatei enthalten sind.
    Die identischen Terme werden entfernt.
    Je nach gewählter Methode betrifft diese die
    validierten oder alle Termen in der gewählten
    Termextraktionsdatei.



18.10.2009        (c) 2006, 2007, Heartsome Europe GmbH                           26
Heartsome Europe GmbH
                                                                           www.heartsome.de


Suche Begriffe



                                           Suche mit diesem Begriff und selektiere alle passenden
                                         Einträge in der Tabelle. Die selektierten Einträge können mit
                                        “Datei -> Speichere selektierte Einträge in Extraktionsdatei…”
                                                              gesichert werden.

                 Suche nächsten passenden Begriff



 Starte Suche mit diesem Begriff




18.10.2009                         (c) 2006, 2007, Heartsome Europe GmbH                             27
Heartsome Europe GmbH
                                                                           www.heartsome.de


Erweiterte Suchfunktionen

                                                                         Verwende reguläre Ausdrücke zur
                                                                                     Suche




                                          Suche mit diesem Begriff und selektiere alle passenden
                                        Einträge in der Tabelle. Die selektierten Einträge können mit
                                       “Datei -> Speichere selektierte Einträge in Extraktionsdatei…”
                                                             gesichert werden.

                     Suche nächsten passenden Begriff



     Starte Suche mit diesem Begriff


18.10.2009                       (c) 2006, 2007, Heartsome Europe GmbH                              28
Heartsome Europe GmbH
                                                                   www.heartsome.de


Selektiere Terme aus UTF-8 Datei
    Dieser Filter selektiert alle Terme in der Tabelle, die in einer
    UTF-8 kodierten Textdatei enthalten sind. Die Filtersuche
    sucht sowohl im Quell- als auch Zielbegriff.
         Es selektiert auch Teilzeichenketten.
    Die selektierten Einträge können mit “Datei -> Speichere
    selektierte Einträge in Extraktionsdatei…” gesichert werden.
    Jedes Wort (Zeichenkette) in der Datei muss in einer Zeile
    vorkommen.




18.10.2009                 (c) 2006, 2007, Heartsome Europe GmbH                           29
Heartsome Europe GmbH
                                                                     www.heartsome.de


Das Plugins Menü
                                                                       Dateikonvertierung
                                                                     zwischen Zeichensätzen

                                                                       Prüfe und Rekodiere
                                                                     Sprachen in TMX Dateien

                                                                     Teilen einer TMX Datei in
                                                                      mehrere TMX Dateien

                                                                      Zusammenfügen mehrer
                                                                     TMX Dateien zu einer TMX
     Anzeige der aktuellen                                                    Datei
       Araya Log-Datei
                                                 Zählen der TU/TUV Einträge




18.10.2009                   (c) 2006, 2007, Heartsome Europe GmbH                               30
Heartsome Europe GmbH
                                                     www.heartsome.de


Das Hilfe Menü
                                                   Aufruf des
                                               Benutzerhandbuchs


                                                Araya / Heartsome
                                                   Homepage


                                               Über die bilingualen
                                                   Extraktion




18.10.2009   (c) 2006, 2007, Heartsome Europe GmbH                           31
Heartsome Europe GmbH
                                                     www.heartsome.de


Über die Extraktion
                                            Hier werden
                                            Basisinformationen über die
                                            Extraktions-Konfiguration
                                            angezeigt.
                                            Dies Informationen könne für
                                            eine mögliche
                                            Fehlerdiagnose wichtig sein
                                            Mit „Sichere…“ kann diese
                                            Information der
                                            angegebenen Datei
                                            gespeichert werden.




18.10.2009   (c) 2006, 2007, Heartsome Europe GmbH                           32
Heartsome Europe GmbH
                                                                         www.heartsome.de


Dateien zwischen Zeichensätzen
konvertieren                                                                     Quelldatei



                                                                         Zieldatei; wird aus dem Namen
                                                                             der Quelldatei und dem
                                                                             Zielzeichensatz gebildet

                                                                               Quellzeichensatz


                                                                                Zielzeichensatz

Diese Funktion erlaubt es Dateien von einem Zeichensatz in einen anderen zu konvertieren. Je nach
Zielzeichensatz können auch zwei Ausgabedateien geschrieben werden. Wenn es sich um eine UTF-8, 16,
32 oder UCS Datei handelt, werden zwei Dateien geschrieben. Die zweite Datei, mit der zusätzlichen
Erweiterung „.nobom“, ist eine Kopie der ersten, nur werden aus ihr die BOM (Byte Order Marker) entfernt.
Diese Datei zum Importieren zu verwenden empfiehlt sich insbesondere bei UTF-8 Import-Dateien für Araya,
da die Java Lese-Funktionen für UTF-8 Dateien die BOMs nicht entfernt und diese beim Einlesen als
normale Zeichen eingelesen werden würden (und damit zu fehlerhaften Einträgen führen würden).
(Dies ist eine bekannter Fehler von Java, wird aber von SUN nicht behoben!).

18.10.2009                       (c) 2006, 2007, Heartsome Europe GmbH                             33
Heartsome Europe GmbH
                                                                             www.heartsome.de


Prüfen/Rekodieren von TMX Dateien
                                                                                       TMX Dateiname


                                                                                        Rekodierte TMX
                                                                                          Dateiname;
                                                                                     Besteht aus dem TMX
                                                                                    Dateinamen ohne „.tmx“
                                                                                      Extension und neuer
                                                                                    Endung „.recoded.tmx“
                                                       Gelbe Zeilen
                                                     markiren Sprachen,          Sprachkodierung, die
       Grüne Zeilen markieren                         die Araya nicht
    Sprachen, die von Araya in der                                               von Araya unterstützt
                                                        unterstützt.                   werden
    TMX Datei unterstützt werden




   Starte Prüfung der        Rekodiere Sprache in der
   Sprachen in TMX          TMX Datei basierend auf den
          Datei                 gewählten neuen
                                  Sprachcodes

18.10.2009                           (c) 2006, 2007, Heartsome Europe GmbH                               34
Heartsome Europe GmbH
                                                                       www.heartsome.de


Teilen einer TMX Datei
                                                               Aufzuteilende TMX Datei


                                                                Knöpfe zum Erhöhen /
                                                                Erniedrigen der Anzahl
                                                                zu erzeugender neuer
                                                                     TMX Dateien


                                                                       Anzahl der zu
                                                                    erzeugenden neuen
                                                                       TMX Dateien
      Starte Aufteilen    Schließe Fenster

                                                              Anmerkung: Dialog derzeit
                                                              nur in Englisch verfügbar!

  Die neu erzeugten TMX Dateien werden aus dem Namen der alten Datei und der
  jeweiligen Zahl von 1 bis n zusammengesetzt.


18.10.2009                  (c) 2006, 2007, Heartsome Europe GmbH                              35
Heartsome Europe GmbH
                                                                          www.heartsome.de


  Zusammenfügen von TMX Dateien
                                                                        Wähle Name für neue TMX Datei


                                                                         Liste gewählter TMX Dateien




                                                                          Entferne Datei aus der Liste




               TMX Datei zur Liste
                  hinzufügen                                      Anmerkung: Dialog derzeit
                                                                  nur in Englisch verfügbar!



Starte Zusammenfügen          Schließe Fenster


 18.10.2009                     (c) 2006, 2007, Heartsome Europe GmbH                                    36
Heartsome Europe GmbH
                                                               www.heartsome.de


Zählen von TUs/TUVs in TMX Datei
                                                              Auswählen der TMX Datei zum
                                                                      Analysieren




                                                         Resultat:
                                                         Erste Zeile: Anzahl TUs und TUVs
                                                         Folge Zeile:
                                                         Anzahl sprachspezifischer TUVs




   Starte Zählung   Schließe Fenster


18.10.2009            (c) 2006, 2007, Heartsome Europe GmbH                             37
Heartsome Europe GmbH
                                                                www.heartsome.de


Hinzufügen von Sprachencodes
    Vordefinierte Sprachencodes sind in der
    Datei file „ini/lancodes.txt“ definiert.
    Weitere Sprachencodes können durch
    erweitern dieser Datei hinzugefügt werden.
                             Hinzufügen de-DE: Eine Zeile wie
    Ein Beispiel:            hinzufügen, wobei = den angezeigten
                                           Namen der Sprache und Sprachecode
                                           trennt.
                                           German(DE)=de-DE

                                           Galician=gl
                                           German (Standard)=de
                                           German(DE)=de-DE
                                           German (Austrian)=de-at
                                           German (Liechtenstein)=de-li
                                           German (Luxembourg)=de-lu


18.10.2009             (c) 2006, 2007, Heartsome Europe GmbH                            38
Heartsome Europe GmbH
                                                       www.heartsome.de


Impressum
    Heartsome Europe GmbH
    Friedrichstr. 17
    D-90574 Roßtal

    Email: info@heartsome.de
    www.heartsome.de
    © 2007, 2009 Heartsome Europe GmbH


18.10.2009     (c) 2006, 2007, Heartsome Europe GmbH                           39

Weitere ähnliche Inhalte

Andere mochten auch

HOLLYWOOD - Film in der Gegenwart
HOLLYWOOD - Film in der GegenwartHOLLYWOOD - Film in der Gegenwart
HOLLYWOOD - Film in der Gegenwart
Marcel Schöne
 
Guia de la inspeccion de trabajo en materia de seguridad vial
Guia de la inspeccion de trabajo en materia de seguridad vialGuia de la inspeccion de trabajo en materia de seguridad vial
Guia de la inspeccion de trabajo en materia de seguridad vial
Carmen Martínez
 
Consens sobre Fibromialgia
Consens sobre FibromialgiaConsens sobre Fibromialgia
Consens sobre Fibromialgia
miguelmolina2008
 
Geolocalización y Sonido - 2012
Geolocalización y Sonido - 2012Geolocalización y Sonido - 2012
Geolocalización y Sonido - 2012
adamsan
 
Médias sociaux et analytique
Médias sociaux et analytiqueMédias sociaux et analytique
Médias sociaux et analytique
Stéphane Hamel
 
Figaronron - Playstation home - Centre opérations tactiques
Figaronron - Playstation home - Centre opérations tactiquesFigaronron - Playstation home - Centre opérations tactiques
Figaronron - Playstation home - Centre opérations tactiques
Figaronron Figaronron
 
Felinos
FelinosFelinos
Felinos
cristinaog
 
Capacitacion para consejos_locales
Capacitacion para consejos_localesCapacitacion para consejos_locales
Capacitacion para consejos_locales
Iglesia
 
Presentación de Red Eléctrica de España
Presentación de Red Eléctrica de EspañaPresentación de Red Eléctrica de España
Presentación de Red Eléctrica de España
Red Eléctrica de España
 
Familia saludable
Familia saludableFamilia saludable
Familia saludable
PEDRO
 
Sylabos gestion redes
Sylabos gestion redesSylabos gestion redes
Sylabos gestion redes
UAE
 
LA ACTITUD PARA EL CAMBIO PFRH 3ero
LA ACTITUD PARA EL CAMBIO PFRH 3eroLA ACTITUD PARA EL CAMBIO PFRH 3ero
LA ACTITUD PARA EL CAMBIO PFRH 3ero
IE 1198 LA RIBERA
 
Sigmoideoscopia cancer colorrectal
Sigmoideoscopia cancer colorrectalSigmoideoscopia cancer colorrectal
Sigmoideoscopia cancer colorrectal
miguelmolina2008
 
Literatura realista
Literatura realistaLiteratura realista
Literatura realista
profemartinbozo
 
Videojuegos y geolocalizacion - 2011
Videojuegos y geolocalizacion - 2011Videojuegos y geolocalizacion - 2011
Videojuegos y geolocalizacion - 2011
adamsan
 
Les journées de Chipo - Jour 329
Les journées de Chipo - Jour 329Les journées de Chipo - Jour 329
Les journées de Chipo - Jour 329
Figaronron Figaronron
 

Andere mochten auch (20)

HOLLYWOOD - Film in der Gegenwart
HOLLYWOOD - Film in der GegenwartHOLLYWOOD - Film in der Gegenwart
HOLLYWOOD - Film in der Gegenwart
 
Infomobil 02/2012
Infomobil 02/2012Infomobil 02/2012
Infomobil 02/2012
 
Guia de la inspeccion de trabajo en materia de seguridad vial
Guia de la inspeccion de trabajo en materia de seguridad vialGuia de la inspeccion de trabajo en materia de seguridad vial
Guia de la inspeccion de trabajo en materia de seguridad vial
 
Consens sobre Fibromialgia
Consens sobre FibromialgiaConsens sobre Fibromialgia
Consens sobre Fibromialgia
 
Satcatcher
SatcatcherSatcatcher
Satcatcher
 
Geolocalización y Sonido - 2012
Geolocalización y Sonido - 2012Geolocalización y Sonido - 2012
Geolocalización y Sonido - 2012
 
Médias sociaux et analytique
Médias sociaux et analytiqueMédias sociaux et analytique
Médias sociaux et analytique
 
Soril 2 onoo 2014 havar
Soril 2 onoo 2014 havarSoril 2 onoo 2014 havar
Soril 2 onoo 2014 havar
 
Jel
JelJel
Jel
 
Figaronron - Playstation home - Centre opérations tactiques
Figaronron - Playstation home - Centre opérations tactiquesFigaronron - Playstation home - Centre opérations tactiques
Figaronron - Playstation home - Centre opérations tactiques
 
Felinos
FelinosFelinos
Felinos
 
Capacitacion para consejos_locales
Capacitacion para consejos_localesCapacitacion para consejos_locales
Capacitacion para consejos_locales
 
Presentación de Red Eléctrica de España
Presentación de Red Eléctrica de EspañaPresentación de Red Eléctrica de España
Presentación de Red Eléctrica de España
 
Familia saludable
Familia saludableFamilia saludable
Familia saludable
 
Sylabos gestion redes
Sylabos gestion redesSylabos gestion redes
Sylabos gestion redes
 
LA ACTITUD PARA EL CAMBIO PFRH 3ero
LA ACTITUD PARA EL CAMBIO PFRH 3eroLA ACTITUD PARA EL CAMBIO PFRH 3ero
LA ACTITUD PARA EL CAMBIO PFRH 3ero
 
Sigmoideoscopia cancer colorrectal
Sigmoideoscopia cancer colorrectalSigmoideoscopia cancer colorrectal
Sigmoideoscopia cancer colorrectal
 
Literatura realista
Literatura realistaLiteratura realista
Literatura realista
 
Videojuegos y geolocalizacion - 2011
Videojuegos y geolocalizacion - 2011Videojuegos y geolocalizacion - 2011
Videojuegos y geolocalizacion - 2011
 
Les journées de Chipo - Jour 329
Les journées de Chipo - Jour 329Les journées de Chipo - Jour 329
Les journées de Chipo - Jour 329
 

Mehr von Klemens Waldhör

1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...
1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...
1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...
Klemens Waldhör
 
Folt - Open TMS - A presentation for universities
Folt - Open TMS - A presentation for universitiesFolt - Open TMS - A presentation for universities
Folt - Open TMS - A presentation for universities
Klemens Waldhör
 
Folt Treffen 22062009
Folt Treffen 22062009Folt Treffen 22062009
Folt Treffen 22062009
Klemens Waldhör
 
Folt Treffen 16122008
Folt Treffen 16122008Folt Treffen 16122008
Folt Treffen 16122008
Klemens Waldhör
 
Open Tms Software Architecure
Open Tms Software ArchitecureOpen Tms Software Architecure
Open Tms Software Architecure
Klemens Waldhör
 
Bilingual Term Extraction Tool (in English)
Bilingual Term Extraction Tool (in English)Bilingual Term Extraction Tool (in English)
Bilingual Term Extraction Tool (in English)
Klemens Waldhör
 
Heartsome Europe TMX Editor
Heartsome Europe TMX EditorHeartsome Europe TMX Editor
Heartsome Europe TMX Editor
Klemens Waldhör
 
Heartsome Europe Xliff Editor User Guide English
Heartsome Europe Xliff Editor User Guide EnglishHeartsome Europe Xliff Editor User Guide English
Heartsome Europe Xliff Editor User Guide English
Klemens Waldhör
 
Bilingual TMX EditorTool (in German)
Bilingual TMX EditorTool (in German)Bilingual TMX EditorTool (in German)
Bilingual TMX EditorTool (in German)
Klemens Waldhör
 
Heartsome Europe Bilingual TMX EditorTool (in English)
Heartsome Europe Bilingual TMX EditorTool (in English)Heartsome Europe Bilingual TMX EditorTool (in English)
Heartsome Europe Bilingual TMX EditorTool (in English)
Klemens Waldhör
 
Bilingual Terminology Extraction
Bilingual Terminology ExtractionBilingual Terminology Extraction
Bilingual Terminology Extraction
Klemens Waldhör
 
Heartsome Portfolio
Heartsome PortfolioHeartsome Portfolio
Heartsome Portfolio
Klemens Waldhör
 
Vortrag Ostbayrischer Tourismustag2008 Waldhoer
Vortrag Ostbayrischer Tourismustag2008 WaldhoerVortrag Ostbayrischer Tourismustag2008 Waldhoer
Vortrag Ostbayrischer Tourismustag2008 Waldhoer
Klemens Waldhör
 

Mehr von Klemens Waldhör (13)

1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...
1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...
1615 wearables und_smartwatches_zur_unterstützung_von_senioren,_pflegenden_an...
 
Folt - Open TMS - A presentation for universities
Folt - Open TMS - A presentation for universitiesFolt - Open TMS - A presentation for universities
Folt - Open TMS - A presentation for universities
 
Folt Treffen 22062009
Folt Treffen 22062009Folt Treffen 22062009
Folt Treffen 22062009
 
Folt Treffen 16122008
Folt Treffen 16122008Folt Treffen 16122008
Folt Treffen 16122008
 
Open Tms Software Architecure
Open Tms Software ArchitecureOpen Tms Software Architecure
Open Tms Software Architecure
 
Bilingual Term Extraction Tool (in English)
Bilingual Term Extraction Tool (in English)Bilingual Term Extraction Tool (in English)
Bilingual Term Extraction Tool (in English)
 
Heartsome Europe TMX Editor
Heartsome Europe TMX EditorHeartsome Europe TMX Editor
Heartsome Europe TMX Editor
 
Heartsome Europe Xliff Editor User Guide English
Heartsome Europe Xliff Editor User Guide EnglishHeartsome Europe Xliff Editor User Guide English
Heartsome Europe Xliff Editor User Guide English
 
Bilingual TMX EditorTool (in German)
Bilingual TMX EditorTool (in German)Bilingual TMX EditorTool (in German)
Bilingual TMX EditorTool (in German)
 
Heartsome Europe Bilingual TMX EditorTool (in English)
Heartsome Europe Bilingual TMX EditorTool (in English)Heartsome Europe Bilingual TMX EditorTool (in English)
Heartsome Europe Bilingual TMX EditorTool (in English)
 
Bilingual Terminology Extraction
Bilingual Terminology ExtractionBilingual Terminology Extraction
Bilingual Terminology Extraction
 
Heartsome Portfolio
Heartsome PortfolioHeartsome Portfolio
Heartsome Portfolio
 
Vortrag Ostbayrischer Tourismustag2008 Waldhoer
Vortrag Ostbayrischer Tourismustag2008 WaldhoerVortrag Ostbayrischer Tourismustag2008 Waldhoer
Vortrag Ostbayrischer Tourismustag2008 Waldhoer
 

Bilingual Term Extraction Tool (in German)

  • 1. Benutzerhandbuch Araya Bilinguale Termextraktion Anleitung zum Einsatz des Terminologie-Extraktionswerkzeuges © Dr. Klemens Waldhör, Heartsome Europe GmbH, 2006, 2007, 2009
  • 2. Heartsome Europe GmbH www.heartsome.de Der bilinguale Extraktor Der bilinguale Extraktor ist ein einfach zu bedienendes und effizientes Werkzeug zum automatischen Generierung von Termpaaren aus übersetzten Dokumenten (TMX Dateien) Ein Termpaar ist dabei eine Übersetzung aus Ausgangs- und Zielterm (Begriff) Ein Term (Begriff) kann aus mehreren Wörtern bestehen. Diese Termpaare dienen z.B. zum Aufbau bzw. der Ergänzung der erarbeiteten Terminologie. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 2
  • 3. Heartsome Europe GmbH www.heartsome.de Versionen Der Extraktor wurde gemeinsam von der Heartsome Europe GmbH und LNE International entwickelt. Er ist als Einzelplatzversion erhältlich. er ist Teil der Araya Server Übersetzungswerkzeuge. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 3
  • 4. Heartsome Europe GmbH www.heartsome.de Kurzanleitung zum Extrahieren Extrahieren Sie die Begriffe Datei -> Extrahiere Bilinguale Terminologie aus Datei (Option: Öffne Extraktionsdatei nach Extraktion) Prüfen Sie die extrahierten Begriffe Markieren Sie korrekte Übersetzungen als „validiert“ Exportieren Sie die validierten Übersetzungen Exportiere validierte Terme … 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 4
  • 5. Heartsome Europe GmbH www.heartsome.de Installation Die Installation wird in das Verzeichnis c:/Program Files/Araya durchgeführt. Es wird empfohlen, diese Einstellung nicht zu ändern, da alle Initialisierungsdateien darauf ausgelegt sind. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 5
  • 6. Heartsome Europe GmbH www.heartsome.de Starten des Araya Extraktionswerkzeuges Gehen Sie zum Verzeichnis: c:/Program Files/Araya Starten: BiEdit.exe Oder Doppelklick auf: 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 6
  • 7. Heartsome Europe GmbH www.heartsome.de Der Extraktionsansatz aus einer TMX Datei Aus einer TMX Datei werden mögliche Übersetzungspaare ermittelt. Dazu wird ein statistischer Ansatz verwendet, der die Häufigkeit des Auftretens von Termpaaren in der Ausgangs- und Zielsprache ermittelt. TMX = XML Austauschformat für Übersetzungsdatenbanken 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 7
  • 8. Heartsome Europe GmbH www.heartsome.de Segment Die Extraktion erfolgt auf der Basis von Segmenten, die in einer TMX Datei abgespeichert sind. Ein Segment kann dabei jeweils ein Satz oder ein Abschnitt sein. Formate in der TMX Datei werden ignoriert. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 8
  • 9. Heartsome Europe GmbH www.heartsome.de Bewertung und Validieren Jedes gefundene Termpaar wird mit einem Qualitätswert versehen 2. Spalte in der Extraktionstabelle Wert liegt zwischen 1,0 (höchste Wahrscheinlichkeit, dass Paar zusammenpasst) bis 0,5 (geringste Wahrscheinlichkeit, dass Paar zusammenpasst) Terme können validiert werden, als zutreffend markiert werden Letzte Spalte der Tabelle Approved = geprüft = validiert Unapproved = noch (nicht) validiert Validierte Werte können exportiert werden 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 9
  • 10. Heartsome Europe GmbH www.heartsome.de Validieren eines Termextraktionspaares Selektiere des zu validierenden Termpaares Validiere mit Doppelten Mausklick auf Termpaar Rechten Mausklick Entferne Validierungsmarkierung durch Doppelten Mausklick auf Termpaar Rechten Mausklick Validierte Terme werden grün angezeigt 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 10
  • 11. Heartsome Europe GmbH www.heartsome.de Die Extraktionsdatei Eine Extraktionsdatei hat folgendes Format nr;score;status;term1.LangCode;term1.wordGroup;term1.wordGroup Len;term1.wFreq;term2.LangCode;term2.wordGroup;term2.wordGroup Len;term2.wFreq;sentLinked Beispielzeile Startzeile = Markierung der Extraktionsdatei 0;1.0;approved;de;DIN;1;15;en;DIN;1;15;11 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 11
  • 12. Heartsome Europe GmbH www.heartsome.de Die Extraktionsoberfläche Häufigkeiten in den Tabelle: Ausgangs- und Dieses Fenster enthält Verknüpfungen Zielsegmenten die gefundenen Termpaare Qualität (Wert) Termnummer Ausgangsterm Zielterm Validierung Statusfenster 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 12
  • 13. Heartsome Europe GmbH www.heartsome.de Die Spalten Wert Statistisches Maß für die Wahrscheinlichkeit, dass Ausgangs- und Zielbegriff (Term) Übersetzungen sind; ein Qualitätsmaß SL Die Anzahl der Satzpaare, in der sowohl der Ausgangs- als auch der Zielbegriff vorkommt. Freq 1 Anzahl der Sätze, in der der Ausgangsbegriff vorkommt Freq 2 Anzahl der Sätze, in der der Zielbegriff vorkommt Quellbegriffe Der Ausgangsbegriff Zielbegriffe Die Übersetzung des Ausgangsbegriffs Validierung Auswahlbox, zur Markierung von korrekten Termpaaren 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 13
  • 14. Heartsome Europe GmbH www.heartsome.de Öffnen einer Extraktionsdatei Das Datei Menü 1 Schließen einer Extraktionsdatei Speichern der geöffneten Extraktionsdatei Speichern der geöffneten Extraktionsdatei unter neuen Namen Speichern selektierte Einträge aus Speichern der validierten Einträge der geöffneten Extraktionsdatei unter aus der geöffneten Extraktionsdatei neuen Namen unter neuen Namen Die geöffnete Datei wird in der Titelzeile angezeigt. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 14
  • 15. Heartsome Europe GmbH www.heartsome.de Das Datei Menü 2 Extrahieren der Termpaare aus einer TMX Datei Exportieren der Einträge aus der geöffneten Extraktionsdatei im TBX Format Exportieren der Exportieren der validierten Einträge Einträge aus der Exportieren der aus der geöffneten geöffneten validierten Einträge aus Extraktionsdatei im Extraktionsdatei im der geöffneten Multitermformat Multitermformat Extraktionsdatei im TBX Format 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 15
  • 16. Heartsome Europe GmbH www.heartsome.de Das Datei Menü 3 Exportieren der Einträge aus der geöffneten Extraktionsdatei im Exportieren der Araya CSV Format validierten Einträge aus der geöffneten Extraktionsdatei im Araya CSV Format 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 16
  • 17. Heartsome Europe GmbH www.heartsome.de Extrahieren der Termpaare aus einer TMX Datei Ausgangssprache Zielsprache Nach Extraktion automatisch öffnen Verwende den Lucene Tokenizer für die Erkennung von Worten 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 17
  • 18. Heartsome Europe GmbH www.heartsome.de Extraktionsparameter 1 Minimale / Maximale Wortanzahl Damit wird gesteuert, wie viele Worte mindestens und höchstens im Begriff enthalten sein sollen Minimale / Maximale Häufigkeit Damit wird gesteuert, wie oft der extrahierte Begriff mindestens und höchstens vorkommen darf Maximale Übersetzungen Damit wird gesteuert, wie viele Übersetzungen maximal gefunden werden sollen Ausgangs/Zielterme in Kleinschreibung Damit wird gesteuert, ob die Worte der extrahierten Begriffe in Kleinschreibung umgewandelt werden sollen 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 18
  • 19. Heartsome Europe GmbH www.heartsome.de Extraktionsparameter 2 Validierte Terminologie zum Ignorieren Wenn hier eine Extraktionsterminologiedatei angegeben wird, werden bei Extrahieren alle Terme, die in dieser Datei als „validiert“ gekennzeichnet sind, ignoriert. Damit werden schon bekannte Übersetzungen ignoriert. Nach dem Start der Extraktion wird ein Statusfenster angezeigt. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 19
  • 20. Heartsome Europe GmbH www.heartsome.de Extraktionsparameter 3 Groß / Kleinschreibung Gilt nicht in Kombination mit dem Option Lucene-Tokenizer! Wenn diese Option für eine der beiden Sprachen aktiviert wird, wird das Segment für die Segmentierung in Kleinschreibung umgewandelt. Segmentiere Paragraphen Wenn das Segment noch aus mehreren Sätzen besteht, wird mit dieser Option eine zusätzlich Satzsegmentierung durchgeführt. Dies geschieht nur dann, wenn sowohl Quell- als auch Zielsprache die gleiche Anzahl von Sätzen aufweisen. Lucene Tokenizer Die Termextraktion zerlegt in einem ersten Schritt das Segment in Worte. Für CJK Sprachen empfiehlt sich der Einsatz der Lucene Tokenizers, der diese Sprachen nicht nur auf Basis von Leerzeichen etc. zerlegt. Zu Beachten ist, dass der Tokenizer auf beide Sprachepaare aus Kongruenzgründen angewendet wird. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 20
  • 21. Heartsome Europe GmbH www.heartsome.de Extraktionsparameter 4 Zähle TMX TU Einträge Ermittle die Anzahl von Einträgen in der TMX Datei. Anzahl Analyse-Blöcke Derzeit nicht in Verwendung. Es ist geplant, die TMX Dateien in mehrere Sub-Blöcke zu teilen und basierend darauf die die Stabilität der Extraktion zu testen. Entferne gleiche Terme Wird die Termextraktion mit identischer Quell und Zielsprache angewendet, so werden hier die (trivial) gefundenen identischen Terme nicht in die Extraktionsdatei übernommen. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 21
  • 22. Heartsome Europe GmbH www.heartsome.de Exportieren Beim Exportieren werden die Einträge der geladenen Extraktionsdatei in verschiedene Format geschrieben. TBX Name der Extraktionsdatei + „.tbx“ Multiterm (™ of Trados/SDL International) Name der Extraktionsdatei + „.multiterm“ Araya CSV Name der Extraktionsdatei + „araya.csv“ Zeichencodierung ist dabei immer UTF-8 Es können dabei entweder alle Einträge oder nur die validierten Einträge geschrieben werden Zusätzlich dient der im „Optionen-Menü“ eingestellte Qualitätswert (Export Wertefilter) als Selektionskriterium. Je nach eingestelltem Wert werden nur die Wert mit mindestens der jeweiligen Höhe (z.B. > 0.6) exportiert. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 22
  • 23. Heartsome Europe GmbH www.heartsome.de Araya CSV Format Das Araya CSV Format enthält in der ersten Zeile das Sprachpaar gefolgt von den extrahierten Begriffen Beispiel Sprachen durch ; getrennt de;en Anschlussplan;Connection diagram DIN;DIN Dr;Dr Extrahierte Terme durch ; getrennt 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 23
  • 24. Heartsome Europe GmbH www.heartsome.de Das Optionen Menu 1 Zeichensatz für Anzeigefenster und Tabelle Einstellungen der Minimalqualität für den Export der Termpaare Benutzer- schnittstellen- sprache 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 24
  • 25. Heartsome Europe GmbH www.heartsome.de Das Optionen Menu 2 Entferne alle Begriffe, die in einer Termextraktionsdatei gefunden werden. Entferne alle Begriffe, die in einer Termextraktionsdatei gefunden werden und validiert sind. Suche Begriffe in Termtabelle Erweiterte Suche in Quell- und Zielbegriffen Deselektiere alle Terme Selektiere Begriffe aus einer Wortliste in einer Datei 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 25
  • 26. Heartsome Europe GmbH www.heartsome.de Filter Term Funktionen Die Filterfunktionen entfernen alle Terme aus der Termtabelle, die in einer anderen Termextraktionsdatei enthalten sind. Die identischen Terme werden entfernt. Je nach gewählter Methode betrifft diese die validierten oder alle Termen in der gewählten Termextraktionsdatei. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 26
  • 27. Heartsome Europe GmbH www.heartsome.de Suche Begriffe Suche mit diesem Begriff und selektiere alle passenden Einträge in der Tabelle. Die selektierten Einträge können mit “Datei -> Speichere selektierte Einträge in Extraktionsdatei…” gesichert werden. Suche nächsten passenden Begriff Starte Suche mit diesem Begriff 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 27
  • 28. Heartsome Europe GmbH www.heartsome.de Erweiterte Suchfunktionen Verwende reguläre Ausdrücke zur Suche Suche mit diesem Begriff und selektiere alle passenden Einträge in der Tabelle. Die selektierten Einträge können mit “Datei -> Speichere selektierte Einträge in Extraktionsdatei…” gesichert werden. Suche nächsten passenden Begriff Starte Suche mit diesem Begriff 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 28
  • 29. Heartsome Europe GmbH www.heartsome.de Selektiere Terme aus UTF-8 Datei Dieser Filter selektiert alle Terme in der Tabelle, die in einer UTF-8 kodierten Textdatei enthalten sind. Die Filtersuche sucht sowohl im Quell- als auch Zielbegriff. Es selektiert auch Teilzeichenketten. Die selektierten Einträge können mit “Datei -> Speichere selektierte Einträge in Extraktionsdatei…” gesichert werden. Jedes Wort (Zeichenkette) in der Datei muss in einer Zeile vorkommen. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 29
  • 30. Heartsome Europe GmbH www.heartsome.de Das Plugins Menü Dateikonvertierung zwischen Zeichensätzen Prüfe und Rekodiere Sprachen in TMX Dateien Teilen einer TMX Datei in mehrere TMX Dateien Zusammenfügen mehrer TMX Dateien zu einer TMX Anzeige der aktuellen Datei Araya Log-Datei Zählen der TU/TUV Einträge 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 30
  • 31. Heartsome Europe GmbH www.heartsome.de Das Hilfe Menü Aufruf des Benutzerhandbuchs Araya / Heartsome Homepage Über die bilingualen Extraktion 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 31
  • 32. Heartsome Europe GmbH www.heartsome.de Über die Extraktion Hier werden Basisinformationen über die Extraktions-Konfiguration angezeigt. Dies Informationen könne für eine mögliche Fehlerdiagnose wichtig sein Mit „Sichere…“ kann diese Information der angegebenen Datei gespeichert werden. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 32
  • 33. Heartsome Europe GmbH www.heartsome.de Dateien zwischen Zeichensätzen konvertieren Quelldatei Zieldatei; wird aus dem Namen der Quelldatei und dem Zielzeichensatz gebildet Quellzeichensatz Zielzeichensatz Diese Funktion erlaubt es Dateien von einem Zeichensatz in einen anderen zu konvertieren. Je nach Zielzeichensatz können auch zwei Ausgabedateien geschrieben werden. Wenn es sich um eine UTF-8, 16, 32 oder UCS Datei handelt, werden zwei Dateien geschrieben. Die zweite Datei, mit der zusätzlichen Erweiterung „.nobom“, ist eine Kopie der ersten, nur werden aus ihr die BOM (Byte Order Marker) entfernt. Diese Datei zum Importieren zu verwenden empfiehlt sich insbesondere bei UTF-8 Import-Dateien für Araya, da die Java Lese-Funktionen für UTF-8 Dateien die BOMs nicht entfernt und diese beim Einlesen als normale Zeichen eingelesen werden würden (und damit zu fehlerhaften Einträgen führen würden). (Dies ist eine bekannter Fehler von Java, wird aber von SUN nicht behoben!). 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 33
  • 34. Heartsome Europe GmbH www.heartsome.de Prüfen/Rekodieren von TMX Dateien TMX Dateiname Rekodierte TMX Dateiname; Besteht aus dem TMX Dateinamen ohne „.tmx“ Extension und neuer Endung „.recoded.tmx“ Gelbe Zeilen markiren Sprachen, Sprachkodierung, die Grüne Zeilen markieren die Araya nicht Sprachen, die von Araya in der von Araya unterstützt unterstützt. werden TMX Datei unterstützt werden Starte Prüfung der Rekodiere Sprache in der Sprachen in TMX TMX Datei basierend auf den Datei gewählten neuen Sprachcodes 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 34
  • 35. Heartsome Europe GmbH www.heartsome.de Teilen einer TMX Datei Aufzuteilende TMX Datei Knöpfe zum Erhöhen / Erniedrigen der Anzahl zu erzeugender neuer TMX Dateien Anzahl der zu erzeugenden neuen TMX Dateien Starte Aufteilen Schließe Fenster Anmerkung: Dialog derzeit nur in Englisch verfügbar! Die neu erzeugten TMX Dateien werden aus dem Namen der alten Datei und der jeweiligen Zahl von 1 bis n zusammengesetzt. 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 35
  • 36. Heartsome Europe GmbH www.heartsome.de Zusammenfügen von TMX Dateien Wähle Name für neue TMX Datei Liste gewählter TMX Dateien Entferne Datei aus der Liste TMX Datei zur Liste hinzufügen Anmerkung: Dialog derzeit nur in Englisch verfügbar! Starte Zusammenfügen Schließe Fenster 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 36
  • 37. Heartsome Europe GmbH www.heartsome.de Zählen von TUs/TUVs in TMX Datei Auswählen der TMX Datei zum Analysieren Resultat: Erste Zeile: Anzahl TUs und TUVs Folge Zeile: Anzahl sprachspezifischer TUVs Starte Zählung Schließe Fenster 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 37
  • 38. Heartsome Europe GmbH www.heartsome.de Hinzufügen von Sprachencodes Vordefinierte Sprachencodes sind in der Datei file „ini/lancodes.txt“ definiert. Weitere Sprachencodes können durch erweitern dieser Datei hinzugefügt werden. Hinzufügen de-DE: Eine Zeile wie Ein Beispiel: hinzufügen, wobei = den angezeigten Namen der Sprache und Sprachecode trennt. German(DE)=de-DE Galician=gl German (Standard)=de German(DE)=de-DE German (Austrian)=de-at German (Liechtenstein)=de-li German (Luxembourg)=de-lu 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 38
  • 39. Heartsome Europe GmbH www.heartsome.de Impressum Heartsome Europe GmbH Friedrichstr. 17 D-90574 Roßtal Email: info@heartsome.de www.heartsome.de © 2007, 2009 Heartsome Europe GmbH 18.10.2009 (c) 2006, 2007, Heartsome Europe GmbH 39