SlideShare a Scribd company logo
1 of 37
Download to read offline
OmegaT




        ダブリン計算言語学研究セミナー
                         Didier Briel
                         2012年6月

 この文書は、原著者 Didier Briel の許諾を得て、Yu Tang が翻訳・公開するものです。
著作権は Didier Briel が保有しています。査読協力 Jean-Christophe Helary (感謝!)。
             Original document in English, copyright Didier Briel
目次

•   OmegaT のワークフロー
•   主要機能
•   プラグイン
•   対応可能なファイル形式
•   他の翻訳支援ソフトとの互換性
•   OmegaT プロジェクト
•   入手方法
•   サポート



    ダブリン計算言語学研究セミナー        2012年6月
OmegaT




OmegaT のワークフロー
    主な特徴
   ファイルの翻訳
     実演
OmegaT のワークフロー
              主な特徴
• 完全なスタンドアロン
  – 外部のソフトウェア(たとえば Microsoft Office)がインス
    トールされているかどうかに、まったく依存しない
• Java 1.5 以上に対応するすべてのプラットフォーム上で動
  作
• 中間形式ファイル不要
  – 準備不要
    • インポートまたは変換
  – 「後始末」不要
  – プロジェクトの変更(文書の追加/変更/削除)は動的に即時反
    映
• データベース不要
  – すべてのデータはメモリ上で処理される
  – 非常に高速
  – データ量には制限あり
• 翻訳の自動反映(Automatic propagation)
  ダブリン計算言語学研究セミナー                   2012年6月
OmegaT のワークフロー
          ファイルの翻訳

• プロジェクトを新規作成
• もし必要であれば、原文ファイルを変換
• 用語集と翻訳メモリをインストール(フ
  ァイルコピー)
• 翻訳
• 訳文ファイルを生成
• もし必要であれば、訳文ファイルを変換


 ダブリン計算言語学研究セミナー        2012年6月
OmegaT




 主要機能
RTL と bidi 対応
コンセプト
                  主要機能
•   参考訳文
•   翻訳の自動反映(Automatic propagation)
•   用語集
•   プロジェクトや参照している翻訳メモリ、文書を対象とした
    検索
•   プロジェクト内にフォルダーやファイルを無制限に配置可能
•   右から左への横書き(RTL)および文字表記方向混在(bidi)
    入力
•   タグ検証(妥当性検証)
•   綴り確認(Hunspell または JMySpell)
•   国語および多国語辞書(StarDict または Lingvo DSL 形式)
•   機械翻訳(Google Translate, Apertium, Belazar)



    ダブリン計算言語学研究セミナー                    2012年6月
コンセプト
        主要機能: RTL と bidi 対応
• 翻訳支援ツールには LTR と RTL 言語の混在表示が求められる
  – 英語からアラビア語へ
  – ヘブライ語から英語へ
• OmegaT は分節の表示方向を自動的に切り替える
  – 各分節の先頭にある Unicode マーカーで表示方向を設定
  – 向きは手動で指定することも可能(Shift+Ctrl+O)
• RTL 言語の分節の途中で、LTR への切り替えが必要な場合がある
  – 外国語の名前
  – 電話番号
• José García-Verdugo(スペイン、カスティーリャ・ラ・マンチ
  ャ大学 アラビア語-スペイン語教師)
  – ”わたしは OmegaT を選びました。右から左方向へ、そして左から右
    方向への表記をうまく処理してくれたからです。完璧というわけでは
    ありませんが、実際のところ多くの高価な商用製品よりも、はるかに
    良かったのです ”
  – http://tech.groups.yahoo.com/group/OmegaT/message/19344

 ダブリン計算言語学研究セミナー                                    2012年6月
OmegaT




 プラグイン
ライセンスの互換性
 アーキテクチャ
   スタブ
利用可能なプラグイン
 トークナイザー
  スクリプト
プラグイン
         ライセンスの互換性

• 主として法的な理由により、プラグインは
  OmegaT 本体と別個に配布されている
 – OmegaT のライセンスは、ライブラリに JAXB を含むた
   め、厳格な GPL v2
 – 多くのプラグインは Apache コンポーネントを利用して
   いる
 – Apache ライセンスは GPL v2 と矛盾する
 – Apache ライセンスは GPL v3 と矛盾しない
 – OmegaT のごく一部(スタブ )は GPL v3 で再ライセン
   スされている
   • これが可能なのは、OmegaT のソースコードに次のように
     書かれているから
     ライセンスはバージョン 2 か、あるいは(必要なら)それ
     よりも後のバージョンを適用

 ダブリン計算言語学研究セミナー                2012年6月
プラグイン
         ライセンスとの互換性

• GPL v3 と矛盾しないライセンスなら、プラ
  グインで利用可能
 – Apache ライセンス
 – 修正 BSD ライセンス
    • 三条項 BSD ライセンス
 – …
 – http://www.gnu.org/licenses/license-list.ja.html
   #GPLCompatibleLicenses

• GPL と相容れない一部のライセンス(たとえ
  ば BSD)は、他のソフトウェアに同梱される
  ときに、ソースコードの配布を必要としない
 – 寛容な非コピーレフト(Permissive non-copyleft)

 ダブリン計算言語学研究セミナー                            2012年6月
プラグイン
            アーキテクチャ

• 外部プラグインは実行時に plugins フォルダー
  から読み込まれる
• プラグインは主にインターフェイスを介して
  OmegaT と連携する。これらのインターフェイ
  スを参照するために、スタブ が必要になる
• スタブ は「空」のソースコードで、必要なオブ
  ジェクトとメソッドの宣言のみを含む
• 実行時に、これらの空のメソッドは実物と置き
  換えられる
• プラグインの作り方は、OmegaT のソースの
  docs_devel フォルダに文書化されている
 – サンプル プラグイン プロジェクト一式を含む
 ダブリン計算言語学研究セミナー        2012年6月
プラグイン
              利用可能なプラグイン
• OmegaT 製
  – LanguageTool
     • 言語構文チェック
  – トークナイザー
     • 参考訳文と用語集の認識精度向上
  – スクリプト
     • OmegaT 内でスクリプトの実行を可能に

• サードパーティー製
  – Okapi
     • ファイルフィルターの追加
     • http://www.opentag.com/okapi/wiki/index.php?title=Okapi_Filters
       _Plugin_for_OmegaT
  – Glossum
     • オンライン用語集
     • http://www.glossum.com/omegat


 ダブリン計算言語学研究セミナー                                              2012年6月
プラグイン
            トークナイザー

• トークナイザーは Lucene (Apache) を使って開発
• 24 種類の言語で利用可能
 – Lucene 2.9.0 に基づく
• OmegaT はこれを3つの目的で使用
 – トークン(字句)の解析
   • 綴り確認の性能改善
   • CJK 言語における “ 単語” 認識の性能改善
 – 参考訳文からストップワード を排除
 – 見出語(lemmas)の解析
   • 参考訳文と用語集の両方で使用
   • 一部の言語では利用できない
      – チェコ語
         • ストップワードのみ
      – 中国語、日本語、韓国語(CJK )
         • 字句解析のみ

 ダブリン計算言語学研究セミナー                2012年6月
プラグイン
                    スクリプト
• OmegaT のメモリ上に保持されているデータを操作できる
• グラフィカルなインターフェイスや対話式の機能を作成でき
  る
• 初期状態で多くのスクリプト言語を使用可能
   •   NetRexx
   •   XSLT
   •   Groovy
   •   JavaScript
 – 他のスクリプト言語も簡単に追加できる
   • Jacl (Tcl/Tk)
   • Jython (Python)
• サンプルスクリプトを同梱
 – 検索と置換
 – スクリプトによる GUI 作成
 – …
 ダブリン計算言語学研究セミナー            2012年6月
OmegaT




対応可能なファイル形式
   ネイティブ形式
  Okapi プラグイン
 カスタム コーディング
   Okapi Rainbow
対応可能なファイル形式
           ネイティブ形式
• 文書用ファイル形式
 – プレーンテキスト(ユニコードを含む、Java が対応する全エンコー
   ディング)
 – (X)HTML(Web サイトのディレクトリ構成をそのまま保持できる)
 – StarOffice、OpenOffice.org、LibreOffice および OpenDocument
 – Open XML(Microsoft 2007/2010)
 – ヘルプとマニュアル
 – HTML Help コンパイラ
 – LaTeX
 – DokuWiki
 – CopyFlow Gold for QuarkXPress
 – DocBook
 – Typo3 LocManager
 – Iceni Infix (PDF)
 – XLIFF source = target
 – TXML Wordfast source = target


 ダブリン計算言語学研究セミナー                                  2012年6月
対応可能なファイル形式
           ネイティブ形式

• 地域化用ファイル形式
 –   Android リソース
 –   Java リソースバンドル
 –   「キー=値」 形式ファイル
 –   Mozilla DTD
 –   Windows リソース(RC)
 –   WiX ローカリゼーション
 –   ResX
 –   Flash の XML 出力
 –   Windows 用 Camtasia
 –   Magento CE locale CSV
 –   PO(Portable Object File)(既存の翻訳も取り込み)
 –   SubRip 字幕形式(SRT)
 –   SVG 画像

 ダブリン計算言語学研究セミナー                            2012年6月
対応可能なファイル形式
           Okapi プラグイン
•   InDesign IDML
•   JSON
•   Qt TS
•   Trados TagEditor TTX (既存の翻訳も取り込み)
•   Transifex プロジェクト
•   Wordfast Pro TXML(ベータ版)(既存の翻訳も取り
    込み)




    ダブリン計算言語学研究セミナー              2012年6月
対応可能なファイル形式
       カスタム コーディング

• ソースコードを少し変更するだけでファ
  イルフィルターを作成できる
• 手順は文書化済み
 – http://www.omegat.org/en/howtos/new
   _filter.html
• 特定の XML フィルターを作るのがあま
  りにも簡単なので、汎用の XML フィル
  ターは存在しない


 ダブリン計算言語学研究セミナー                  2012年6月
対応可能なファイル形式
         Okapi Rainbow

• Okapi Rainbow は OmegaT 用のプロジ
  ェクトファイルを生成できる。さらに…
 – ファイルフィルターの追加
   • 追加できるファイル形式
      – MIF (Adobe FrameMaker)
   • 形式によっては既存の翻訳も取り込む
   • 汎用の XML フィルター
   • タグによる翻訳用テキスト指定
      – ITS (Internationalization Tag Set)
 – 機械翻訳による事前翻訳

 ダブリン計算言語学研究セミナー                             2012年6月
OmegaT




他の翻訳支援ソフトとの互換性
    翻訳メモリ
    二ヶ国語文書
     用語集
他の翻訳支援ソフトとの互換性

•   翻訳メモリ
    –   翻訳メモリの個数は無制限
    –   TMX バージョン 1.4b レベル 1 および 2 に対応
         • 取り込み
         • 出力
    –   テキストの整形情報は、書式用プレースホルダーとして保持される
•   二ヶ国語文書(unclean documents とも呼ばれる)
    –   PO
    –   XLIFF(Rainbow 経由で既存の翻訳も取り込める)
    –   TTX(Okapi プラグイン 経由)
    –   TXML(Okapi プラグイン 経由で既存の翻訳も取り込める)
•   用語集
    –   用語集の個数は無制限
    –   用語集は、複数のファイル形式に対応
         • TSV(タブ区切り)
         • CSV(カンマ区切り)
         • TBX (TermBase eXchange)
    –   書き込み可能な用語集は一種類だけ
         • TSV 形式のみ


    ダブリン計算言語学研究セミナー                        2012年6月
OmegaT




OmegaT プロジェクト
     沿革史
    スタッフ
      理念
     普及率
    資金調達
OmegaT プロジェクト
                沿革史
• 開発を開始
 – 2000年 C++ で書かれた
• 最初の一般公開
 – 2001年 Java で書かれた
• 文単位の分節化
 – 2005年 OmegaT 1.6 から
• 綴り確認機能
 – 2008年 OmegaT 1.8 から
• 参考訳文のオンデマンド照合による、プロジェクトの「瞬間」読
  み込み
 – 2009年 OmegaT 2.0 から
• 最初のプラグイン
 – 2009年 OmegaT 2.0 から
• 複数訳文が可能に
 – 2011年 OmegaT 2.5 から
• チームプロジェクト
 – 2012年 OmegaT 2.6 から
 ダブリン計算言語学研究セミナー            2012年6月
OmegaT プロジェクト
               スタッフ
• 最初の開発者
 – Keith Godfrey(アメリカ/イギリス)
• プロジェクト責任者 兼 ウェブサイト管理者
 – Marc Prior(ドイツ)
• 過去の開発担当
 – Maxym Mykhalchuk(イタリア/ウクライナ)
 – Henry Pijffers(オランダ)
• 現在の開発チーム
 – 開発担当
    • Didier Briel(フランス)
 – 開発リーダー
    • Alex Buloichik(ベラルーシ)
• 地域化担当 兼 ユーザーグループオーナー
 – Jean-Christophe Helary(日本)
• 文書化担当
 – Vito Smolej(ドイツ)
 ダブリン計算言語学研究セミナー                  2012年6月
OmegaT プロジェクト
               理念

• OmegaT は非公式の組織
 – 法律的な組織の実体を持たない
• ユーザーからの協力を求めている
 – プログラミングのスキルは要求されない
   • 翻訳
   • チュートリアル ビデオの作成
   • 地域の翻訳者コミュニティに対する啓蒙活動
   •…



 ダブリン計算言語学研究セミナー        2012年6月
OmegaT プロジェクト
              普及率

• 正確な統計は存在せず
 – OmegaT は使用状況を追跡していないため
• 2010 年の調査によると
 – Wordfast、Deja Vu、MemoQ ユーザーの
   1/3、また最も利用されている Trados ユー
   ザーの 1/8 が OmegaT を使用している(出
   典: Wikipedia)
 – http://www.translationtribulations.com/
   2010/07/results-of-june-translation-
   tools.html
 ダブリン計算言語学研究セミナー                     2012年6月
OmegaT プロジェクト
        普及率: ダウンロード数

• Sourceforge 利用開始以来のダウンロー
  ド数




• Java Webstart の利用は加算されていな
  い
 ダブリン計算言語学研究セミナー        2012年6月
OmegaT プロジェクト
             資金調達

• OmegaT プロジェクトにおける作業のほと
  んどがボランティアによる
• 寄付は歓迎
 – OmegaT プロジェクトはそれを特定の目的に使
   用する
   • 開発リーダーのための Mac 購入予算
   • その他開発経費

• 開発してほしい機能があれば、そのスポン
  サーになる方法もある
 – 開発チームは、機能仕様とその開発費について
   スポンサーと打ち合わせをする

 ダブリン計算言語学研究セミナー           2012年6月
OmegaT




      入手方法
ダウンロード/Java Webstart
    ソースコード
入手方法
          ダウンロード/Java Webstart
•   OmegaT は2つのバージョンが提供されている
    –   通常版 (Standard)
         • 取扱説明書完備(少なくとも英語版で)
    –   最新版 (Latest)
         • 新機能の取扱説明は無し
         • 新機能は安定性にやや欠ける

•   4つのプラットフォーム向け
    –   Windows
    –   Linux
    –   汎用(Java アーカイブのみ)
    –   Mac
•   Java Runtime Environment 付きと JRE 無し
•   さらに、OmegaT は Java Webstart からも使える
    –   インストール不要(ユーザーの観点から)
    –   アップデート版は自動更新
    –   プラグインは使えない
•   全バージョンが omegat.org からダウンロード可能
•   プラグインは別のウェブサイトにある
    –   https://sourceforge.net/projects/omegat-plugins/
    ダブリン計算言語学研究セミナー                                        2012年6月
入手方法
                ソースコード
• 全リリース分のソースコードが提供されている
• /trunk ソースを公開
 – Subversion
    • svn co
      https://omegat.svn.sourceforge.net/svnroot/omegat/
      trunk omegat
 – Tarball
    • http://omegat.svn.sourceforge.net/viewvc/omegat/?v
      iew=tar
• プロトタイプはときどき Git で公開
 – http://omegat.git.sourceforge.net/git/gitweb.c
   gi
• プラグインの /trunk ソースは Git で公開
 – http://omegat-
   plugins.git.sourceforge.net/git/gitweb-index.cgi
 ダブリン計算言語学研究セミナー                                 2012年6月
OmegaT




     サポート
ユーザーおよび開発者向けサポート
 バグおよび機能拡張トラッカー
   コントリビューション
サポート
 ユーザーおよび開発者向けサポート

• ユーザー向けメーリングリスト
 – http://groups.yahoo.com/group/omegat
 – 1750 メンバー(訳注:2012/10 時点で 1800 人超)
 – 24 時間 365 日活動
 – 英語中心だが、他の言語(日本語、ロシア語、ドイツ語、
   フランス語等)でもサポートを受けられる
 – 母国語での投稿を推奨
• 開発者およびパワーユーザー向けメーリングリスト
 – https://sourceforge.net/mailarchive/forum.php?foru
   m_name=omegat-development
 – 125 メンバー
 – 英語
 – 技術的な話題
 ダブリン計算言語学研究セミナー                              2012年6月
サポート
    バグおよび機能拡張トラッカー

• バグレポート
 – https://sourceforge.net/tracker/?group_id=68
   187&atid=520347
 – 2002 年 11 月以来、500 件のバグが報告
 – 2012/6/13 時点で 47 件がオープン
 – オープンで最古は、2006 年 7 月のバグ
• 機能拡張リクエスト(RFE)
 – https://sourceforge.net/tracker/?group_id=68
   187&atid=520350
 – 2002 年 11 月以来、795 件のリクエストが登録
 – 2012/6/13 時点で 340 件がオープン
 – オープンで最古は、2004 年 6 月のリクエスト
 ダブリン計算言語学研究セミナー                          2012年6月
サポート
          コントリビューション
• 実際にコントリビューションを送る前に、それについて話し
  合う機会を持つと有益
  –   機能拡張リクエストを送る
  –   ユーザー向けメーリングリストで話し合う
  –   開発者向けメーリングリストで話し合う
  –   開発担当に非公開で相談する
• Subversion へのコミット権限を持つのはコア開発者だけ
• コントリビューションは開発担当へ送る
• 受け付けるもの
  – Zip 圧縮ファイル
      • パッチ
      • 変更した全ソースファイル
      • 必要であればテストデータも
  – パッチの目的の説明

 ダブリン計算言語学研究セミナー               2012年6月

More Related Content

Recently uploaded

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdffurutsuka
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 

Recently uploaded (7)

[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
UPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdfUPWARD_share_company_information_20240415.pdf
UPWARD_share_company_information_20240415.pdf
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at WorkGetSmarter
 

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
 
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
 
ChatGPT webinar slides
ChatGPT webinar slidesChatGPT webinar slides
ChatGPT webinar slides
 
More than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike RoutesMore than Just Lines on a Map: Best Practices for U.S Bike Routes
More than Just Lines on a Map: Best Practices for U.S Bike Routes
 

OmegaT プレゼンテーション 2012

  • 1. OmegaT ダブリン計算言語学研究セミナー Didier Briel 2012年6月 この文書は、原著者 Didier Briel の許諾を得て、Yu Tang が翻訳・公開するものです。 著作権は Didier Briel が保有しています。査読協力 Jean-Christophe Helary (感謝!)。 Original document in English, copyright Didier Briel
  • 2. 目次 • OmegaT のワークフロー • 主要機能 • プラグイン • 対応可能なファイル形式 • 他の翻訳支援ソフトとの互換性 • OmegaT プロジェクト • 入手方法 • サポート ダブリン計算言語学研究セミナー 2012年6月
  • 3. OmegaT OmegaT のワークフロー 主な特徴 ファイルの翻訳 実演
  • 4. OmegaT のワークフロー 主な特徴 • 完全なスタンドアロン – 外部のソフトウェア(たとえば Microsoft Office)がインス トールされているかどうかに、まったく依存しない • Java 1.5 以上に対応するすべてのプラットフォーム上で動 作 • 中間形式ファイル不要 – 準備不要 • インポートまたは変換 – 「後始末」不要 – プロジェクトの変更(文書の追加/変更/削除)は動的に即時反 映 • データベース不要 – すべてのデータはメモリ上で処理される – 非常に高速 – データ量には制限あり • 翻訳の自動反映(Automatic propagation) ダブリン計算言語学研究セミナー 2012年6月
  • 5. OmegaT のワークフロー ファイルの翻訳 • プロジェクトを新規作成 • もし必要であれば、原文ファイルを変換 • 用語集と翻訳メモリをインストール(フ ァイルコピー) • 翻訳 • 訳文ファイルを生成 • もし必要であれば、訳文ファイルを変換 ダブリン計算言語学研究セミナー 2012年6月
  • 7. コンセプト 主要機能 • 参考訳文 • 翻訳の自動反映(Automatic propagation) • 用語集 • プロジェクトや参照している翻訳メモリ、文書を対象とした 検索 • プロジェクト内にフォルダーやファイルを無制限に配置可能 • 右から左への横書き(RTL)および文字表記方向混在(bidi) 入力 • タグ検証(妥当性検証) • 綴り確認(Hunspell または JMySpell) • 国語および多国語辞書(StarDict または Lingvo DSL 形式) • 機械翻訳(Google Translate, Apertium, Belazar) ダブリン計算言語学研究セミナー 2012年6月
  • 8. コンセプト 主要機能: RTL と bidi 対応 • 翻訳支援ツールには LTR と RTL 言語の混在表示が求められる – 英語からアラビア語へ – ヘブライ語から英語へ • OmegaT は分節の表示方向を自動的に切り替える – 各分節の先頭にある Unicode マーカーで表示方向を設定 – 向きは手動で指定することも可能(Shift+Ctrl+O) • RTL 言語の分節の途中で、LTR への切り替えが必要な場合がある – 外国語の名前 – 電話番号 • José García-Verdugo(スペイン、カスティーリャ・ラ・マンチ ャ大学 アラビア語-スペイン語教師) – ”わたしは OmegaT を選びました。右から左方向へ、そして左から右 方向への表記をうまく処理してくれたからです。完璧というわけでは ありませんが、実際のところ多くの高価な商用製品よりも、はるかに 良かったのです ” – http://tech.groups.yahoo.com/group/OmegaT/message/19344 ダブリン計算言語学研究セミナー 2012年6月
  • 9. OmegaT プラグイン ライセンスの互換性 アーキテクチャ スタブ 利用可能なプラグイン トークナイザー スクリプト
  • 10. プラグイン ライセンスの互換性 • 主として法的な理由により、プラグインは OmegaT 本体と別個に配布されている – OmegaT のライセンスは、ライブラリに JAXB を含むた め、厳格な GPL v2 – 多くのプラグインは Apache コンポーネントを利用して いる – Apache ライセンスは GPL v2 と矛盾する – Apache ライセンスは GPL v3 と矛盾しない – OmegaT のごく一部(スタブ )は GPL v3 で再ライセン スされている • これが可能なのは、OmegaT のソースコードに次のように 書かれているから ライセンスはバージョン 2 か、あるいは(必要なら)それ よりも後のバージョンを適用 ダブリン計算言語学研究セミナー 2012年6月
  • 11. プラグイン ライセンスとの互換性 • GPL v3 と矛盾しないライセンスなら、プラ グインで利用可能 – Apache ライセンス – 修正 BSD ライセンス • 三条項 BSD ライセンス – … – http://www.gnu.org/licenses/license-list.ja.html #GPLCompatibleLicenses • GPL と相容れない一部のライセンス(たとえ ば BSD)は、他のソフトウェアに同梱される ときに、ソースコードの配布を必要としない – 寛容な非コピーレフト(Permissive non-copyleft) ダブリン計算言語学研究セミナー 2012年6月
  • 12. プラグイン アーキテクチャ • 外部プラグインは実行時に plugins フォルダー から読み込まれる • プラグインは主にインターフェイスを介して OmegaT と連携する。これらのインターフェイ スを参照するために、スタブ が必要になる • スタブ は「空」のソースコードで、必要なオブ ジェクトとメソッドの宣言のみを含む • 実行時に、これらの空のメソッドは実物と置き 換えられる • プラグインの作り方は、OmegaT のソースの docs_devel フォルダに文書化されている – サンプル プラグイン プロジェクト一式を含む ダブリン計算言語学研究セミナー 2012年6月
  • 13. プラグイン 利用可能なプラグイン • OmegaT 製 – LanguageTool • 言語構文チェック – トークナイザー • 参考訳文と用語集の認識精度向上 – スクリプト • OmegaT 内でスクリプトの実行を可能に • サードパーティー製 – Okapi • ファイルフィルターの追加 • http://www.opentag.com/okapi/wiki/index.php?title=Okapi_Filters _Plugin_for_OmegaT – Glossum • オンライン用語集 • http://www.glossum.com/omegat ダブリン計算言語学研究セミナー 2012年6月
  • 14. プラグイン トークナイザー • トークナイザーは Lucene (Apache) を使って開発 • 24 種類の言語で利用可能 – Lucene 2.9.0 に基づく • OmegaT はこれを3つの目的で使用 – トークン(字句)の解析 • 綴り確認の性能改善 • CJK 言語における “ 単語” 認識の性能改善 – 参考訳文からストップワード を排除 – 見出語(lemmas)の解析 • 参考訳文と用語集の両方で使用 • 一部の言語では利用できない – チェコ語 • ストップワードのみ – 中国語、日本語、韓国語(CJK ) • 字句解析のみ ダブリン計算言語学研究セミナー 2012年6月
  • 15. プラグイン スクリプト • OmegaT のメモリ上に保持されているデータを操作できる • グラフィカルなインターフェイスや対話式の機能を作成でき る • 初期状態で多くのスクリプト言語を使用可能 • NetRexx • XSLT • Groovy • JavaScript – 他のスクリプト言語も簡単に追加できる • Jacl (Tcl/Tk) • Jython (Python) • サンプルスクリプトを同梱 – 検索と置換 – スクリプトによる GUI 作成 – … ダブリン計算言語学研究セミナー 2012年6月
  • 16. OmegaT 対応可能なファイル形式 ネイティブ形式 Okapi プラグイン カスタム コーディング Okapi Rainbow
  • 17. 対応可能なファイル形式 ネイティブ形式 • 文書用ファイル形式 – プレーンテキスト(ユニコードを含む、Java が対応する全エンコー ディング) – (X)HTML(Web サイトのディレクトリ構成をそのまま保持できる) – StarOffice、OpenOffice.org、LibreOffice および OpenDocument – Open XML(Microsoft 2007/2010) – ヘルプとマニュアル – HTML Help コンパイラ – LaTeX – DokuWiki – CopyFlow Gold for QuarkXPress – DocBook – Typo3 LocManager – Iceni Infix (PDF) – XLIFF source = target – TXML Wordfast source = target ダブリン計算言語学研究セミナー 2012年6月
  • 18. 対応可能なファイル形式 ネイティブ形式 • 地域化用ファイル形式 – Android リソース – Java リソースバンドル – 「キー=値」 形式ファイル – Mozilla DTD – Windows リソース(RC) – WiX ローカリゼーション – ResX – Flash の XML 出力 – Windows 用 Camtasia – Magento CE locale CSV – PO(Portable Object File)(既存の翻訳も取り込み) – SubRip 字幕形式(SRT) – SVG 画像 ダブリン計算言語学研究セミナー 2012年6月
  • 19. 対応可能なファイル形式 Okapi プラグイン • InDesign IDML • JSON • Qt TS • Trados TagEditor TTX (既存の翻訳も取り込み) • Transifex プロジェクト • Wordfast Pro TXML(ベータ版)(既存の翻訳も取り 込み) ダブリン計算言語学研究セミナー 2012年6月
  • 20. 対応可能なファイル形式 カスタム コーディング • ソースコードを少し変更するだけでファ イルフィルターを作成できる • 手順は文書化済み – http://www.omegat.org/en/howtos/new _filter.html • 特定の XML フィルターを作るのがあま りにも簡単なので、汎用の XML フィル ターは存在しない ダブリン計算言語学研究セミナー 2012年6月
  • 21. 対応可能なファイル形式 Okapi Rainbow • Okapi Rainbow は OmegaT 用のプロジ ェクトファイルを生成できる。さらに… – ファイルフィルターの追加 • 追加できるファイル形式 – MIF (Adobe FrameMaker) • 形式によっては既存の翻訳も取り込む • 汎用の XML フィルター • タグによる翻訳用テキスト指定 – ITS (Internationalization Tag Set) – 機械翻訳による事前翻訳 ダブリン計算言語学研究セミナー 2012年6月
  • 22. OmegaT 他の翻訳支援ソフトとの互換性 翻訳メモリ 二ヶ国語文書 用語集
  • 23. 他の翻訳支援ソフトとの互換性 • 翻訳メモリ – 翻訳メモリの個数は無制限 – TMX バージョン 1.4b レベル 1 および 2 に対応 • 取り込み • 出力 – テキストの整形情報は、書式用プレースホルダーとして保持される • 二ヶ国語文書(unclean documents とも呼ばれる) – PO – XLIFF(Rainbow 経由で既存の翻訳も取り込める) – TTX(Okapi プラグイン 経由) – TXML(Okapi プラグイン 経由で既存の翻訳も取り込める) • 用語集 – 用語集の個数は無制限 – 用語集は、複数のファイル形式に対応 • TSV(タブ区切り) • CSV(カンマ区切り) • TBX (TermBase eXchange) – 書き込み可能な用語集は一種類だけ • TSV 形式のみ ダブリン計算言語学研究セミナー 2012年6月
  • 24. OmegaT OmegaT プロジェクト 沿革史 スタッフ 理念 普及率 資金調達
  • 25. OmegaT プロジェクト 沿革史 • 開発を開始 – 2000年 C++ で書かれた • 最初の一般公開 – 2001年 Java で書かれた • 文単位の分節化 – 2005年 OmegaT 1.6 から • 綴り確認機能 – 2008年 OmegaT 1.8 から • 参考訳文のオンデマンド照合による、プロジェクトの「瞬間」読 み込み – 2009年 OmegaT 2.0 から • 最初のプラグイン – 2009年 OmegaT 2.0 から • 複数訳文が可能に – 2011年 OmegaT 2.5 から • チームプロジェクト – 2012年 OmegaT 2.6 から ダブリン計算言語学研究セミナー 2012年6月
  • 26. OmegaT プロジェクト スタッフ • 最初の開発者 – Keith Godfrey(アメリカ/イギリス) • プロジェクト責任者 兼 ウェブサイト管理者 – Marc Prior(ドイツ) • 過去の開発担当 – Maxym Mykhalchuk(イタリア/ウクライナ) – Henry Pijffers(オランダ) • 現在の開発チーム – 開発担当 • Didier Briel(フランス) – 開発リーダー • Alex Buloichik(ベラルーシ) • 地域化担当 兼 ユーザーグループオーナー – Jean-Christophe Helary(日本) • 文書化担当 – Vito Smolej(ドイツ) ダブリン計算言語学研究セミナー 2012年6月
  • 27. OmegaT プロジェクト 理念 • OmegaT は非公式の組織 – 法律的な組織の実体を持たない • ユーザーからの協力を求めている – プログラミングのスキルは要求されない • 翻訳 • チュートリアル ビデオの作成 • 地域の翻訳者コミュニティに対する啓蒙活動 •… ダブリン計算言語学研究セミナー 2012年6月
  • 28. OmegaT プロジェクト 普及率 • 正確な統計は存在せず – OmegaT は使用状況を追跡していないため • 2010 年の調査によると – Wordfast、Deja Vu、MemoQ ユーザーの 1/3、また最も利用されている Trados ユー ザーの 1/8 が OmegaT を使用している(出 典: Wikipedia) – http://www.translationtribulations.com/ 2010/07/results-of-june-translation- tools.html ダブリン計算言語学研究セミナー 2012年6月
  • 29. OmegaT プロジェクト 普及率: ダウンロード数 • Sourceforge 利用開始以来のダウンロー ド数 • Java Webstart の利用は加算されていな い ダブリン計算言語学研究セミナー 2012年6月
  • 30. OmegaT プロジェクト 資金調達 • OmegaT プロジェクトにおける作業のほと んどがボランティアによる • 寄付は歓迎 – OmegaT プロジェクトはそれを特定の目的に使 用する • 開発リーダーのための Mac 購入予算 • その他開発経費 • 開発してほしい機能があれば、そのスポン サーになる方法もある – 開発チームは、機能仕様とその開発費について スポンサーと打ち合わせをする ダブリン計算言語学研究セミナー 2012年6月
  • 31. OmegaT 入手方法 ダウンロード/Java Webstart ソースコード
  • 32. 入手方法 ダウンロード/Java Webstart • OmegaT は2つのバージョンが提供されている – 通常版 (Standard) • 取扱説明書完備(少なくとも英語版で) – 最新版 (Latest) • 新機能の取扱説明は無し • 新機能は安定性にやや欠ける • 4つのプラットフォーム向け – Windows – Linux – 汎用(Java アーカイブのみ) – Mac • Java Runtime Environment 付きと JRE 無し • さらに、OmegaT は Java Webstart からも使える – インストール不要(ユーザーの観点から) – アップデート版は自動更新 – プラグインは使えない • 全バージョンが omegat.org からダウンロード可能 • プラグインは別のウェブサイトにある – https://sourceforge.net/projects/omegat-plugins/ ダブリン計算言語学研究セミナー 2012年6月
  • 33. 入手方法 ソースコード • 全リリース分のソースコードが提供されている • /trunk ソースを公開 – Subversion • svn co https://omegat.svn.sourceforge.net/svnroot/omegat/ trunk omegat – Tarball • http://omegat.svn.sourceforge.net/viewvc/omegat/?v iew=tar • プロトタイプはときどき Git で公開 – http://omegat.git.sourceforge.net/git/gitweb.c gi • プラグインの /trunk ソースは Git で公開 – http://omegat- plugins.git.sourceforge.net/git/gitweb-index.cgi ダブリン計算言語学研究セミナー 2012年6月
  • 34. OmegaT サポート ユーザーおよび開発者向けサポート バグおよび機能拡張トラッカー コントリビューション
  • 35. サポート ユーザーおよび開発者向けサポート • ユーザー向けメーリングリスト – http://groups.yahoo.com/group/omegat – 1750 メンバー(訳注:2012/10 時点で 1800 人超) – 24 時間 365 日活動 – 英語中心だが、他の言語(日本語、ロシア語、ドイツ語、 フランス語等)でもサポートを受けられる – 母国語での投稿を推奨 • 開発者およびパワーユーザー向けメーリングリスト – https://sourceforge.net/mailarchive/forum.php?foru m_name=omegat-development – 125 メンバー – 英語 – 技術的な話題 ダブリン計算言語学研究セミナー 2012年6月
  • 36. サポート バグおよび機能拡張トラッカー • バグレポート – https://sourceforge.net/tracker/?group_id=68 187&atid=520347 – 2002 年 11 月以来、500 件のバグが報告 – 2012/6/13 時点で 47 件がオープン – オープンで最古は、2006 年 7 月のバグ • 機能拡張リクエスト(RFE) – https://sourceforge.net/tracker/?group_id=68 187&atid=520350 – 2002 年 11 月以来、795 件のリクエストが登録 – 2012/6/13 時点で 340 件がオープン – オープンで最古は、2004 年 6 月のリクエスト ダブリン計算言語学研究セミナー 2012年6月
  • 37. サポート コントリビューション • 実際にコントリビューションを送る前に、それについて話し 合う機会を持つと有益 – 機能拡張リクエストを送る – ユーザー向けメーリングリストで話し合う – 開発者向けメーリングリストで話し合う – 開発担当に非公開で相談する • Subversion へのコミット権限を持つのはコア開発者だけ • コントリビューションは開発担当へ送る • 受け付けるもの – Zip 圧縮ファイル • パッチ • 変更した全ソースファイル • 必要であればテストデータも – パッチの目的の説明 ダブリン計算言語学研究セミナー 2012年6月