Das Dokument beschreibt ein Projekt zur Übersetzung von Google Patenten von XML in RDF, das mehrere Dateien von wenigen MB bis zu mehreren GB umfasst und insgesamt etwa 1 TB an Daten betrifft. Der erste Schritt bestand darin, die Dateien so zu splitten, dass jede Datei ein Patent enthält. Weitere Schritte beinhalten das Schreiben eines Parsers und die eigentliche Übersetzung der Daten.