PERC Corpus PERC Corpus

初めてお使いになる方は使用ライセンス契約をご確認いただき新規ご利用登録をお願いします

PERC Corpusとは

PERC Corpusは、医学、生物、物理、数学、化学、通信等の科学技術・理工学分野における、 著作権使用許諾を得た約1,700万語の学術雑誌論文から成るコーパスです。このコーパスは学術団体であるProfessional English Research Consortium (PERC) のプロジェクトの一環として作られ、特定分野の専門家が用いるProfessional English の研究目的に使用されることを目的に開発されました。

コーパスの概要

コーパスデザインの諸基準

(a) 単一言語(英語)
(b) 専門文書(学問基準を満たすテキスト)
(c) 共時性(1995年〜2002年)
(d) 地域の多様性(米語、英語ほかを含む)
(e) テキストサンプルは1雑誌ごと5万語以内
(f) テキスト選別の基準(以下参照)

雑誌論文選定作業は、その客観性および妥当性を保証するために、Journal Citation Report (JCR)から得られたデータに依拠しています。JCRは、科目カテゴリ内における学術雑誌の相対的重要度を測定する、客観的でシスティマチックなアプローチのために、計量可能な統計数値データを提供しています。コーパス制作が開始された2001年時点では、JCRのScience Editionでは、約5,700雑誌が対象となっており、そこでは「インパクト・ファクター(impact factor)」という、ある雑誌が同一分野の他雑誌によってどう見られているか(引用度)により、雑誌の相対的な重要度を計測、あるいは比較する手段を手に入れることができます。これらのデータを利用し、PERC Corpusのテキスト選択にあたっては、おのおのの分野の上位20%のインパクト・ファクターを持つ雑誌を対象としました。なお、このJCRの科目分類は、PERC Corpusのテキスト分類にも利用されています。

媒体:学術雑誌
領域:ライフサイエンスを含む、技術、工学、理化学分野

約170のサブ領域が次の22の上位領域に分類されています。これらの領域はそれぞれ別個にサブ・コーパスとして検索することができます。詳細は検索ソフト画面の「サブコーパス」をクリックしてご覧ください。

農業、生物学、化学、土木工学、コンピュータサイエンス、建築・建造、地球科学、電気・電子工学、工学、環境科学、漁業、食品科学、林業、科学一般、材料学、数学、医学、金属学・金属工学、原子力工学、海洋学、物理学、通信工学

テキストの符号化

タグ付けによって、次の情報が付与されています。

  1. 文区切りと品詞、レンマ(単語の原形、基本形)情報
  2. 出典などに関するテキストの個別情報(著者名、論文名、出版年、雑誌タイトルなどが含まれる詳細なファイル情報として、それぞれのテキストに付与されています)

テキストのタグ付けはXMLフォーマットによって行われています。

著作権処理について

BNCコーパスを作成したBNCコンソーシアムの事務手続きに基づき、PERCコーパスプロジェクトチームでも、学術雑誌の出版社に対して著作権物の使用許諾を求める手紙を出しました。その結果、約60の出版社から約300雑誌の使用許諾を得ることができました。PERCコーパスに収められているすべてのテキストは、これらの著作権所有者によってコーパスとしての使用を許可されたものです。

ユーザーとの間に結ばれる使用ライセンス契約では、PERCコーパスとそこに含まれるテキストの使用に関しては厳しく制限されています。それぞれのオリジナルテキストの複製を作ることは、どのような手段を通じてであれ禁じられることが明示されています。オリジナルテキストを、もとの形のまま他の製造物に組み込んで使用することはできません。また、それぞれのオリジナルテキストからの引用は、著作権法上のいわゆる適正使用(faire use)のみに厳密に限定されます。