Google大規模日本語データについて
Google: 大規模日本語データ公開に関する特別セッションに参加してきました。
いずれ公式な発表(どこに意見を送ればいいか等も含めて)があるとは思いますが、個人的なメモとして:
- すでに英語版がある。
圧縮してDVD6枚?
- 数十億文の日本語文からデータを作る。
- もとの文が再現できないような、統計的情報のみを公開する。
例えば「今日は-楽しかった が100回出てきました」とか、
「今日-は-楽し-かっ-た が100回出てきました」みたいな感じ。
どんな形式になるかは未定(意見募集中)。
- 2007年夏の公開を目指す。
- DVD数枚になると予想。
- オープンソースソフトか、
特許ではないアルゴリズムに基づいたソフトで処理を行う。
例えば ChaSen
が考えられる(意見募集中)。
- 全て自動で行い、手順は公開する。
誤りがあっても人手で直さない(全自動ではなくなってしまうから)。