コーパスの中で、ある表現が1度も登場しない問題をゼロ頻度問題と呼びます。これは極めて大きな問題です。たまたまそのコーパスに出現しなかっただけなのに、最初から存在しないように扱われてしまうためです。単純に考えると、コーパス内で頻度がゼロである場合、出現確率が0であると見なされてしまいます。
ゼロ頻度問題に対応するため、平滑化 (smoothing) という手法で、出現頻度あるいは出現確率を修正することがあります。例えば、Laplace平滑化という手法では、全ての表現に対して、コーパス中で観測された頻度に1を加えます。コーパス中での頻度が0であっても、Laplace平滑化では必ず1が加えられるので、0にはならず 1になるわけです。これで、ゼロ頻度が防げるのです。なお、1を加える代わりに、1未満の小数(例えば0.5)を加えるという手段もあります。
やや極端な例ですが、“A cat chased a rat.”という5単語からなるコーパスを考えてみましょう。単純頻度で言えば、“a”が頻度2、“cat”・“chased”・“rat”が頻度1、その他の単語(例えば“the”や“desk”)は全て頻度0となります。Laplace平滑化を行うと、“a”が頻度3、“cat”・“chased”・“rat”が頻度2、その他の単語は頻度1と見なされるわけです。
なお、これ以外にも、Good-Turing 平滑化など様々な平滑化の手法があります。
コーパスを作るときは、文をばらばらに収録するよりは、ある程度まとまった分量で収録することが普通です。例えば、小説なら最初は57文目、その次は345文目、その次は793文目…といったようにばらばらで収録することはしないのです。むしろ、連続する数ページをまとめて収録するか、それこそ小説のテキストを丸ごと収録することになります。言語研究に当たっては、文単独で見るだけでなく、文章や会話の流れを見る場合もあるので、こっちの方が研究用のコーパスとしては都合が良いのです。
しかし、内容が連続する部分をまとめて収録すると、別の問題が起きます。例えば、「オーケストラ」という単語は、日常の語感からすると、頻出語とは言えないと思います。しかし、もしコーパスに収録された文章の中で、指揮者について論じた文章があったとしたらどうなるでしょうか。指揮者について論じた文章には、当然「オーケストラ」という単語がたくさん出てくるはずです。すると、たまたまそのコーパスに、このような題材の文章が含まれていたために、「オーケストラ」の頻度が実際より過大になってしまいます。実際によく使われているかどうかとは関係なく、たまたま頻度が大きくなってしまったのです。
この問題にはどう対処すれば良いのでしょうか。実は、コーパス内での表現の出現の偏りに着目すれば、頻度の過大評価を避けることができます。先ほどの例で言うと、「オーケストラ」という単語が出てくるのは、ほとんどが指揮者についての文章においてだと思います。コーパスの他の部分にはあまり出てこないはずです。つまり、「オーケストラ」の出現は、非常に偏っているということになります。これに対して、本当に頻出する表現なら、コーパスのどの部分でもバランス良く出現しているはずです。
つまり、コーパス内での出現の偏りが分かれば、本当に頻出する表現かどうかが分かるわけです。コーパス内での出現の偏りに関する指標は様々なものが提唱されていますので、探してみると良いでしょう。