N-gram v0.2

AIAInohogosya-Lab•Shared January 14, 2026

5 views

Love/View Ratio: 0.00%

Instructions

N-gramを作ってみました。 N-gramの仕組みは以下 by Grok N-gramは、自然言語処理（NLP）でよく使われるシンプルで強力な手法です。テキストを「連続したN個の要素」の塊に分割して扱う方法です。要素は主に**単語**（word N-gram）か**文字**（character N-gram）です。 #### 1. 基本的な定義 - **N** は塊の大きさを表します。 - N=1 → **ユニグラム**（1個ずつ） - N=2 → **ビグラム**（2個ずつ） - N=3 → **トリグラム**（3個ずつ） - 一般的にN=2や3がよく使われます。テキストを左から右へスライドさせながら、N個ずつ切り出していきます。 #### 2. 具体例文：「今日はいい天気です」を単語単位で分割すると [今日は, いい, 天気, です] - ユニグラム（N=1）： [今日は]、[いい]、[天気]、[です] - ビグラム（N=2）： [今日はいい]、[いい天気]、[天気です] - トリグラム（N=3）： [今日はいい天気]、[いい天気です] 文字単位でも同じことができます。文：「すもももももももものうち」 - 文字ビグラム：すも、もも、もも、もも、もも、もの、のう、うち #### 3. 主な仕組みと使い方 N-gramの最大の特徴は**次の要素を予測する確率**を計算できる点です。言語モデルとして使う場合： - ビグラムモデルでは、「ある単語の次に来る単語」の出現確率を学習します。 - 例：大量のテキストから集計して、 - 「今日は」の次に「いい」が来る確率 = 0.4 - 「今日は」の次に「晴れ」が来る確率 = 0.3 など次の単語を予測するときは、前の(N-1)個の単語を見て、最も確率の高いものを選びます。確率の計算式（シンプルな最大尤度推定）： ``` P(次の単語 | 前の(N-1)個の単語) = 　「そのN-gramの出現回数」 ÷ 「前の(N-1)個の出現回数」 ``` #### 4. メリット - 実装がとても簡単 - 計算が速い - 短い文脈（近隣の単語・文字）だけ見て予測できるので、キーボード入力補完や検索エンジンのスペル修正に強い #### 5. デメリットと改善点 - 文脈が短い（Nが小さいと遠くの単語との関係を捉えられない） - 学習データにないN-gramが出てくると確率0になってしまう（ゼロ頻度問題） - Nを大きくするとデータが爆発的に増える（次元の呪い）これを解決するために、 - スムージング（確率を少し調整する技法） - バックオフ（見つからなければNを減らして探す） - 最近はTransformer（BERTなど）に置き換わることが多いですが、N-gramは今でも軽量なタスクで活躍しています。 #### まとめ N-gramは「テキストをN個ずつの連続した塊に切り出して、出現頻度から次の要素を予測する」シンプルな統計モデルです。深層学習が登場する前は言語モデルの主流で、今でも入力補完、機械翻訳の評価指標（BLEUスコア）、検索エンジンなどで広く使われています。初心者でもすぐに実装できるので、NLP入門にぴったりです！

Notes & Credits

プログラム協力者 @PixelNest サムネはxAIの画像生成AIで作ったものですが、ちょっと不自然な部分があったりします。

Project Details

Project ID1265360123

Search IndexUnindexed / NFE

CreatedJanuary 13, 2026

Last ModifiedJanuary 14, 2026

SharedJanuary 14, 2026

CommentsAllowed