テキスト検出 (OCR)

SAsakura_neko•Created March 17, 2026

302 views

Instructions

遅いのでTurboWarp推奨 https://turbowarp.org/1291920899 画像中のテキスト（英数字のみ）を読み取ります文字どうしが繋がらないように注意してください Recognize text (alphanumeric characters only) in the image. Please be careful not to let the letters connect.

Notes & Credits

前作（https://scratch.mit.edu/projects/1071424694）に古典的な検出器を組み合わせましたヒューリスティック盛り盛りにしたら検出&補正だけで4000ブロック MSER検出器→距離変換と線幅推定、縦横比等でテキスト以外を除去→傾き推定してDBSCANでクラスタリング→適切にソート→明るさ補正してCNNに入力→単語辞書から尤度で候補推定→文字サイズ含めて大文字小文字調整参考：https://www.mathworks.com/help/vision/ug/automatically-detect-and-recognize-text-in-natural-images.html 辞書はOpen American National Corpus (OANC)から出現頻度も一緒に作りました CNNは容量の関係でちょっとパラメータの精度を落としましたが問題なさそう画像から丸ごとNNで処理するのが現代的ですが、モデルサイズでかくなりそうなので古典手法にしました

Project Details

Project ID1291920899

CreatedMarch 17, 2026

Last ModifiedMay 9, 2026

SharedMarch 30, 2026

CommentsAllowed