以前　気合いで画像から文字だけを抽出する　というようなクソ記事を書きましたが，もっと効果的な画像演算があることがわかりました．
おそらくtesseract OCRなどにも使われていると思います．

Stroke Width Transform(SWT)

言語やフォント，スケール，方向に関係なくテキストを検出できる画像演算です．
論文は以下のリンクにあります．

今回はSWTを使ってどの程度検出できるのかやって見たいと思います．
以前と同じ画像を使用し，さを見ます．　　

f:id:yakuta55:20180420121106p:plain

上の画像がグレーイスケールにした入力画像で, 下がSWTを適用した後の画像です.
かなり文字が，くっきりと摘出できているかと思います．

今回使用したコードはこちらの方のコードをフォークさせて使わせていただきました．

終わり

ロシア語筆記体の文字のセグメンテーションとかいつかやって見たいですね()