ノイズに対してロバストな文書構成要素の検出方法とか

2010/05/10

ちょっと試しにいろいろやってみたのでメモ。自分用です。

某文書画像について,某処理を施したところ,こんな画像を得ることができました。何をやったのかは教えなーい(見る人が見ればすぐ分かるんだろうけど)。

この画像。裏写りやら影やらその他のノイズやらが多くて,単純に二値化すると真っ黒な部分や真っ白な部分ができちゃうし,裏写りの文字が表の文字として出てきちゃったり,その他よく分からないもやもやが出ちゃったりしていたのでした。けど,こいつを使うと,うまく表の文字にある点だけをきれいに抜き出せています。

しかもよく見ると,点の密度からスキュー(回転)やディストーション(ゆがみ)もある程度検出できそうな感じ。にゃんだか面白いことになってまいりました。

こんな具合に目で見て確かめられるのは,文書画像処理の醍醐味だったりするんですよね。もちっといぢってみよう。

Site Navigation
SNS Accounts (@aian)

普段はここら辺に住んでいます.