機械学習とか

月報9.5-10.5月-はずかしい駆動

今月から、某Z社に入社しました。
まだ試用期間中であるので、試用期間を何事もなく乗り越えれれば、後日それについて更新しようと思います。

今月から自分の活動の振り返りかつ、考えを纏める掃きだめとして月報をココに書こうと思います。
技術的なことはmediumに書いていこうと思います。

月報についてですが以下の内容について書こうと思います。

  • 無学で恥を感じたところ
  • やったこと
  • できなかったこと
  • 来月の大まかなタスク

あれコレ説明するのも面倒なので、今月の記事から察して頂けると幸いです。

恥ずかしみ

sshポートフォワーディング、ルーティングテーブルなどのワードをパッと言われ何も思い浮かばなかった。

主にFE,AEの試験のあたりの試験区分で、たまに問題として出題されていたので単語に聞き覚えはありましたが、
単語と定義が紐づいていないため、何もわからんという結果になりました。
実践が足りてないことを痛感しました。

やったこと

本はエンジニアの知的生産術とオライリーから出ているプログラミングRustを読んだ。
WebAssemblyの環境および、Vimの大まかな言語の補完プラグインをLSPに置き換えた。
2次元空間での格子ボルツマン法をRustで書いた。

月報を書こうと思ったのはエンジニアの知的生産術を読んだ影響です。
この本は、「情報の収集、情報を纏める、情報を元にアウトプットする」ことについて書かれています。
これを読んだことにより普段の自分の一連の勉強法のあり方を考えさせられました。

次に半期に一度プログラミング言語の習得をするというような目標を立てていたのを、最近まで忘れていたためプログラミングRustを購入し読みました。結果を言うとC++Pythonを触ったことが、ある方には読みやすいと思いました。一方初学者の方がコレをやるのは厳しいのでは?と思います。細部まで解説されているので、Rust完全に理解したい人は読んでおいて損はないと思います。読み終わって尚、リファレンスのように言語仕様を索引したりしているので、これからの相棒になりそうです。

Rustの学習が終わり実際に手を動かして物を作り、Rust的考えを定着させたいと考えました。
そこでmatlabで実装されていた格子ボルツマン法を参考に実装しました。
実装できたものの物理何も分からんの思いが強くなったので、手すきのときに勉強をしていきたいです。

できなかったこと

デビットカードの更新ができなかった
早寝早起き
おしゃべりオタク

無限に宅配物を受け取ることができなかった、悲しい。
ベットに早く入っても無限に考え事をしてしまい、いつもの寝る時間になった、悲しい。
新しい会社に入ったら、口が動き出すと思ったが、そうじゃなかった、悲しい。

来月の大まかなタスク

詳解 システム・パフォーマンス、Amazon Web Services 基礎からのネットワーク&サーバー構築 改訂版 を読む
声帯を動かす

また本の読み方も考えました
最近読んでる本が割と重いので魏珠緒に関しては月間2冊(1冊の量が多いものに関しては現実的な読める範囲を決め読む)
無理に読んでも理解できないので、こちらの方が最終的には効率が良いと考えました。

おしゃべりオタクにリトライしておく



ということで、来月も手を動かしてインプットして身に着けていきたい。

テキスト検出(SWT)について

以前 気合いで画像から文字だけを抽出する というようなクソ記事を書きましたが,もっと効果的な画像演算があることがわかりました.
おそらくtesseract OCRなどにも使われていると思います.

Stroke Width Transform(SWT)

言語やフォント,スケール,方向に関係なくテキストを検出できる画像演算です.
論文は以下のリンクにあります.

www.microsoft.com

今回はSWTを使ってどの程度検出できるのかやって見たいと思います.
以前と同じ画像を使用し,さを見ます.  

f:id:yakuta55:20180420121106p:plain

上の画像がグレーイスケールにした入力画像で, 下がSWTを適用した後の画像です.
かなり文字が,くっきりと摘出できているかと思います.

今回使用したコードは こちらの方のコードをフォークさせて使わせていただきました.

終わり

ロシア語筆記体の文字のセグメンテーションとかいつかやって見たいですね()