my-notebook blog

大量にある日本語ファイル名をスクリプトで処理するのに都合がよいファイル名に変換

大量のDTPデータの支給を受けたときにファイル名がスクリプトで扱いづらい日本語などの文字列になっている場合が まま ある。

これを 元の意味がわかるように日本語を英語に直すなどの手間をかけるのは面倒、 かといって、一括で大量にあるファイル名を連番などに書きかえてしまうとそれはそれでうれしくない。 そもそもファイル名がファイルの内容を示しているのはよいことだし、もし再度更新データの支給があったときには大変なことになる。

ChaSen(茶筌)などの、形態素解析ツールを使えば、日本語を よみ に変換できるのでこれを ICU4J で よみ→ローマ字に変換すればいいのは わかっていたが、普段 Groovy で仕事をしているので、 ChaSen などの 非Java言語で実装されたものは諸事情により遠慮したい。 そう思っていたら、最近 Kuromoji というツールを知りました。

Javaで実装されていて、辞書付きで maven central repository から取得できるので、Groovy や Gradle プロジェクトで使うにはとても便利。 あるプロジェクトで、実際に使ってみたらとても便利だったので、このエントリーでそのあたりの経験をシェアします。

続きを読む…

グラフカットを使った画像の切り抜き(パート3)

パート2 で書いたコードでいろいろなパンの写真を切り抜いて見ます。

graph-cut

続きを読む…

グラフカットを使った画像の切り抜き(パート2)

パート1 ではグラフカットの基本を確認しました。 パート2では実際にこの理論を使って、パンの写真からパンと背景を分離してみます。

パンの写真から切り抜きする

graph-cut

では、この理論を使って、実際にパンの画像を切り抜いてみます。

続きを読む…

グラフカットを使った画像の切り抜き(パート1)

この手の画像切り抜きは Photoshop を使えば簡単かもしれませんが、 ここでは Python を使って切り抜きをしてみます。 オライリー本の「実践コンピュータビジョン」を参考にしているので 詳細はそちらをご覧ください。

続きを読む…

これからのDTP業界も "ヒト依存産業からモノ産業への移行" が起こるのか?

Chikirin女史の 2017-04-19モノは安く・ヒトは高く を読んでいて、DTP業界もこのエントリーで言うところの「ヒト産業からモノ産業化」へ移行するのかな?と。

働いているヒトは、どうやったらヒト産業をモノ産業化できるか、どうすれば今の仕事を、もっとヒトの時間をかけずにできるか、真剣に考えましょう。
当面は、それこそが人間が担当する仕事となります。

という結論になっているのですが...

続きを読む…


Older Posts »