ホーム > Twitterのつぶやきを分解して単語リストを返す(Javaを使用)   / カテゴリ ( java , android , twitter , yahooapi )
Wednesday, December 9, 2009

Twitterのつぶやきを分解して単語リストを返す(Javaを使用)

Twitter API で指定したユーザのつぶやきを取得したら 今度はこれを単語に分解しようという話。

単語分解するには、日本語形態素解析ツールが必要なのだが、 Androidで実行するのは無理があるので、とりあえず Yahooの日本語形態素解析サービス に処理を任せて、結果だけをAndroidで受け取るようにつくろう、と。

SplitterTest.java

このコードは、別途JSONライブラリが必要です。 http://www.json.org/java/index.html から入手します。 AndroidにもこのJSONライブラリが採用されているようなので使用しました。

{codeinclude:src/SplitterTest.java}

JSONライブラリのXMLクラスを使って XMLをJSONオブジェクトに変換すると、かなり扱いが楽です。 JDOMなどが使えれば、XMLのまま処理しても楽なんですが、Android上での利用を考えると JSONライブラリはかなり重宝しそうです。

説明

Yahooの日本語形態素解析サービス を使うには、アプリケーションIDが必要なので、 取得しておきます。 そのIDを使って以下のように SplitterTest を利用します。

String appid = ""; // set your app id

Splitter sp = new Splitter(appid);
ArrayList<String> words = sp.split(status);
for(String word : words){
    System.out.println(word);
}