Wednesday, December 9, 2009
Twitterのつぶやきを分解して単語リストを返す(Javaを使用)
Twitter API で指定したユーザのつぶやきを取得したら 今度はこれを単語に分解しようという話。
単語分解するには、日本語形態素解析ツールが必要なのだが、 Androidで実行するのは無理があるので、とりあえず Yahooの日本語形態素解析サービス に処理を任せて、結果だけをAndroidで受け取るようにつくろう、と。
SplitterTest.java
このコードは、別途JSONライブラリが必要です。 http://www.json.org/java/index.html から入手します。 AndroidにもこのJSONライブラリが採用されているようなので使用しました。
{codeinclude:src/SplitterTest.java}
JSONライブラリのXMLクラスを使って XMLをJSONオブジェクトに変換すると、かなり扱いが楽です。 JDOMなどが使えれば、XMLのまま処理しても楽なんですが、Android上での利用を考えると JSONライブラリはかなり重宝しそうです。
説明
Yahooの日本語形態素解析サービス を使うには、アプリケーションIDが必要なので、 取得しておきます。 そのIDを使って以下のように SplitterTest を利用します。
String appid = ""; // set your app id
Splitter sp = new Splitter(appid);
ArrayList<String> words = sp.split(status);
for(String word : words){
System.out.println(word);
}
