タイ語の形態素解析やってみた
タイ語の分析をいろいろやりたいと思っていて、その為には形態素解析が必須と思われます。
形態素解析というのは、タイ語の文章があった時に、一つ一つの単語に分解(且つ単語の品詞や基本型なども確認)する解析のことです。
そういう作業を自動でやってくれるプログラムが世の中には公表されています。
ただ、日本語で「タイ語 形態素解析」と調べても、全然あたりがつかなかった。
そこでTwitterで投げかけてみたら、親切な方がPythonのプログラムを教えてくれました。(Py thai NLP というもの。)
見てみたところ、とても良さそうなんだけど、自分はRuby on railsでホームページを作ったりしているので、Rubyのほうが連動性が良いかな、と思い、Rubyのものを探してみました。上の方が教えてくれたおかげで、海外のものでTokenizerと調べればいろいろ入手ができると思い、調べてみたらありました。
Thailang4r というものです。
日本でタイ語の形態素解析をやった記事があまりなかったので、メモしておきます。
(といっても、初歩的なことしか試していないので、大して役にも立ちませんが。)
まずはRubyが使える環境で、上記をインストール。
gem install thailang4r
それで、以下を実施。
# encoding: UTF-8 require 'thailang4r/word_breaker' text="อยากเปลี่ยนวันจันทร์ เป็นวันอาทิตย์" word_breaker = ThaiLang::WordBreaker.new puts word_breaker.break_into_words(text)
大好きなLosoの曲(อยากเปลี่ยนใจเธอ)から歌詞を取ってきました。
実行したら、結果はこんな感じ。
อยาก
เปลี่ยน
วัน
จันทร์
เป็น
วัน
อาทิตย์
まあ、まあ使えそうです。
これからタイ語の歌詞で覚えられる基本語の分析等をやってみたいです。