sudachipyで『食べログ』のレビューを形態素解析してみたが「表記ゆれ」が多くて使い物にならなかった
『食べログ』に掲載されている「クチコミ」の内、その店の料理を具体的にほめているレビューを見つけて、それを「どれくらい具体的に書かれていて、これから初めて店に行く人にとって有用か?」という基準でスコアリングしたいと考えていた。
具体的には、『食べログ』のお店の個別ページからメニューをスクレイピングして、それをsudachipyのユーザー辞書として登録し、それをもとに「クチコミ」を形態素解析して、レビューが「きちんと料理を評価しているか?」ということを知ろうとした。また、味や食感についても、そういう用語を集めているサイトから抽出し、ユーザー辞書に追加して、ただ「チャーハンが美味しかった」みたいな微妙なレビューよりも、「豚チャーハンは、ご飯がパラパラで気持ちのいい食感でした。」みたいなレビューの方が高スコアになるようにもくろんでいた。
ただし、実際にやってみるとユーザーの文章の書き方がバラバラで全然うまくいかなかった。。
『食べログ』のレビューのような「生の文章」は「表記ゆれ」が多い
当然と言えば当然だが、料理のメニューをお店が定めた正式名称でユーザーが記すわけがないのである。だいたいユーザーは、「なんかそれっぽい名前」に変換する。
# 辞書内の正しい料理名
- イカ沖漬け
# ユーザーの認識
- | イカ | の | 沖 | 漬け |
- | スルメ | イカ沖漬け |
- | イカ | 漬け |
「の」が入ってないのに、「~の~」を入れるパターンはだいぶあるし、ひらがなとカタカナの表記違い、送り仮名違い、略称化もある。
まぁそんなもんだよなぁ。。
「表記ゆれ」パターンを網羅したユーザー辞書を作る必要がありそう
いろんなそれっぽい表記ゆれパターンをsudachipyと正規表現を組み合わせて集めて、辞書を強化していくのが正解な気がするが、それでもパターンが集まるまでは目視による確認もかなり発生すると思う。。これはさすがに、思い付きで作るプログラムにかける労力じゃないので、やめておく。気合の入った商用のアプリケーションにするならやるかどうか検討してもよさげ。
コメント