データサイエンティスト養成読本 機械学習入門のTF-IDFの定義がちょっとおかしいと感じたのでまとめてみる

Share on Facebook
Pocket
LINEで送る
Bookmark this on Google Bookmarks

この本。

ちなみに、ちゃんとTF-IDFに関して理解していない。
ただ、数学的な説明がちぐはぐになっているのははっきりわかるのと、誤植が混じってしまってよくわからない部分になってしまっているので、まとめてみる。

問題の部分

問題となるのは、P142のTF-IDFの定義の部分。
以下のように書いてある。

スクリーンショット 2015-09-29 22.51.48

 

うーん、問題を1つずつ書いてみる。

 

df_{t} が使われていない

df_{t} という記号が使われていない。
これは、df(t) の誤植であると思われる。

 

tfidf、tf、idfという関数が一体何なのかがわからない

これは、数学要素を極力排除しようとした結果かと思われるが、そうであればそもそもこの式自体を紹介しない方がよかったのではと思えてしまう。

 

何がどう定式化しているのかがわからない

上のtfidf、tf、idfがよくわからない状態だからのせいもあるけど、どこの記号が定義か前提かもあやふやな状態のため、全体として何が書かれているかがわからない状態に思えた。

 

というわけで書きなおしてみた。

参考にwikipediaをみたところ、wikipediaの記号の使い方の正直気に食わない感じ。
邪推すると、ここを参考に著者が移してしまった結果、こういった記事になってしまったのではないかと。

tf-idf(wikipedia)

さて、書きなおしてみる。

スクリーンショット 2015-09-29 22.55.02

 

そもそも式を載せる必要ってあったのだろうか?

この式自体を書かずに、「TF-IDFっていうのを使ってます」という一文でよかったのではないか、と思っている。

ただし、ちゃんと理解していないためもしかしたら誤解している部分があるかもしれないので、その場合はご指摘いただけると嬉しいです。

この本の他の誤植に関しても以下のスプレッドシートにまとめています。
たまに編集者の方にご報告しています。

データサイエンティスト養成読本誤植

Follow me!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です