«前の日記(2006年01月31日) 最新 次の日記(2006年02月03日)» 編集

ema log


2006年02月01日 [長年日記]

_ [最近] U先生最終授業について

一昨日は色々書こうとした後にそれを破棄したわけですが、やっぱり1つだけ。

ご自身の研究を振り返っておられた中で、コンピュータによる識別と熟練者による識別の精度を比較した話がありました。それは、「コンピュータによる識別率単体ではクレームがきやすく、(尺度となる)熟練者の識別率があって初めて評価されやすくなった」という雰囲気の話でした(若干記憶が曖昧)。

また、新しい認証システムを導入すると従来人間がやっていたのに比べて、不正なものを正常と見なしてしまう致命的な誤り率を下げることが可能だが、完全自動化してしまうと「人間の犯したミス」よりも「機械の犯したミス」に対する風当たりが強く、確率的には誤り率を下げられたにもかかわらず導入がためらわれていた。というような話もありました(かなり曖昧・・・)。

これは当たり前っつたら当たり前で、何も単純に「比較対象を用意せよ」というだけの寓話ではないでしょう。人間は相対的にしか物事を評価できない、そのくせしばしば定量的な基準を伴わずに主観・感情のみでーーーさらにひどい場合一方のシステムのみ、あるいは1つの側面のみを観てーーー比較しようとする事がある。というような話かなぁとか思いつつ聴いていました。このことが原因となる対立の構図は後を絶ちません。

あまり良いたとえが思いつかなかったのですが・・・例えば、Web でメールアドレスを表に出す場合、(クローラ対策で)未だに @ を別の文字にしていたり、画像にしていたりと偽装するのを少なからず見受けます。それで本当にスパムがこないのだろうか?手動でスパムを判別・削除しているのだろうか?と人ごとながらに心配してしまいます。別に人ごとなので知ったこっちゃないのですけど。

この場合、スパムではない正常なメールをスパムとして認識されてしまう場合が致命的な問題になりますが、人間の目で大量のメールから選び出す場合とスパムフィルタで自動化する場合、現在では後者が99%以上の識別率を実現している以上、単純な人手による識別でこれを上回れる人は少数派でしょう。

POPFile *1などのメーラを乗り換えることなく利用できるフィルタリングソフトもありますし、スパムフィルタの導入は容易になっています。ISP によってはサーバ側で処理してくれるものもあります。例えば携帯各社では導入済みで、大きくユーザのスパム受信量が改善されています。最近開発されたソフトや Web ベースのメールサービスではスパムフィルタは既に標準でしょう。

ただし、導入直後に1度でも「致命的な問題に遭遇してしまった」場合に反射的に「そのシステムが致命的な欠陥を抱えている」かのように感じてしまうことは少なくありません。事実、私もスパムフィルタを止めかけたことがあります。私はあまり英文のメールを受け取る機会が無く、たまたま英語のメールが来た際にサンプルの不足からスパムとして識別されてしまったり(これは今でも心配になることがあります。杞憂ですがwww)、(宣伝も通知も一緒くたになっている)Amazon からのメールなんかは良くスパムになります。過信はいけません(笑

ただし、スパムフィルタが99%以上の識別率を実現している手前「80:20の法則」どころの話ではなく、私の見解としては「メールアドレスを偽装することは有効性があるのだろうか?」という結論に至っています。全体の1%にも満たない部分を最適化しているようにしか見えないのです。

もちろん、「契約や金銭の授受が必要なメールを受け取らない」から可能な運用なのですが、そもそもそのような重要なものに対してはメールアドレスを分ければ良いだけの話です。もちろん、人によってはそれぞれの理由もあるでしょう。この例えは、私が現時点で偽装の必要を感じていないというだけの話に過ぎませんし、識別率というひとつの側面でしか議論していません。

余談が長くなりました。もちろん、定量的に判断できないものもあります。ただ、できるだけ予断で判断せず、中長期的な視点で、実際にそれらに触れた上で物事を見れるよう努力しようと思っています。結局、試行錯誤しか無いんだろうと。

………ごめんなさい、あまりまとまっていません。

*1 POPFile は単純にスパムフィルタのみならず、より能動的な振り分けにも用いることができますが、私は振り分けベースではなく検索ベースへの移行を願っている立場であるために、ここでは単純にスパムフィルタとして扱っています。恐らくスパムに関しては将来的にもメール全体に占める比重が大きい以上、個別に対処せざるを得ないでしょう。

_ [最近][ネタ] VIP度チェック

誰か解説してください(笑

47 ブーンでしたけど、最初の方の数個しか設問を理解できませんでした。

本日のツッコミ(全5件) [ツッコミを入れる]
_ Hiroshi (2006年02月01日 16:07)

64ブーンだったorz

_ KZ (2006年02月01日 16:31)

72ブーンだった。解説……全部感覚だよwwww

_ ema@低クオリティ (2006年02月01日 16:36)

ちょwwwおまえらwww<br><br>「Q10.うはwwwwwっうぇうぇをk?」。特になんなんか知りたい謎さなんで教えてくださいw<br><br>正直、楽天みかんすら知りませんでした。アカウント作ったんだけどなぁ(笑

_ AKS (2006年02月02日 18:04)

何気に71ブーンでした

_ ema (2006年02月03日 14:24)

上二人はともかく・・・ちょっと意外だ(笑<br><br>あの設問で、わかるものなのかーー