«前の日(01-31) 最新 次の日(02-02)» 追記

ema log


2006年02月01日 この日を編集

_ [最近] U先生最終授業について

一昨日は色々書こうとした後にそれを破棄したわけですが、やっぱり1つだけ。

ご自身の研究を振り返っておられた中で、コンピュータによる識別と熟練者による識別の精度を比較した話がありました。それは、「コンピュータによる識別率単体ではクレームがきやすく、(尺度となる)熟練者の識別率があって初めて評価されやすくなった」という雰囲気の話でした(若干記憶が曖昧)。

また、新しい認証システムを導入すると従来人間がやっていたのに比べて、不正なものを正常と見なしてしまう致命的な誤り率を下げることが可能だが、完全自動化してしまうと「人間の犯したミス」よりも「機械の犯したミス」に対する風当たりが強く、確率的には誤り率を下げられたにもかかわらず導入がためらわれていた。というような話もありました(かなり曖昧・・・)。

これは当たり前っつたら当たり前で、何も単純に「比較対象を用意せよ」というだけの寓話ではないでしょう。人間は相対的にしか物事を評価できない、そのくせしばしば定量的な基準を伴わずに主観・感情のみでーーーさらにひどい場合一方のシステムのみ、あるいは1つの側面のみを観てーーー比較しようとする事がある。というような話かなぁとか思いつつ聴いていました。このことが原因となる対立の構図は後を絶ちません。

あまり良いたとえが思いつかなかったのですが・・・例えば、Web でメールアドレスを表に出す場合、(クローラ対策で)未だに @ を別の文字にしていたり、画像にしていたりと偽装するのを少なからず見受けます。それで本当にスパムがこないのだろうか?手動でスパムを判別・削除しているのだろうか?と人ごとながらに心配してしまいます。別に人ごとなので知ったこっちゃないのですけど。

この場合、スパムではない正常なメールをスパムとして認識されてしまう場合が致命的な問題になりますが、人間の目で大量のメールから選び出す場合とスパムフィルタで自動化する場合、現在では後者が99%以上の識別率を実現している以上、単純な人手による識別でこれを上回れる人は少数派でしょう。

POPFile *1などのメーラを乗り換えることなく利用できるフィルタリングソフトもありますし、スパムフィルタの導入は容易になっています。ISP によってはサーバ側で処理してくれるものもあります。例えば携帯各社では導入済みで、大きくユーザのスパム受信量が改善されています。最近開発されたソフトや Web ベースのメールサービスではスパムフィルタは既に標準でしょう。

ただし、導入直後に1度でも「致命的な問題に遭遇してしまった」場合に反射的に「そのシステムが致命的な欠陥を抱えている」かのように感じてしまうことは少なくありません。事実、私もスパムフィルタを止めかけたことがあります。私はあまり英文のメールを受け取る機会が無く、たまたま英語のメールが来た際にサンプルの不足からスパムとして識別されてしまったり(これは今でも心配になることがあります。杞憂ですがwww)、(宣伝も通知も一緒くたになっている)Amazon からのメールなんかは良くスパムになります。過信はいけません(笑

ただし、スパムフィルタが99%以上の識別率を実現している手前「80:20の法則」どころの話ではなく、私の見解としては「メールアドレスを偽装することは有効性があるのだろうか?」という結論に至っています。全体の1%にも満たない部分を最適化しているようにしか見えないのです。

もちろん、「契約や金銭の授受が必要なメールを受け取らない」から可能な運用なのですが、そもそもそのような重要なものに対してはメールアドレスを分ければ良いだけの話です。もちろん、人によってはそれぞれの理由もあるでしょう。この例えは、私が現時点で偽装の必要を感じていないというだけの話に過ぎませんし、識別率というひとつの側面でしか議論していません。

余談が長くなりました。もちろん、定量的に判断できないものもあります。ただ、できるだけ予断で判断せず、中長期的な視点で、実際にそれらに触れた上で物事を見れるよう努力しようと思っています。結局、試行錯誤しか無いんだろうと。

………ごめんなさい、あまりまとまっていません。

*1 POPFile は単純にスパムフィルタのみならず、より能動的な振り分けにも用いることができますが、私は振り分けベースではなく検索ベースへの移行を願っている立場であるために、ここでは単純にスパムフィルタとして扱っています。恐らくスパムに関しては将来的にもメール全体に占める比重が大きい以上、個別に対処せざるを得ないでしょう。

_ [最近][ネタ] VIP度チェック

誰か解説してください(笑

47 ブーンでしたけど、最初の方の数個しか設問を理解できませんでした。

本日のツッコミ(全5件) [ツッコミを入れる]

Before...

_ ema@低クオリティ [ちょwwwおまえらwww 「Q10.うはwwwwwっうぇうぇをk?」。特になんなんか知りたい謎さなんで教えてくださ..]

_ AKS [何気に71ブーンでした]

_ ema [上二人はともかく・・・ちょっと意外だ(笑 あの設問で、わかるものなのかーー]


2007年02月01日 この日を編集

_ [最近] トリプルパンチ

今日のトリプルパンチ(内輪ネタ)は

  1. 鶴橋で奈良行き普通に乗って、布施で急行に乗り換え。目の前を走り去る快速急行
  2. 西大寺で奈良行き普通に乗って、奈良で折り返し。
  3. 研究室のサーバがありゃりゃりゃなことに

いやはや、忙しさにかまけて管理が適当だといかんですね。

研究室で使ってる PC の OS は WindowsXP Home なのですが、Guest を切り忘れていたか、切り損ねていたらしくえらいことになりかけてた予感。気をつけないとなぁ・・・

本日のツッコミ(全2件) [ツッコミを入れる]

_ みかん [布施は快速止まらんからなwww]

_ ema [ほんま泣いたわ・・・]


2008年02月01日 アンカテ - 自分の経験の枠組みは自分で変えられるか? この日を編集

_ [最近][Programming] 自分の経験の枠組みは自分で変えられるか? [アンカテ]

まつもとゆきひろ氏の PHP 批判記事の紹介から始まった炎上に関連して出てきた、良いまとめ&考察エントリ*1

最後に書かれている、

そういう考え方を巡る対立って、この問題に限らずあっちこっちにあるような気がする。「変えられる派」が「変えようよ」と言うと、「変えられない派」は「変えることができる人は例外であってそういう人を規準にしたりするな自分たちと同列に置くな」と言って怒る、そういうパターン。

[自分の経験の枠組みは自分で変えられるか?より引用]

ってのは「なるほどな」と感じた。

「あの人は僕とは別世界の住人なんだ」という自重/萎縮の有無みたいな感じでしょうか。後、一概にそれが良いとか悪いとかそういう話ではないと思います。空回りしちゃうと駄目だもんなぁ*2

僕は最初、なんで炎上してるのかが全く分からなかった。是非、関連エントリを読まれていてはいかがでしょうか。


余談ですが、僕の経験上、色々なものに手を出した方が結果的にトータルでの理解は早まるように思います。でも、何かを手っ取り早く表に出す*3ためには、なにかに集中して力業の方がたぶん早い。できあがるものの質は後者の方が良くないことが多いようには感じます。たとえば、一夜漬けのレポート。

Haskell / OCaml / Scheme とか本を読んだだけでコードを書いてない。それでも、得たものはあるし*4、結局はバランス。ダムに水を溜める期間と、放出する期間?いや、金鉱を探す期間と、生産する期間の方がイメージが近い?掘り当てたら一気に進むし。

*1 アンカテは時折リンクを張りたくなります

*2 駄目というか、誰の得にもなりにくい?空気を読めないというのとはちょっと違う。空気を勝手に決めつけて盲目になると駄目?。上手く説明できない

*3 PHP って「とにかく手っ取り早く、ものを出せればそれで良いんだ」ってのを見かけやすいイメージ。端から見てても、ライブラリに落とし穴が多そうで怖いんだけどなぁ。「C++ 使うには Effective C++ 読め」みたいな怖さ。偏見?一回触ってみないとなぁ。

*4 Ruby で Enumerable 使えるようになったりとか


2009年02月01日 この日を編集

_ [最近]電源交換

400W か 450W か控えてこなかったので、500W のモデルを選択。ツクモの店員さんの薦めで、ANTEC NeoPower 500にしました。前の電源は2006年のものなのですが、結構変わるものですね。ファンがへたってきてたりしてたのかもしれません。

電源の交換作業は思ったより、面倒だった・・・5 inch ベイのDVD外さないと取り外せなかったり、はめ込むのに一苦労したりでした。何はともあれ直って良かった・・・

後、1T の HGST の HDD が 8000 円を割っていたので購入。OSごと入れ替えようと思います。実家に250GBのHDDが転がっていたのですが、これって壊れてたんだっけ??という感じですが、確か、使えたと思うんです。ジャンク扱いで良ければどなたかいりませんか?後で、物理フォーマットはしてみます。