2008年12月12日金曜日

記事引用スパム

アフィリエイトのために
グーグルのアドセンスなどで儲けようと
サイトを立ち上げたとする。

別に「お金を儲けよう」と思ってサイトを立ち上げることはスパム行為ではない。
また、アフィリエイトもそれ自体がスパム行為というわけでもない。

「内容もなく沢山に生成すればスパム」
となるが・・・

この「内容のある・なし」という定義があまりにも曖昧なように私はいつも思える。

「オリジナルではなく、引用した記事を内容があるとはいえない」とよく言われる。

それでは下記はどうだろう?

A、ブログを含む、ほかのWebページをそのままコピー(ニュースやWikipediaなど)
B、一部を変えただけの引用ページ(語尾を関西弁に変える一部的なものから段落を入れ替えたりするものまで)
C、ほかのWebページを自分なりに編集したもの
D、ほかのWebページを読んで自分で覚えているままに自分でタイピングして書いたもの


わかり易く言い換えると・・・

Aは記事の100%引用
BもA同様
Cは記事の一部を引用し、内容は100%引用
Dは100%内容を引用していることになる。

要するに結局はすべて引用なのでは?と思う

しかしDは一般に引用とは言わない。

であれば、
あるコンテンツを自分のコンテンツにする過程で何(加工)をしたのかが重要になるのだろうか?

ユーザー(特にスパムのことを知らないユーザー)からすると
上のAだろうが、Bだろうが、Cだろうが、Dだろうが
A-B-C-Dと続けてたくさん見ないのであれば、
どれも「内容のある」ものなのでは?と思う。
もしく逆にどれも「内容のない」ものなのでは?と思う。

別にAがあるからユーザーが満足できないわけではなく
それこそ大部分の一般ユーザーは、
「それがWikiPediaから引用されているからといって何が問題なんだ?」
と思う人もいるだろう。
要するに、「オリジナル」という理由から個人の読みにくい記事が出てくるくらいなら
きちんとした記事の引用を読んだほうがネット初心者(←この表現も曖昧だが・・・)からすると
助かるのでは?と思う。

この「ネット初心者」には私の両親が入るだろう。

彼らは、検索後に開くページはあまり多くない。
それこそ2つか3つくらいで、すぐに次の検索を行う。

求めている情報がすぐに見つかるからか
あきらめがいいのか
単に時間がないだけなのかはわからないが
それほど複数のページを開きはしない。

なのであれば、「引用ページ」と「素人の書いたオリジナル記事」
どちらが有益なのだろうか?

いくつか開いて、それが引用を含め
似たような内容であれば、それらをいくつか見れば信憑性が沸く。

むしろ、ばらばらのオリジナル情報が散在しているほうが
彼らは困るのではないだろうか・・・

だれかがこの記事を引用し加工したとしても
私としては、特にいやな気は起きない。
それこそ、私と同じ意見を持つ人がいるのだと楽観的に考えるだけに思える。


考え出すとキリがない・・・

2008年11月6日木曜日

一人のユーザーとして
「どうすればお金を儲けることができるか?」という疑問から
Yahoo!を使って
「お金を儲ける方法」というクエリ(検索キーワード)で検索を行った。

(2008年11月6日 午後10時半時点で検索)


結果はというと・・・

スパムが半分以上だった・・・


何もしらないユーザーとして見た場合と
スパム探知をしている視点から見た場合とでは
やはり見る視点が違ってしまう

通常、音楽を聴くと多くの人はメロディーや歌詞を中心に聴くが
それがドラマーはドラムのリズムなどに耳が行ってしまうのと同様に
やはり職業病というべきか・・・スパムに目が行ってしまう・・・


ここで、検索結果で出てきたページURLを紹介しようと思う

注)
1つのサポートリンクとしてスパマーにリンクポピュラリティを与えるのもシャクなので
「http://」 は省略してリンクははらない。
カッコ内は検索結果順位。

(1位)
とも子という女性+日本お金学院(なんとも胡散くさい学院名)
create.fromc.com/gakuinokanemoukef.html
そして4位と5位には
イオネット(eoネット)のWebサービスを利用して
同一作成者により作られたと思われるサイト
(4位)www.eonet.ne.jp/~n-create/okanemouke.html
(5位)www.eonet.ne.jp/~junpapa63/gakuinokanemoukehou.html


(2位)
明らかなこずかい目的のスパムブログ
aeyr2468.blog5.fc2.com

(3位)
サイトが消失(Not Found)
www.lifecity.ne.jp/netparfait/secondary/fx/page2.html

(6位)
ゴミ情報商材ページ
minetna.com

(9位)
商材アフィリエイトを紹介するアフィリエイターのお金稼ぎ用ゴミブログ
okane.daa.jp

(10位)
何らかの理由でアカウントが指し止めを食らっているBlog
kanemoukehouhou.7.dtiblog.com
どうせスパムだろうが・・・


で、まともなページはというと・・・

(7位)
http://www.manabiyahonpo.com/cat_2/post_295/

(8位)
ドラゴンクエスト4のQ&Aページ
 http://www.kirafura.com/dq/qa/4-oasobi.html 

というか、8位はユーザーの求める情報でないと思われる。
少なくとも私のほしい情報ではない・・・

なので、結局7番目に出てきたページのみが有益(?)ということになる・・・

やれやれ・・・

まぁ・・・要するに簡単にお金を儲けるのは大変だということだ

2008年10月26日日曜日

終りのない検索市場

ユーザーが検索をかけたときに
「検索エンジンスパムを施したページ」が出るのと
「質の悪いページ」が出るのではどちらがユーザーはがっかりするだろう

答えは「質の悪いページ」だろう

まず検索エンジンスパムを知らないユーザーは情報があればがっかりとはしないだろう
(もちろん、それが質が悪いのであれば駄目だが、それは「質の悪いページ」だ)

別にスパムがいいと言ってるわけではなく
スパム削除だけでは、良い検索エンジンは作れないということだ

検索順位は
人がルールを決めているだけで
人が順位を決めているわけではない
(というより、人が介入すべきではないため)

検索結果に何がでるかは人が決めれるわけではないということは
もちろん変なページが出ることもある

「完璧」がないため「終わり」がない

終わりがないということは
誰が勝つということがないということだ

検索事業において
GoogleやYahoo!が現時点では優勢だというだけで
勝っているということではない。

今年参入した百度や
今後参入する企業も優勢に立つ可能性があり得ると考えている。

ただ、問題はやり方と根気
そして市場とユーザーへの動向に瞬時に対応できる機敏性

これはスパム対策にも当てはまることだが・・・

2008年10月12日日曜日

完全なるアルゴリズム

ふとシャワーを浴びながら思った

「どうすれば検索エンジンスパムをすべて除去できるだろう」 と

実際、「スパムをどうやって見つけ出し除去するか」と考えているうちは
一生、スパマーとのイタチごっこになる。

「どうやってスパムを見つけるか」から
「どうやってスパムが検索にでなくなるか」に考えを変えたとき
「スパムが存在しなくなればいい」という考えが浮かんだ。

ということは、
「完全にスパムを除去でき、さらに検索順位も本来あるべき姿となる完全なるアルゴリズム」が存在したなら
この世に検索エンジンスパムはなくなるだろう

検索結果の順位をだれも操作できないのだから
「検索エンジンへのスパム行為というもの自体が存在しなくなる」ということだ。

完全なる検索アルゴリズム


Googleが先か
Yahoo!が先か

はたまた、その他の検索エンジン開発者が先か

2008年9月14日日曜日

自動生成ブログ

以前スプログで紹介したが
RSS機能を使用したアフィリエイトサイトや
それ以外のソフトウェアを使用し自動的に更新作成され続けるブログたち

検索エンジン各社だけではなく
ブログ提供会社(Yahoo!ブログやSeesaaブログなど)も
自動的に且つ大量に作られるアフィリエイト目的のスパムは削除している

検索エンジンのインデックスからこういったゴミブログを削除しなくてはならない側からすると
こういったブログ提供会社の取り組みは大きな助けとなる
彼らも、意味も無く大量に作られればサーバーに負荷がかかり迷惑極まりないものに変わりは無い

ユーザーも望まず
ブログ提供会社も厄介者扱いし
検索エンジンのインデックスからはゴミにしかならない
こういったスプログ

結局、「こういったブログは検索にひっかかりませんよ」と断言できるようにならない限り
スパマーもこういったブログを止めはしないだろう

実際に、検索結果に出ている現状では
インフォトップなどで販売している情報商材としての
ソフトウェアを販売時の宣伝文句である
「何もせずに儲かる!自動的に生成されるアフィリエイトブログ!」
これも嘘ではない

スパム探知とスパマーのいたちごっこで
探知作業者が勝つには、結局、同様に機械を使い自動探知し
削除していく方法以外に今はないと思う

2008年9月13日土曜日

ブログ検索

スパムとして見るブログをスプログというが
この「スパム」というものの定義がいまいち難しいと思う。

実際の検索エンジンをだますために作られたものだけを指すのであれば
リンクポピュラリティや過度のキーワード詰め込みなどがあげられる。

そうではなく、大量に作られている同じブログや
金儲け目的の情報価値の少ない(または無いに等しい)ブログや
企業の広告目的や、アフィリエイトのために作られたような意味のないものも含めて考えると
どこまでスパムとして見るべきなのかよくわからない。

実際、今の検索エンジン各社を見ても
ブログ検索はまだまだ修正しなければならない部分が多い
たしかにブログ検索自体が始まってそこまで時が経っていないため仕方ないといえば仕方ないが
それでも、ここまでゴミのような情報ばかりが出てきてもいいのか?と思う

先ほど、「ダイエット」を検索語句として検索をかけたところ
検索スパムとまでは行かないが、検索の価値を落とすような記事が
検索結果1ページ目のほとんどを占めていた。
(もちろん検索スパムも含まれていた)

それら多くが企業の広告媒体として活躍(?)しているレビューブロガーたち
または、何らかのアフィリエイト目的のブロガーたちのブログ記事だ。

彼らの書く記事はすべて似たり寄ったり(または全く同じ)のもので
情報としての価値はほとんどないに等しい

今回の「ダイエット」もそうだが
検索をしてユーザーがほしい情報をブログ検索で得られるには
まだまだ時間が必要なのだろう

今後、情報発信の口コミの進化系としてブログの価値が高くなるにつれ
この分野での検索も成功の鍵となると思う

2008年6月22日日曜日

機械生成スプログ

普段こうやって書かれているブログ
(自分の場合、めった書いてないが・・・)

このブログの1つ1つに
ブログユーザーであるブロガーの言葉がある


自分の気持ちを綴った日記的なブログ

アルファーブロガーに代表される有益な情報を含むブログ

それとは逆に、たった1単語や1言のみのブログ

そして中には「か」と一文字だけというものもある



そういったさまざまブログの中で

「スプログ(スパムブログ)」と判断されるブログが数多く存在する。



その1つとして

機械的にソフトウェアを利用した自動生成ブログ記事がある

関連キーワードに対してRSS機能を利用し自動生成される記事たち

見た目にはウェブ上から拾ってきたスクラップ的なブログ記事となる(下記画像)






これらはキーワードの設定後、次々と自動的に生成されるため

記事の新鮮さを重要視するブログ検索において

有益なブログの検索アルゴリズムを歪め

ブログ検索結果に多々登場する

(特に旬なアイドルやアダルト女優やアダルト性の強い検索語)



確かにスパムであることに変わりはなく

検索エンジンに大量に、こういったブログが表示されれば

「よい検索結果」とは言えない



しかし、記事としての情報量の面で見た場合

「1文字だけの正常なブログ」と「機械で作られたキーワード指定自動生成スプログ」

果たして、どちらが有益だといえるだろう・・・



まぁ・・・

1文字のブログが検索結果に上位に表示されることはまずないだろうが・・・

2008年5月1日木曜日

犯罪性の有無

中国がオリンピックのせいか
中国国内で見れるウェブページを拡大した

今まで見れなかったウィキペディアも見れるようになり
何より私のブログが表示されるようになった

日本の有名アダルトサイトが見れるようになるまで
あと少しと言ったところか(笑)
現在の仕事上アダルトサイトが見れないと困るという意味だ



と、まぁ前フリはそれくらいにして
本題に・・・



検索エンジンスパムの研修を新入社員にすると
たまに
「そういう検索結果の表示順位を不正に上げたりする行為は法律上罰することはできないのですか?」
という質問がある。

法律というものを作る国が管理しているものではないため
答えはもちろん「罰せられはしない」なのだが
法律に関連した疑問は探知作業者たちからもよく出る。


探知作業をし
毎日数百のサイト・数千のウェブページを見ていると
「社会的に好ましくないサイト」が出ることがある。
アダルトサイトのことではない


たとえば・・・

・自殺サイト
・爆弾製造サイト(テロ支援サイト)
・児童ポルノサイト
・違法ダウンロードサイト(中国で普通のことだが)


こういったサイトは
現在、検索各社では削除の対象にはなっていないように思える。

児童ポルノなどはアダルトサイトとなるような露出があれば駄目だろうが
基本的に犯罪性の有り無しでは判断していない。


アダルトサイトの面ではというと・・・

アダルトフィルタというものがある「ヤフー」
検索すればポコポコアダルトサイトが検索結果に表示される「グーグル」

アダルトも検索エンジンスパム自体ではないのだが
それを探知・削除するのであれば
確かに犯罪に関係してあるサイトを除去するのも
スパム探知作業員がすべきことではないのか?と思う。

また、少なくとも
その国ごとで犯罪性のあるものは隔離し
Yahoo!のアダルトフィルタなどのように
ユーザーの意思で(または小さな子供というユーザーの親からすれば)
「表示・非表示」ができるようにするのが
今後、必要となるのではないかと思う。

2008年2月17日日曜日

アダルトサイトの変化 ~2~

前回はアダルトサイトの初期の話をした。
今回は近年のサイトを説明しようと思う。

簡単にどう変わったかと言うと

ダイヤルQ2や国際通話を利用した間接的な収入から
クレジットカードなどユーザーからの直接的な収入へと変わり始めた。


と、いうと「急にどうして?」となると思うので説明していこうと思う。


まず、今回も1つ説明前に頭に入れて置いていただきたことがある。

「サイトの運営は基本的にタダではない。」
サーバーなどの管理費や自分を含め時間と人件費というコストがかかる。
そうなると、これを上回る利益を上げることが
サイト管理者の目的となることはわかっていただけると思う。



ではここからが前回の続きとなるのだが

悪事や法に触れるような行為は長くは続かない。
これはすべてに言えることだ。


日々Webサイトが増える中で
アダルトサイトも例外なく爆発的に増えてきた。

以前のように
「数百のアダルトサイトから自分のサイトを見つけてもらい一回でもきてもらえれば」
という考えで適当にサイトを作成・管理していると
数十万・数百万に膨れあがったWebの世界の中から自分のサイトを訪れるユーザー自体がいなくなる。


またユーザーがインターネットの世界へ入る際に最初に行う行為
「検索」というものを提供してきた検索エンジン各社も
単にそういうサイトを野放しにしているわけではなかった。

●有害なサイト

●コンテンツ自体の質が悪いサイト
(もしくはコンテンツ自体が他サイトへのリンクのみなどのサイト)

●検索エンジンスパム行為を行っているサイト
(アダルトキーワードの羅列や隠しテキスト)

検索エンジン各社は、これらのサイトを
ユーザーの目の届かないところ(検索結果の下位表示)へと押しやったり
サイト自体をインデックス(検索結果の表示)から消すという処置を行った。

またユーザー自身も以前のような手法(ダイヤルQ2・国際電話や架空請求)に注意し始め
さらに、これらの要因が拍車をかけ
悪徳(?)アダルトサイトは採算がとれず次第に数を減らしていった。


そんな中、この生存競争に生き残ったのが
ユーザーのサイトへの訪問数(トラフィック)を着実に獲得していったサイトだった。

彼らは、サイト内の質を高めるため
AV制作会社から商品の紹介や販売の一環として
無料でのサンプル画像・サンプル動画の閲覧およびダウンロード許可を得たり
アダルト動画などのコンテンツを自社製作したりしてコンテンツの充実を図り
ユーザーの求める(有益な)情報を提供した。

またユーザーのためのサイト作りや
クリーンなイメージ(と言ってもアダルトサイトだが)のサイト作りなど
一般のサイト管理者(ウェブマスター)同様に質と見た目にも注意払い始めた。

それに伴い
ユーザーも安心して見れるサイトとして


「もっと見たい」
   ↓
「ブックマーク(お気に入り登録)」や
「会員登録」


その後、さらに信用が出来るサイトとわかると
ユーザーはさらに多くのコンテンツと交換に
クレジットカードを入力するほどにまでなるようになった。



まとめると・・・

昔と違い
まずユーザーの目にとまり
その後、サイトを訪れたのち
ユーザーが安心できるサイト作りと
ユーザーの求めるコンテンツを提供すること

アダルトサイトを運営していくために重要となったと言える。



最後に補足となるが

実際、動画が主流となってきた今
サイトが有名になればなるほど
画像サーバーおよびHTMLサーバー以外に
動画を置いておくサーバーが必要となり
合計で10台以上のサーバーを管理しているアダルトサイトもある。
そうなると、管理費は数十万・数百万ともなりバカにならず
一過性の利益ではやっていけないというのも理解していただけると思う。

2008年2月16日土曜日

アダルトサイトの変化 ~1~

検索エンジンスパムとは少し離れるが

今回から2度に分けて
アダルトサイトの変化を少し書いて行こうと思う。

考えればわかることであるが、
最初に1つだけ前ふりをしておきたいことがある。

それは
「アダルトサイト運営を慈善事業としてやっているサイト管理者は
(一部を除いて)ほぼ100%いない」

ということだ。

そのことを、最初にきちんと理解してもらった上で話をしようと思う。



まず、一昔前(と、言ってもまだ数年前のことだが)
特にダイアルアップやISDNが主流だったころ
アダルトサイトの収入源はダイヤルQ2や海外プロバイダーなど有料ダイヤル回線からの収入だった。

そのため、サイトへ入ると同時にダイヤルQ2へ自動的に繋がったり
高額な国際電話回線に繋がったりしていた。(下図)





サイト内をみているうちに
「これより先は国際電話通話代がかかります」などが出れば
そこから先はユーザーも納得の上でサービスを受けることとなる。


しかし
何の説明なかったり、「サイト入り口」や「18歳以上です」をクリックしたと同時に
Q2に接続されたり、海外のプロバイダーに接続されたりということが起こるようになった。

ひどい場合は何らかの接続ソフトをダウンロードさせられ
一度接続するとそれ以降のインターネット接続は
すべて自動的に有料回線を通し閲覧することになるということもあった。

それにより
使った覚えのないダイヤルQ2や国際通話の請求や
それに便乗するように架空請求などが発生し
世間をにぎわせた。
(実際、私も中学時代に、こっそり見たアダルトサイトのせいでQ2請求がきたことを覚えている・・・)

この背景には
インターネットの世界における検索エンジンの重要視されていない時代
サイト管理者にとって検索結果上位に表示されようが、されまいが特に関係なく
そのため、
どれだけ質のよいコンテンツ(画像など)を用意するかではなく
どうやって稼ぐか、悪く言えばどうやって騙すか
を目的として
サイト作りをしていたように思えるものも少なくなかった。

なんせ、一度「接続ソフト」をダウンロードさせれば
後はサイトに来てもらう必要はないのだから。

2008年2月10日日曜日

中国のネット検閲

実はこのBlogSpot
中国ではネット検閲のため中国国内では閲覧ができない。

このほかにもWikipediaや現在ではTeacupなども閲覧できない。

プロキシサーバーを国外のものに変えることで
ここ大連でも見ているが
自分の書いた記事を書いた本人が見れないというのは変な気分だ。

この検閲
有名アダルトサイトは
大手(Punyu2Munyuやカリビアンコムなど)を含み
多くがシャットアウトされている。

もちろん、スパム探知作業にはアダルトサイトも含まれる。

が、しかし

「アダルトサイト=スパムサイト」

というわけではない。
(現にGoogleでは検索キーワードとアダルトの関連性が無い場合
アダルト関係のサイトは上位には表示されにくい。が、一応、検索結果には表示される)

なのでスパムとして削除するのではなく
Yahoo!のしている「アダルトフィルターOn/Off」のように
先に分類だけしておくと今後ユーザーの権限で
検索にアダルトサイトを含めた検索表示かそうでないかをできるようにするためだ。

アダルトサイトは正常なサイトだとは確かに言いがたい。
なぜなら「教育上問題のあるサイト」という位置づけが出来るからだ。

またアダルトサイトを使用したユーザーにはわかると思うが
実際のサイトに入るまで(「入り口」を見つけるまで)に
数多くのバナーやリンクが貼られていることがわかると思う。

結局、アダルトが駄目なのではなく
サイト自体にスパム行為をしているサイトが多いのだ。

日々、多くのアダルトサイトを見ていると
Sexビジネスがこれほどまでに日本のネットの世界で大きな割合を占めているのだと
目に見てわかるようになる。

これからも日々増えていくのだろうと思うと
私は男だが素直に喜べない・・・

2008年2月7日木曜日

スパム探知作業員とは

検索エンジンのもつ検索順位アルゴリズムを知ることにより
それに適したサイトおよびページを作りだすことが可能となる。

今年、日本でもSEO(検索エンジン最適化)業者が増えている背景には
それだけ検索エンジンというものがインターネットの世界で大きな力を持っていることに他ならない。

そのため、最適化されたページと
何も知らずに作られたページとでは
やはり検索結果の表示順位に大きな違いが現れる。

TOEICなど試験と同じく
攻略法をまず知ることがランクアップの近道なる。
それ自体、まったく悪いことではない。

その点を考えると
SEO業者に頼みソース等を変えて
ロボットが読みやすいように変えるのは理にかなっている。
また逆に検索ロボットにやさしいページともなる。

しかし

スパムと呼ばれる違反行為をし
(TOEICで例えるならば、カンニングをして)
検索結果の順位をあげることには、もちろん問題がある。

そういったサイトおよびページを探し出し
それらを本来あるべき位置(順位)に戻したり
またはインデックスから消し去る(試験で言えば受験資格の取消にあたる)処置をする。

日々進化を繰り返す数々のスパムや
検索結果に必要ないサイトたち

それに対抗して
その都度、進化しなくてはならないスパム探知ロボットと
ロボットに教え込ますためのデータ(教材)を与える探知作業員たち

ロボットと作業員の成長が
ユーザーへ、公平でより良い検索結果を提供できるのだと信じている。

また、これがネット上の掃除屋、スパム探知作業員のあるべき姿だと思う。