検索・抽出・組織化の最近のブログ記事
「Wikipedia 「軸づけ」 検索のインターネット上でのサービスをめざして」 などで予告してきた Wikipedia の試行サービス WASS (Wikipedia Axis-Specified Search) をきょう,開始した.
竹内 正浩 の 「日本の珍地名@Amazon.co.jp」 (文春新書) は,「人間をまどわす地名,コンピュータをまどわす地名,… ― 竹内 正浩 著, 「日本の珍地名」」
という項目に書いたように,区別しにくい地名,まぜこぜの地名,まぼろしの地名など,さまざまな珍地名について書いている.
そのなかでもとくに地名のあいまいさに関する記述は,テキストからの地名抽出をこころみたことがある身にはとくに興味ぶかい.
これから地名抽出や地名検索のプログラムを開発しようとしているひとにはとくに参考になる本だ.
Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.
「メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.
Google (グーグル) の研究者が書いたいくつもの英語の論文を日本語でまとめている. 専門的な内容の論文をできるだけわかりやすく解説している. Google のしくみに興味はあるが原論文を読もうとはおもわないひとにはよい本である. ただし,Google は現在の検索アルゴリズムについてはあきらかにしていないので,どちらかといえば周縁的な内容だということができる. しかし,検索技術だけが Google のすごさでないことはもちろんであり,知るべきことがいろいろ書いてある.
評価: ★★★☆☆
関連リンク:
Googleを支える技術@
,Googleを支える技術@Amazon.co.jp
.
私が以前研究していた 「軸づけ検索」 は,最近はときどきみかける結果を年表のかたちにする検索の一種を実現していた. 検索の単位は文ないしそれより細粒度の単位 (句点のあいだなど) だったが,検索結果を表示するときにはまず文章のタイトルを表示していた. ところが,最近あるひとから,タイトルが先頭ちかくにあるのはじゃまだという意見をきいた. これは目からウロコの意見だった.
2 年前に Windows Vista 用に Shuttle のベアボーン SS30G2 を買ったが,今度は Windows 7 をのせてメモリ上での日本語版 Wikipedia 検索をためすために,搭載メモリが最大で 16 GB の V3-P5G45 というマシンを買った.
特定の出版社に関する本をさがしたいとおもって,適切な方法がないかさがした. つまり,その出版社が出版した本をさがすのでなくて,その出版社について書かれた本をさがすということである. これは,おもったよりずっと困難であることがわかった.
たまたまみた Technorati のページで 「京大開発の 「年表型検索エンジン」、小中学生向けサイトで公開」 という記事をみつけてドキッとした. 「年表検索」 は 「時間軸による検索」 などとともに 「われわれのもの」 だとおもってきたのに,「時間軸」 につづいて,とられてしまったからだ.