<   2013年 04月 ( 1 )   > この月の画像一覧

NOT演算の使い方


前回の記事で、調査の基本とされているらしいことのうちに
「NOT演算は使わない」
というものがあると書きました。なぜ「されているらしい」なのかといえば、それは「IPC/FIでサブクラス以上が異なるもの同士のAND演算をしない」というのと同じく、教科書的にはそう書かれているらしいけれども、私自身がそれを調査の基本という形で認識していないからです。

これは私の予想ですが、「NOT演算は使わない」という「基本」は
「NOT演算の使い方は難しい」
「よって安易に使おうとするべからず」

という流れで広まったものと思われます。

では、なぜNOT演算は難しいのか?

まず、文献データベースにおいてNOT演算子とはどのような演算子なのかをおさらいしてみましょう。単に「除く」ための演算子でしょ?という答えでは、不十分です。「指定された条件(検索条件)を満たすレコードを除く」ための演算子、くらい認識できていればOKです。

ついでにAND演算子は「指定された条件(検索条件)を全て満たすレコード」の集合を作成し、OR演算子は「指定された条件(検索条件)のいずれかを満たすレコード」の集合を作成するものです。

例えば、PATOLISを使って、飴玉に関する特許を検索しようとして
F AAB=(キャンディ+キャンデー)
という式を実行してみたとします。
…思いのほか件数の多い回答集合ができてびっくりしてしまいそうですね。タイトルをざーっと眺めてみると、飴玉には関係なさそうなものがたくさんヒットしているようです。何が起きたというのでしょうか?

ヒット件数の多かった検索式「AAB=(キャンディ+キャンデー)」は、噛み砕くと
「公報の出願人要約データの中に『キャンディ』または『キャンデー』のいずれかの文字列を含むレコードの集合を作成する」
ということになります。

大事なのは「データの中に~文字列を含むレコード」というところ。部分一致検索ですから、
キャンディスク」「キャンデー
などという文字列を含む公報まで取り出してしまうのですね。

ここで、「スキャン」はいらないのよ!と
AAB=(キャンディ+キャンデー) NOT AAB=スキャン
とすると、どうなるでしょう?ノイズはまだありそうなものの、先程よりは飴玉っぽいレコードの割合が増えてきました。

ところが実は、このNOT演算によって、飴玉に関連するレコードでありながら除外されてしまったレコードがあります。それは、「プロポリスキャンディ」や「クリスマスキャンデー」を要約に含むレコードです。

通常、NOT演算を使いたくなるときというのは、「余計なもの、不要なもの」を除きたいときです。NOT演算の結果、集合の件数が減って精読可能件数に近くなったら、よしよし、と満足してしまい、除かれた「余計なもの、不要なもの」の方には目もくれないかもしれません。NOT演算後の集合を精読して、「この集合には飴玉っぽいレコードばっかりだ」という感触を得たなら、なおさらです。検索漏れに気がつく機会を逃してしまいます。

この「調査漏れ」があるからこそ、「NOT演算は使わない」、少なくともその使用を避けるべし、という「基本」が生まれたのではないかなーと考える次第であります。

特許調査において「漏れ」という単語は、通常、ネガティブな印象で語らるものです。しかし、以前、「意図的 or not 意図的?調査の「漏れ」」という記事でも書きましたが、絶対悪ではありません。

「プロポリスキャンディ」や「クリスマスキャンディ」を漏らさないようにアレコレする大変さと、漏れたままにしておいた場合のリスクを秤にかけて
「ざっとどんな特許分類が付与されているか確認するためだから漏れてても気にしない!」
「一応パテントクリアランスも頭において公報を収集するってことになっているから数件とはいっても漏れはマズイな…」
調査の方針を決めればよいだけのことです。

ドンピシャリな公報だけを数件、あるいは1件だけ目を通せればそれでOK、という場合だってあるかもしれません。明細書を書きながら、あるいは翻訳しながら「こんな表現してる明細書ほかにあるかな?」を確認したい場合ですとかね。

あまり使ってもらえていなさそうなNOT演算ですが、テキスト検索以外で活用できる例もあります。

例えばPATOLISで
F AD=>20100401
という検索式を実行すると、2010年4月1日以降に出願された案件の集合ができます。ここで、この集合の中から現時点で審査請求がされている案件を抽出したい場合、どのように検索すればできるでしょうか?

法的状況に関する検索なら生死状態コードを使えば、と思うかもしれませんが、生死状態コードには「審査請求済み」状態を表わすコードが用意されておりません。「P02」は「審査中」を意味するコードですが、審査がサクサク進んですでに登録されている案件には「P13」のコードがつきますので、「P02」で全部を抽出することができません。ならば審査請求後に該当しうる法的状況コードを全てOR演算すれば大丈夫、ではありますが、もしサーチャーのPATOLIS利用環境が従量課金制だった場合、検索に生死状態コードを1つ用いたら45円の課金がされ、P02+P03+P04+P05+…とn個のタームを用いたら45×n円、特許と実用新案と両方調べたらさらに倍、と少々コストが嵩みます。

ところで、法的状況コードには「P01」という「審査請求前」を表わすコードがあります。そうです、ここでNOT演算の出番です。
F AD=>20100401 NOT XO=(P01+P21)
「P21」は「審査無しで消滅」を表わすコードですので、これと「P01」を合わせて集合から除けば、ターム3個分(35円×1+45円×2=125円)の課金で審査請求がされているレコードだけを抽出できます。

生死状態コードが無かった時代(そんな時代もあったのです…(遠い目)は、こんなやり方もしていました。
F AD=>20100401 NOT RED<=yyyymmdd←検索実行日を指定
検索実行日以前の日付が審査請求日として入力されているレコードを除きます。もちろん今でもこの方法でできますし、これなら70円しかかかりません。

さらに、無理矢理NOT演算をしなくても、
F AD=>20100401 AND RED>=20100401
でOKです。こちらも70円。

あれ、やっぱりあんまり使わない…???

NOT演算に限らずですが、テキスト検索はあくまでもその検索語がレコード中に含まれているかいないか、というのがヒットする・しないの全てです。キャンディ、という検索語でヒットするのはキャンディに関する文献ではなく、キャンディという文字列が含まれる文献です。ここが、googleなどのインターネットサーチエンジンと大きく違うところです。googleは非常に賢くて、「キャンディ」と検索語を入力すれば、検索結果にはまず飴玉に関するウェブページが上位に表示され、「スキャンディスク」なんて何十件先を見ても表示されはしないでしょう。しかし、文献データベースは違うのです!

「『キャンディ』の文字列を含むヤツって指定したから、その通りにやっただけよ、気が利かないとか言わないでよね!」
そうです、そういうものだと思って検索式を立てるべきなのです。

F AAB=透明
で検索すると、「不透明」「非透明」「透明でない」という記載を含む公報がヒットします。これらはノイズかもしれませんが、安易にNOT演算を使うと、
「従来は不透明なものしかなかった。しかし本発明によれば透明なナニナニを提供できる」
という記載のある公報が拾えないかも知れません。

NOT演算子に限らず、どの演算子を使う場合も
「この式でヒットする/しないのはどんな記載のある公報か」
を具体的にイメージするのが、演算子を使いこなすカギだと思います。

怖がらずにNOT演算子、使ってみましょう!
[PR]

by hemp-vermilion | 2013-04-02 21:52 | 特許サーチ