徒然日記

徒然なるままに書いていきます 固めのものからゆるい日常まで書きたいものを

「分類」とは何か ~醜いアヒルの子の定理~

突然ですが問題です!

 「似ている」とは、「分類する」とはなんでしょう?

問いが抽象的過ぎたので、具体的に問うと「アヒル」「白鳥」「ミサイル」の中で似ているものを客観的に選んで、その理由を考えてみてください。

 

 

f:id:cobaltic:20190520231323p:plain

 

 

 考えましたか? 

多分「アヒル」と「白鳥」が一番良く似ているって考えるんじゃあないんでしょうか。

両方とも生きてるし、なんなら生物的な違いも正直良く分からない。

しかしそれは、我々があくまでも「主観」に囚われているからであるということを「醜いアヒルの子の定理」を題材にして示し、その意味を考えていきたいと思います。

 

 

 

醜いアヒルの子の定理の概要

醜いアヒルの子定理」とは理論物理学者の渡辺慧さんが示したもので、その概要は

任意の異なる二つの概念は、他の任意の異なる二つの概念と同じ度合いの類似度を持っている

 

最初の例で言うならば「アヒルと白鳥の似ている度合い」と「アヒルとミサイルの似ている度合い」は同じぐらいということ。

「アヒル」と「白鳥」は似ているし、「アヒル」と「ミサイル」は似てないだろ と思うことでしょうのでこれからどうして「似ている」のかを概略的に説明していきます。

 

 まずは「飛べる」「生き物」という観点で類似度を考えていきましょう。

f:id:cobaltic:20190521175131p:plain

 この図で言うと

ミサイルは「飛べる」が「生き物」ではないのでα1に該当し、白鳥は「飛べる」し「生き物」なのでα2に該当し、アヒルは「飛べる」ではないが「生き物」なのでα3に該当します。

 

f:id:cobaltic:20190521175231p:plain

 

ここで説明を楽にするために1つ用語を取り入れます。

  「分類可能な最小領域」をアトム(集合素)として、類似度の判定はアトムをもちいます。α1~4までのアトムがありますが、そのうちどの一つに該当しているかということを「1位の該当要素」とします。同様に「どの2つのアトムの複合に該当しているか」を「2位の該当要素」とします。

つまり1位の該当要素の候補はα1~4の4つあり、ミサイルの1位の該当要素はα1となります。

2位の該当要素としてはα1とα2の複合領域(α1α2)、α1とα3の複合領域(α1α3)、α1とα4の複合領域(α1α4)の3つです。

というような考え方で該当要素を書き出して共通している部分を持ってして2つの類似度を計測できるというわけです。

 

というわけで最初の議論に立ち戻り「アヒルと白鳥の類似度」と「アヒルとミサイルの類似度」を比較してみましょう。

 

以下が、アヒルと白鳥の類似度を調べたものです。

  

f:id:cobaltic:20190520231013p:plain

2位の共通要素が1つ、3位の共通要素が2つ、4位の共通要素が1つですね。

 

 では続きまして、ヒルとミサイルの類似度を調べてみましょう。

 

f:id:cobaltic:20190520231032p:plain

2位の共通要素が1つ、3位の共通要素が2つ、4位の共通要素が1つですね。

 

 というわけで「アヒルと白鳥の類似度」と「アヒルとミサイルの類似度」は等しいことが示せました。

そういう例を持ってきただけでしょ?という話ではなくて「醜いアヒルの子の定理」は

任意の異なる二つの概念は、他の任意の異なる二つの概念と同じ度合いの類似度を持っているという定理です。比較する対象が何になろうと、類似度の調査に用いる要素に何を使っても揺るぐことはありません。細かい証明はあとでやることにしてここからはその意義を語っていきたいと思います。

 

醜いアヒルの子の定理がもたらす意味

 これを使えば

「俺と阿部寛」って「阿部寛とローマ人」ぐらい似てる~~

って堂々と言えるようになります。

 

テルマエ・ロマエ

テルマエ・ロマエ

 

いやどう考えても「阿部寛」と「ローマ人」は似てるし、「俺」と「阿部寛」は似てない。 

 

まあそんなことより大事なことは

真に客観的な視点というものは存在せず、主観を排することができない ですね。

醜いアヒルの子の定理のどこがおかしいって「要素全てを同等に扱っている」ことですよね。日常生活においては「生きている」を「飛べる」より重要視したりする「価値基準」が入り込んでいるわけです。

つまり人間は純粋な論理でいえば本来「分類」は出来ないはずですが、「何が重要であり、何が重要でないか」ということを決定することで、重要な要素を抽出して「分類」ができるということです。

ということは人間は何かを判断するうえでは常に何らかのバイアスに囚われているとも言えるでしょう。むしろその偏りが程々にあるからこそ「意見」というものは有意であるのです。

「分類」をするということは自分が何を重要視しているという世界観の表明に他なりませんです。

裏をかいたことを格言っぽく言うなら

全てを見ようとすることは何もみないことと同じ

でしょうか。

 

逆に言えば「分類」という営みを通して「何を重視しているか」を知ることが出来ます。

アメリカ人と日本人という分類はどのように行われているのか?とか

自分が就職したいと思った企業と就職したいとは思えなかった企業の分類は?

好きな食べ物と嫌いな食べ物の分類は?

 

などなど「分類」ないし判断の場面は大小問わず多くあります。

そういった問から自分でも気づけなかった思想の構造を浮かび上がらせることが出来るやもしれません。

 

そしてこれは思想的側面だけでなく工学的にも非常に有意義な定理です。

この定理が発見される以前は認識と価値を分離したものとして考えていましたが、この定理によって

特徴を抽出することはどの特徴を重視するかを決定することに他ならないと明らかになり、コンピューターの機械学習の進歩にも貢献しています。

この定理により,対象のある側面を重視し他を無視する という主観的規準なくしては,分類などの判断はコンピュータも人間もできない.また,特徴選択や次元削減など,一部の特徴を特に重視する操作が機械学習にとって本質的であることをこの定理は示唆している.

変わりゆく機械学習と変わらない機械学習(https://www.jps.or.jp/books/gakkaishi/2019/01/74-01seriesAIphys2.pdf)より

 

またこの定理を発見した渡辺彗さんの著書「認識とパタン」のはしがきを最後に添えたいと思います。

一方では、ギリシャ以来の伝統的哲学の中の一つの中心的課題である不変者に関する論争に関連させながら、他方では、最近発達したコンピューターを用いるいわゆるパタン認識という技術がいかに可能になるかという問題を解明したいと思います。(中略)もしも、理科に興味のある読者が、平素小馬鹿にしている哲学にも学ぶべき多くの発想の泉のあることに気づかれ、また、文科に興味のある読者が、新しい科学・技術と交流することにより哲学が生々と若返り得ることに気づかれるならば私は満足です。

 

 

醜いアヒルの子の定理の証明

 細かい計算は飛ばしますが、証明のアウトラインだけを示していきます。(詳しく知りたい人は参考文献を参照)

 

今回の例では分類に用いる要素として「生き物」と「飛べる」を用いましたが、もう一つ勘案してみましょう。なんでもいいです。「阿部寛が好き」でもいいんです。

f:id:cobaltic:20190521090840j:image

 するとアトムは8個になります。このように分類に用いる要素(factor)をfとするとアトムnの個数は2^fとなります。

 

ここで1位のアトムが異なる場合を考えます。片方の1位のアトムをαxもう片方をαyとでもしましょう。

当然1位の共通要素はありません。

2位の共通要素はαxαy の1つですね。

3位の共通要素はαx・αy以外の中から1つ選んでαx∪αy∪選んだ1つ とすればいいのでアトムが全部でn個あるとしたらnー2個だけありますね。

組み合わせで言えば

f:id:cobaltic:20190521174259p:plain

4位の共通要素はαx∪αy∪選んだ1つ に加えてさらに1つ選べばいいので組み合わせの数は 

f:id:cobaltic:20190521174319p:plain

というようにやっていくと以下のような式が成り立ちます

 

f:id:cobaltic:20190521094653p:plain

 

したがってn個のアトムがある時、共通要素は2^n-2 になるということです。

 

 今回の例において簡単にするために二つでしか分類していなかったけれど、「飛べる生き物」なんてものは蝶も蝉もいるわけでそれらを区別するには多くのアトムが必要になります。そして同語反復的ではありますが

区別できる=1位のアトムが異なる なので必ず

区別できている任意の2つの概念の類似度は2^n-2 となるという訳です。

 

我々はこの世界にある多くの物体・概念を膨大な分類要素をもって区別していますが、分類要素の重要性をすべて同一視するとそもそも分類なんてものは不可能になる ということです。

 結果として

任意の異なる二つの概念は、他の任意の異なる二つの概念と同じ度合いの類似度を持っている

などという一見間違っている定理が成り立つのです。

 

参考文献

ポケット図解 構造主義がよ~くわかる本 (Shuwasystem Beginner’s Guide Book)

ポケット図解 構造主義がよ~くわかる本 (Shuwasystem Beginner’s Guide Book)

 

 今回の定理が示したことをことを拡大すると人間は無意識のうちに持っている「構造」のようなものがあり、思考は常に社会制度や文化などの「構造」に囚われているということです。この考えが構造主義の基礎です。そこの部分を更に深めたいときにお勧めの本。醜いアヒルの子の定理もこの本で知りました。

 

 

認識とパタン (1978年) (岩波新書)

認識とパタン (1978年) (岩波新書)

 

 醜いアヒルの子の定理を発見した渡辺慧さんの本。

分類のより理論的な部分を知りたい方にお勧めの本です。発売日の通り内容としては現代では基礎となっている部分です。