「分類」とは何か　～醜いアヒルの子の定理～

突然ですが問題です！

「似ている」とは、「分類する」とはなんでしょう？

問いが抽象的過ぎたので、具体的に問うと「アヒル」「白鳥」「ミサイル」の中で似ているものを客観的に選んで、その理由を考えてみてください。

f:id:cobaltic:20190520231323p:plain

考えましたか？

多分「アヒル」と「白鳥」が一番良く似ているって考えるんじゃあないんでしょうか。

両方とも生きてるし、なんなら生物的な違いも正直良く分からない。

しかしそれは、我々があくまでも「主観」に囚われているからであるということを「醜いアヒルの子の定理」を題材にして示し、その意味を考えていきたいと思います。

醜いアヒルの子の定理の概要
醜いアヒルの子の定理がもたらす意味
醜いアヒルの子の定理の証明
参考文献

醜いアヒルの子の定理の概要

「醜いアヒルの子定理」とは理論物理学者の渡辺慧さんが示したもので、その概要は

任意の異なる二つの概念は、他の任意の異なる二つの概念と同じ度合いの類似度を持っている

最初の例で言うならば「アヒルと白鳥の似ている度合い」と「アヒルとミサイルの似ている度合い」は同じぐらいということ。

「アヒル」と「白鳥」は似ているし、「アヒル」と「ミサイル」は似てないだろ　と思うことでしょうのでこれからどうして「似ている」のかを概略的に説明していきます。

まずは「飛べる」「生き物」という観点で類似度を考えていきましょう。

f:id:cobaltic:20190521175131p:plain

この図で言うと

ミサイルは「飛べる」が「生き物」ではないのでα1に該当し、白鳥は「飛べる」し「生き物」なのでα2に該当し、アヒルは「飛べる」ではないが「生き物」なのでα3に該当します。

f:id:cobaltic:20190521175231p:plain

ここで説明を楽にするために１つ用語を取り入れます。

「分類可能な最小領域」をアトム（集合素）として、類似度の判定はアトムをもちいます。α1～4までのアトムがありますが、そのうちどの一つに該当しているかということを「1位の該当要素」とします。同様に「どの２つのアトムの複合に該当しているか」を「2位の該当要素」とします。

つまり１位の該当要素の候補はα1～4の4つあり、ミサイルの１位の該当要素はα1となります。

２位の該当要素としてはα1とα2の複合領域（α1∪α2）、α1とα3の複合領域（α1∪α3）、α1とα4の複合領域（α1∪α4）の３つです。

というような考え方で該当要素を書き出して共通している部分を持ってして２つの類似度を計測できるというわけです。

というわけで最初の議論に立ち戻り「アヒルと白鳥の類似度」と「アヒルとミサイルの類似度」を比較してみましょう。

以下が、アヒルと白鳥の類似度を調べたものです。

f:id:cobaltic:20190520231013p:plain

2位の共通要素が1つ、3位の共通要素が2つ、4位の共通要素が1つですね。

では続きまして、アヒルとミサイルの類似度を調べてみましょう。

f:id:cobaltic:20190520231032p:plain

2位の共通要素が1つ、3位の共通要素が2つ、4位の共通要素が1つですね。

というわけで「アヒルと白鳥の類似度」と「アヒルとミサイルの類似度」は等しいことが示せました。

そういう例を持ってきただけでしょ？という話ではなくて「醜いアヒルの子の定理」は

任意の異なる二つの概念は、他の任意の異なる二つの概念と同じ度合いの類似度を持っているという定理です。比較する対象が何になろうと、類似度の調査に用いる要素に何を使っても揺るぐことはありません。細かい証明はあとでやることにしてここからはその意義を語っていきたいと思います。

醜いアヒルの子の定理がもたらす意味

これを使えば

「俺と阿部寛」って「阿部寛とローマ人」ぐらい似てる～～

って堂々と言えるようになります。

テルマエ・ロマエ

発売日: 2013/11/26
メディア: Prime Video
この商品を含むブログを見る

いやどう考えても「阿部寛」と「ローマ人」は似てるし、「俺」と「阿部寛」は似てない。

まあそんなことより大事なことは

真に客観的な視点というものは存在せず、主観を排することができない　ですね。

醜いアヒルの子の定理のどこがおかしいって「要素全てを同等に扱っている」ことですよね。日常生活においては「生きている」を「飛べる」より重要視したりする「価値基準」が入り込んでいるわけです。

つまり人間は純粋な論理でいえば本来「分類」は出来ないはずですが、「何が重要であり、何が重要でないか」ということを決定することで、重要な要素を抽出して「分類」ができるということです。

ということは人間は何かを判断するうえでは常に何らかのバイアスに囚われているとも言えるでしょう。むしろその偏りが程々にあるからこそ「意見」というものは有意であるのです。

「分類」をするということは自分が何を重要視しているという世界観の表明に他なりませんです。

裏をかいたことを格言っぽく言うなら

全てを見ようとすることは何もみないことと同じ

でしょうか。

逆に言えば「分類」という営みを通して「何を重視しているか」を知ることが出来ます。

アメリカ人と日本人という分類はどのように行われているのか？とか

自分が就職したいと思った企業と就職したいとは思えなかった企業の分類は？

好きな食べ物と嫌いな食べ物の分類は？

などなど「分類」ないし判断の場面は大小問わず多くあります。

そういった問から自分でも気づけなかった思想の構造を浮かび上がらせることが出来るやもしれません。

そしてこれは思想的側面だけでなく工学的にも非常に有意義な定理です。

この定理が発見される以前は認識と価値を分離したものとして考えていましたが、この定理によって

特徴を抽出することはどの特徴を重視するかを決定することに他ならないと明らかになり、コンピューターの機械学習の進歩にも貢献しています。

この定理により,対象のある側面を重視し他を無視するという主観的規準なくしては,分類などの判断はコンピュータも人間もできない.また,特徴選択や次元削減など,一部の特徴を特に重視する操作が機械学習にとって本質的であることをこの定理は示唆している.

変わりゆく機械学習と変わらない機械学習(https://www.jps.or.jp/books/gakkaishi/2019/01/74-01seriesAIphys2.pdf)より

またこの定理を発見した渡辺彗さんの著書「認識とパタン」のはしがきを最後に添えたいと思います。

一方では、ギリシャ以来の伝統的哲学の中の一つの中心的課題である不変者に関する論争に関連させながら、他方では、最近発達したコンピューターを用いるいわゆるパタン認識という技術がいかに可能になるかという問題を解明したいと思います。（中略）もしも、理科に興味のある読者が、平素小馬鹿にしている哲学にも学ぶべき多くの発想の泉のあることに気づかれ、また、文科に興味のある読者が、新しい科学・技術と交流することにより哲学が生々と若返り得ることに気づかれるならば私は満足です。