Tug-Of-War Bombe: Making Socially-Maximum Decision using the Tug-Of-War Principle

6
綱引きボムベ:綱引き原理による全体最適意思決定器 金 成主 青野真士 †† ,††† 独立行政法人 物質・材料研究機構 国際ナノアーキテクトニクス研究拠点 305–0044 茨城県つくば市並木 1–1 †† 東京工業大学 地球生命研究所 152–8550 東京都目黒区大岡山 2–12–1–IE–1 ††† 独立行政法人 科学技術振興機構 さきがけ 332–0012 埼玉県川口市本町 4–1–8 E-mail: [email protected] あらまし コグニティブ MAC(Medium Access Control) において想定される状況は、「競争的バンディット問題」と して数学的に定式化できる [1], [2]。我々は先行研究において、バンディット問題を解く「綱引きモデル」という高効 率な並列探索アルゴリズムを開発し [3][10]、これをもとに新しいコグニティブ MAC 方式を提案した [11][14]。そ こでは「作用・反作用則」と我々が呼ぶ、ユーザ間の直接的な相互作用を導入することで、利己的戦略の帰結である 「ナッシュ均衡」を避け、全体最適解の導出が可能となった [14]。本研究では、「綱引き原理」を「ユーザ内意思決定」 と「ユーザ間相互作用」に適用することで、複数のシリンダ内の二種類の流体ダイナミクスにより、全体最適解のチャ ネル割当てを集中制御方式で計算する「全体最適意思決定器」を構築できることを示す。この装置を使うことで、指 数関数的資源を要する評価値の計算を流体の物理プロセスに委ね、毎時刻ユーザ数 M 回の操作(シリンダ内の流体界 面の上下運動)を繰り返すだけで、全体最適な割当てが導出されることがわかった。 キーワード コグニティブ無線、多本腕バンディット問題、自然計算、意思決定 Tug-Of-War Bombe: Making Socially-Maximum Decision using the Tug-Of-War Principle Song-Ju KIM and Masashi AONO †† ,††† WPI Center for Materials Nanoarchitectonics (MANA), National Institute for Materials Science (NIMS) 1–1 Namiki, Tsukuba, Ibaraki 305–0044, Japan †† Earth-Life Science Institute, Tokyo Institute of Technology 2–12–1 Ookayama, Meguro-ku, Tokyo 152–8550, Japan ††† PRESTO, Japan Science and Technology Agency 4–1–8 Honcho, Kawaguchi-shi, Saitama 332–0012, Japan E-mail: [email protected] Abstract “The cognitive medium access”, which refers to multiuser channel allocations in cognitive radio, can be interpreted as “competitive multi-armed bandit problem (CBP) [1], [2].” Unlike the normal multi-armed bandit problem, the reward (free channel) probability of a channel selected by more than one user is evenly split between selecting users. In the previous study, we proposed the “liquid-type TOW model (LTOW)” for the CBP toward developing cognitive medium access protocols in a decentralized manner, and showed that the users achieve the “social maximum”, which is the most desirable state to obtain the maximum total score, with avoiding the Nash equilibria by using a direct interaction between users called “the action-reaction law”[14]. In this study, we show that “the-social-maximum-decision-maker” can be constructed by implementing the direct interaction between users to tug-of-war of another liquid. Owing to this equipment, we can automatically achieve social maximum allocations in cognitive radio without exponential calculations for evaluation values. Key words cognitive radio, multi-armed bandit problem, natural computing, decision making

Transcript of Tug-Of-War Bombe: Making Socially-Maximum Decision using the Tug-Of-War Principle

綱引きボムベ:綱引き原理による全体最適意思決定器金 成主† 青野真士††,†††

† 独立行政法人 物質・材料研究機構 国際ナノアーキテクトニクス研究拠点〒 305–0044茨城県つくば市並木 1–1

†† 東京工業大学 地球生命研究所〒 152–8550東京都目黒区大岡山 2–12–1–IE–1

††† 独立行政法人 科学技術振興機構 さきがけ〒 332–0012埼玉県川口市本町 4–1–8

E-mail: †[email protected]

あらまし コグニティブMAC(Medium Access Control)において想定される状況は、「競争的バンディット問題」として数学的に定式化できる [1], [2]。我々は先行研究において、バンディット問題を解く「綱引きモデル」という高効率な並列探索アルゴリズムを開発し [3]~[10]、これをもとに新しいコグニティブMAC方式を提案した [11]~[14]。そこでは「作用・反作用則」と我々が呼ぶ、ユーザ間の直接的な相互作用を導入することで、利己的戦略の帰結である「ナッシュ均衡」を避け、全体最適解の導出が可能となった [14]。本研究では、「綱引き原理」を「ユーザ内意思決定」と「ユーザ間相互作用」に適用することで、複数のシリンダ内の二種類の流体ダイナミクスにより、全体最適解のチャネル割当てを集中制御方式で計算する「全体最適意思決定器」を構築できることを示す。この装置を使うことで、指数関数的資源を要する評価値の計算を流体の物理プロセスに委ね、毎時刻ユーザ数M 回の操作(シリンダ内の流体界面の上下運動)を繰り返すだけで、全体最適な割当てが導出されることがわかった。キーワード コグニティブ無線、多本腕バンディット問題、自然計算、意思決定

Tug-Of-War Bombe: Making Socially-Maximum Decision using the

Tug-Of-War Principle

Song-Ju KIM† and Masashi AONO††,†††

† WPI Center for Materials Nanoarchitectonics (MANA), National Institute for Materials Science (NIMS)

1–1 Namiki, Tsukuba, Ibaraki 305–0044, Japan

†† Earth-Life Science Institute, Tokyo Institute of Technology

2–12–1 Ookayama, Meguro-ku, Tokyo 152–8550, Japan

††† PRESTO, Japan Science and Technology Agency

4–1–8 Honcho, Kawaguchi-shi, Saitama 332–0012, Japan

E-mail: †[email protected]

Abstract “The cognitive medium access”, which refers to multiuser channel allocations in cognitive radio, can

be interpreted as “competitive multi-armed bandit problem (CBP) [1], [2].” Unlike the normal multi-armed bandit

problem, the reward (free channel) probability of a channel selected by more than one user is evenly split between

selecting users. In the previous study, we proposed the “liquid-type TOW model (LTOW)” for the CBP toward

developing cognitive medium access protocols in a decentralized manner, and showed that the users achieve the

“social maximum”, which is the most desirable state to obtain the maximum total score, with avoiding the Nash

equilibria by using a direct interaction between users called “the action-reaction law” [14]. In this study, we show

that “the-social-maximum-decision-maker” can be constructed by implementing the direct interaction between users

to tug-of-war of another liquid. Owing to this equipment, we can automatically achieve social maximum allocations

in cognitive radio without exponential calculations for evaluation values.

Key words cognitive radio, multi-armed bandit problem, natural computing, decision making

1. は じ め に

組織 (全体)の利益とその構成員 (個)の利益は、ときに対立する。例えば、交差点で信号が間もなく赤に変わりそうな状況で、先行する車両が進路に停滞しているにもかかわらず、停止することなく直進しようとする車は、目的地により速く到着したいという個の利益を追求する意思決定をしている。この車が交差点の東西方向の中央に停滞するせいで、南北方向の青信号を直進しようとする他の車(他者)の進行が妨害される。こうして、個の利益を追求した利己的な意思決定により、全体の利益が損なわれる。そればかりか、道路は繋がっているので、こうして作り出された南北方向の停滞が、回り回って東西方向の道路の他所の新たな停滞を生み出す。全体の不利益は、利己的な恩恵にあずかれると判断した個の利益すらも損なう皮肉な結果を招き得るのだ。こうした個と全体の利益の対立は、交通渋滞のみならず、よりスケールの大きな様々な場面において立ち現れる深刻な問題である。事実、コミュニティ間の対立や国家間の戦争も、煎じ詰めれば部分最適と全体最適の不一致から作り出される。いつの日か「全体最適解を導出する装置」が開発され、それに従うことに同意した人類が、不毛な争いを最小化できる時代を迎えられると考えるのは夢想的過ぎるだろうか?現実的な政治判断の場面では、近年、部分最適と全体最適の調停にゲーム理論を応用するアプローチが注目を浴びており、利得マトリックスを適切に設定することで、多くの状況を数学的にモデル化できることが示されている [15]。本研究で我々が扱うコグニティブ無線のチャネル割当て問題も、ある特殊な利得マトリックスとして表現できる。本論文では、限定されたある種のゲームにおいては、全体最適を高速に導出できるアルゴリズムが存在することを示す。このアルゴリズムは、「綱引き原理」と呼ぶ、体積保存則を満たす流体のダイナミクスを想定して定式化されたモデルであるため、複数のシリンダ内の二種類の非圧縮性流体を用いることで物理的に実装することが可能である。この装置のことを、第 2次世界大戦中にイギリス軍がドイツ軍のエニグマ暗号を解読するためにアナログ電気回路を用いて開発した「チューリングボムべ」と呼ばれる装置との類似性から、「綱引きボムベ」と呼ぶことにする。綱引きボムベを使うことで、N チャネルのM 人の割当て問題に対して、毎時刻O(NM )の評価値を計算することなく、M 回の操作(シリンダ内の流体界面の上下運動)を繰り返すだけで、自動的に全体最適な割当てが導出される。このことは、今日においても、アナログ計算がデジタル計算より有利となる状況が存在し得ることを示唆している。簡単のため、二つのスロットマシン Aと Bを考える。各マ

シンはそれぞれ独立な報酬確率 PA および PB を持っている。各試行において、プレイヤーは、一つのマシンを選択し、ある特定の報酬確率によって、報酬(例えばコイン一枚)を得る。報酬確率を知らないプレイヤーは、どのような戦略でプレイすれば、報酬量を最大化できるであろうか?これがバンディット問題(BP)である。我々は先行研究において [3]~[14]、我々が提案した「綱引きモデル」が改良型 ϵ-greedyアルゴリズムや改

図 1 Channel model.

良型 softmaxアルゴリズムのような他の有名なアルゴリズムより効率的で、パラメタが無いアルゴリズムの中の最良のアルゴリズムとして知られている UCB1-tuned アルゴリズム [16] にその効率性が匹敵することを示した。さらに、綱引きモデルは、報酬確率がダイナミックに変化する環境にも素早く適応することも示した。なお、この BPは数学の基礎問題であるため、コグニティブ無線 [1], [2]、モンテカルロ木探索、コンピュータ囲碁 [17], [18]、ウェブ広告 [19]など、様々なフィールドに適用可能である。コグニティブ無線は、モバイル通信分野での最新のトピック

の内の一つで、その基本的な考え方は、有ライセンスのユーザ(つまり主要なユーザ)が活動的でない場合、無ライセンスのユーザ(コグニティブユーザ)がチャネルにアクセスすることを許可することで、資源を有効に活用することである。(コグニティブユーザは有ライセンスのユーザの通信を決して邪魔してはいけない。)無線通信においては新たにまとまった周波数帯域を確保することは既に困難な状況なので、最近、この分野が特に注目されている。図 1 に、Lai らによって提案されたチャネル・モデルを示

す [1], [2]。各々帯域幅が B の N チャネルから成るネットワークを考える。ネットワーク中のユーザは同期的なタイムスロット方式で操作される。各時間スロットにおいて、無ライセンスのユーザは、チャネル iが確率 Pi で自由に使えると仮定されている。つまり、有ライセンスのユーザによって使用されていない確率が Pi である。無ライセンスのユーザは Pi を事前に知らない。各時間スロットで、コグニティブユーザは、ある特定のチャネルを観測することにより、ネットワーク中のチャネルが使えるかどうかを調べる。この設定では、一人のコグニティブユーザはどの時刻にも一つのチャネルだけにアクセスすることができる。問題は、コグニティブユーザの期待スループットを最大化する、チャネルのアクセス戦略を引き出すことである。この状況は、競争的 BP(Competitive BP)と等価である。簡単のため、最小の CBP(つまり二人のコグニティブユー

ザ、二本のチャネル Aと B)を考えてみる。チャネルはそれぞれ確率 Pi で有ライセンスユーザによって使用されない。つまり、BPの文脈では、コグニティブユーザがチャネル iにアクセスした場合、確率 Pi で報酬 (例えばコイン一枚)を得ると考える。表 1に、ユーザ1と2のペイオフ行列を示す。二人のコグニティブユーザが同じチャネルを選択する場合(衝突)、報

表 1 ユーザ1 (ユーザ2)に対するペイオフ行列user 2: A user 2: B

user 1: A PA/2 (PA/2) PA (PB)

user 1: B PB (PA) PB/2 (PB/2)

酬確率は半分になる(実際にはどちらか一人が利用する)。一般的なM 人の場合には報酬確率が 1/M になる。コグニティブMACのプロトコル開発のためには、BPの文

脈の中で、全ユーザの合計報酬量 (スコア) が最大となるアルゴリズムを求めなければならない。そのためには、個々の利己的な戦略による帰結である「ナッシュ均衡解」を避けることが求められる。本研究では、「綱引き原理」と呼ぶ、体積保存則を満たす「物の動きによる効率化」を利用したダイナミクスを「ユーザ内意思決定」と「ユーザ間相互作用」に適用することで、複数のシリンダ内の二種類の流体ダイナミクスにより、全体最適解のチャネル割当てを集中制御方式で計算する「全体最適意思決定器」を構築し、この装置が、指数関数的資源を要する評価値の計算を流体の物理プロセスに委ね、毎時刻M 回(ユーザ数)の操作(シリンダ内の流体界面の上下運動)を繰り返すだけで、全体最適な割当てが自動的に導出されることを示す。

2. 綱引き原理

BPを解くことができる多くのアルゴリズムでは、各マシンの報酬確率に対する見積りを計算する。ほとんどの場合、ある特定のマシンをプレイした時に限り、そのマシンの見積りだけが更新される。それとは対照的に、我々が提案した綱引きモデルでは、プレイするマシンに関係なく、全ての見積りが同時に更新されるアルゴリズムと等価な学習則を使用する [8], [9]。つまり、時刻 tでプレイしなかったとしても、全てのマシンが時刻 tで同時にプレイされたように見積りが更新され、時刻 t+1

でマシンを選択する際に、全てのマシンの最新の見積りを参照するアルゴリズムを模倣することができる。このユニークな学習則の特徴が、綱引きモデルの高効率性の起源の一つである。我々は先行研究において、学習則の利点を直接使用する「固

体版」綱引きモデル(STOW)を提案した [9] この単純なモデルが「高効率な計算原理」を端的に示しているので、単に「綱引き原理」と呼ぶことにする。図 2 に示すような四角の固体を考える。この物体は体積が保存すれば良く、シンリンダ内の液体でも構わない。ここで、変数 Xk は固体の k 側の端の初期位置からの変位を表す(k ∈ {A,B})。Xk が 0を超える場合、固体がマシン k を選択するとみなす。綱引きモデルでは、「報

図 2 Solid TOW model.

酬」の代わりに「罰」を用いるので、BPはその逆形式で表される。すなわち、マシン kをプレイする場合、プレイヤーは確率 1− Pk で「罰せられる(光刺激を受ける)」。次の報酬獲得頻度の見積り Qk (k ∈ {A,B})を考える。

Qk(t) = Nk(t)− (1 + ω)Lk(t). (1)

ここで、Nk(t) は時刻 t までにマシン k をプレイした数で、Lk(t)はマシン k での罰(光刺激)の数である。ω はパラメタである。変位 XB(= −XA)は、次の差分方程式によって決定される。

XB(t) = QB(t)−QA(t) + δ, (2)

δ = A sin(πt+ π/2). (3)

ここで Aは振幅パラメタである。(3)式による固体自身の自律振動を無視すれば、結局、報酬 (光刺激がない)があった場合、+1がXk に加えられ、光刺激があった場合には、−ωがXk に加えられる。これは、図 2のようにマシン Aを選んで、もし報酬があれば左にシフトし、報酬がなければ右にシフトすることを意味する。このような「物体の単純な動き」によって意思決定するだけで、既存のアルゴリズムよりも高効率(より多くの報酬量を得る)な意思決定ができることがわかっている。2. 1 綱引き原理の考察以下では、式 (1)の報酬獲得頻度の見積り Qk がいかにして

導かれるかを概説し、その優位性を示す。簡単のためマシン数2の場合を考える。標準的なアルゴリズムでは、 報酬確率 Pk

の見積りはマシン kをプレイした時のみ更新される。一方、報酬確率の和 γ=PA + PB が既知である特殊な場合を考えてみよう。この場合、以下のように、マシン k を Nk 回プレイする事で、見積り Aと B を同時に更新できる。

見積り A 見積り B

マシン 1を NA 回: NA−LANA

γ − NA−LANA

,

マシン 2を NB 回: γ − NB−LBNB

NB−LBNB

.

すると、マシンAをNA回、マシンBをNB 回プレイして得られるマシン kの報酬量の期待値は以下のようになる(j |= k)。

Q′k = Nk

Nk − Lk

Nk+Nj

!γ − Nj − Lj

Nj

"

= Nk − Lk + (γ − 1) Nj + Lj , (4)

この期待値 Q′k は、綱引きモデルの Qk(式 (1))とは異なる。綱

引きモデルの実際の計算に現れるのは以下の「期待値の差」である。

QA −QB = (NA −NB)− (1 + ω) (LA − LB). (5)

ここで、期待値 Q′k(式 (4))を定数倍した Q′′

k を考えると、

Q′′k = Q′

k/(2− γ), (6)

Q′′A −Q′′

B は以下のようになる。

Q′′A −Q′′

B = (NA −NB)−2

2− γ(LA − LB). (7)

式 (5)と式 (7)を比較すると、前者の ω を以下の ω0 で与えれば、両者は一致する。

ω0 =γ

2− γ. (8)

ここで、報酬確率の和 γ の関数として導かれたパラメタ ω0 は、ほぼ最適な値であることがわかっている。この導出から、綱引きモデルの学習項 (式 (1))は、実は二つ

の見積り QA と QB を同時に更新できるようなアルゴリズムを実行するのと等価であるということが明らかになった。すなわち、時刻 tで一方のマシン k をプレイするだけで、あたかも両方のマシンをプレイしたかのように見積り QA と QB が更新され、それらを参照して時刻 t+ 1の意思決定を行うようなアルゴリズムを綱引きモデルは模倣しているのである。したがって、綱引きモデルの高いパフォーマンスの一因は、その学習項において、パラメタ ωとして予め報酬確率の和の情報が得られており、それがうまく利用されているからであると考えられる。簡単のために、上記はマシン数2についての考察であった

が、この「綱引き原理」は任意のマシン数 N とプレイヤー数M に対しても有効であり、その場合には式 (8) における γ をPM+PM+1 にすると良いことがわかっている。ここで、PM とは上位M 番目のマシンの報酬確率を表す。また、予め報酬確率の和 γ の情報が得られていなくとも、パラメタ ω0 を過去の経験に基づいて自ら推定できる仕組みを綱引きモデルに導入することによって(“adaptive TOW (ATOW)”と呼ぶ)、パラメタを持たない他のアルゴリズムよりも、依然として高いパフォーマンスを示すことが確認されている [8], [9]。そこでは、パラメタ ω が PM+PM+1 の関数、振幅パラメタ A が |PM−PM+1|の関数になっていて、それらを過去の経験から推定するようになっている。

3. 綱引きボムベ

図 3に3ユーザ、5チャネル(A,B,C,D,E)用の綱引きボムベを示す。シリンダ内に赤と青の二種類の非圧縮性流体が満

A

C

B

D

E

USER1

USER2

USER3

図 3 綱引きボムベ(3ユーザ5チャネル用)

たされている。赤が「ユーザ内意思決定」で青が「ユーザ間相互作用」を担う流体である。各時刻においての各ユーザのチャネル選択は緑のアジャスターの高さ(流体界面の高さ)によって決定される(最高値を選択)。赤と青のアジャスターは固定

されると仮定すると、各ユーザ内で赤の流体による「綱引き原理」が成り立ち(つまり、一つの界面が上がると、他の4つの界面が下がる)、効率的なチャネル選択が可能となる。それと同時に、青の流体によって「作用・反作用則」が実行され(つまり user1の界面が上がると user2と 3の界面が下がる)、衝突を回避でき、全体最適解を速く正確に探索するのに寄与する。式は以下のようになる。

Q(i,k)(t) = N(i,k)(t)− (1 + ω)L(i,k)(t) 

− 1M − 1

#

j |=i

∆Q(j,k)(t), (9)

X(i,k)(t) = Q(i,k)(t)−1

N − 1

#

l |=k

Q(i,l)(t). (10)

時刻 tにおける、ユーザ i、チャネル kの界面の高さを、X(i,k)(t)

としている。ここで∆Q(j,k)(t)は、ユーザ j、チャネル kが時刻 tで選択され、報酬があれば +1、なければ −ω だけ界面が上下する。選択されなければ 0である。上記の式に加えて、X(i,k) に振動を加える。これは、赤と青

のアジャスターを外部から適切にコントロールすることによって可能である。今回は、下記のようなユーザ間で全く同じ振動osc(i,k)(t)を与えた場合を扱う。

osc(i,k)(t) = A sin(2πt/5 + 2π(k − 1)/5) (11)

ここで、k = 1, · · ·, 5である。このように綱引きボムベは、毎時刻M 人のユーザが各人の

赤い流体の界面が一番高いチャネルを選択し、選択チャネルで成功する(パケット送信成功)か失敗する(パケット送信失敗)かによってその界面を上下(+1 か −ω)する操作を加えるだけで(つまりM 回の操作)動作することがわかる。後は、体積保存則により自動的に界面が動き、各人の次の選択を計算してくれるのである。また、この各人の選択においては、試行錯誤において速く正確に解を得ることができる「綱引き原理」のおかげで、高効率な探索が実現できている。さらには、ユーザ間の相互作用(青の流体)によって、自動的に「ナッシュ均衡」を避けて全体最適解に辿り着けるのである。

4. 結 果

綱引きボムベがナッシュ均衡を避けて全体最適解を導出できることを示すために、ここでは典型例として、(PA, PB , PC ,

PD, PE) = (0.03, 0.05, 0.1, 0.2, 0.9)を考える。ペイオフテンソルは 53=125個の要素を持つため、簡単のために各ユーザが下位の Aと Bの選択をしなかった場合の行列要素だけを書くと、以下のようになる(表 2,3,4)。各行列要素において、ユーザ1、ユーザ2、ユーザ3の報酬確率が順番に記されている。3人のユーザによって得られた最大の合計報酬量を与える状

態を「全体最適(SM)」と呼ぶことにする [20]。この問題においては、ユーザ達がそれぞれ上位3つ(C,D,E)の異なるマシンを選ぶ「棲み分け状態(6通り)」が全体最適になる(表にSMと記す)。利己的に考えた場合、他人の選択にかかわらず常に E を選ぶことが最高の報酬確率になっているので、この場

表 2 典型例 (PC , PD, PE)=(0.1, 0.2, 0.9) のペイオフ行列 (user 3

が C の場合)

user 2: C user 2: D user 2: E

user 1: C 1/30, 1/30, 1/30 0.05, 0.2, 0.05 0.05, 0.9, 0.05

user 1: D 0.2, 0.05, 0.05 0.1, 0.1, 0.1 0.2, 0.9, 0.1 SM

user 1: E 0.9, 0.05, 0.05 0.9, 0.2, 0.1 SM 0.45, 0.45, 0.1

表 3 典型例 (PC , PD, PE)=(0.1, 0.2, 0.9) のペイオフ行列 (user 3

が D の場合)

user 2: C user 2: D user 2: E

user 1: C 0.05, 0.05, 0.2 0.1, 0.1, 0.1 0.1, 0.9, 0.2 SM

user 1: D 0.1, 0.1, 0.1 2/30, 2/30, 2/30 0.1, 0.9, 0.1

user 1: E 0.9, 0.1, 0.2 SM 0.9, 0.1, 0.1 0.45, 0.45, 0.2

表 4 典型例 (PC , PD, PE)=(0.1, 0.2, 0.9) のペイオフ行列 (user 3

が E の場合)

user 2: C user 2: D user 2: E

user 1: C 0.05, 0.05, 0.9 0.1, 0.2, 0.9 SM 0.1, 0.45, 0.45

user 1: D 0.2, 0.1, 0.9 SM 0.1, 0.1, 0.9 0.2, 0.45, 0.45

user 1: E 0.45, 0.1, 0.45 0.45, 0.2, 0.45 0.3, 0.3, 0.3 NE

合、すべてのユーザが E を選ぶ状態(1通り)がナッシュ均衡(NE)となっている。綱引きボムベのパフォーマンスは「スコア: ユーザが 1000

回プレイして得た報酬の回数」で評価する。コグニティブ無線においては、送信できたパケット量に対応する。図 4に、典型例 (PA, PB , PC , PD, PE) = (0.03, 0.05, 0.1, 0.2, 0.9) の場合に対する、綱引きボムベのスコアを示した。1000 サンプルを使用したので、各データにつき 1000個の円がある。各円は一つのサンプルについて、選択数 1000までに獲得したスコアを、ユーザ i(水平軸)とユーザ j(垂直軸)について表している。図 4 には6つのクラスターが確認できる。これらが、各ユーザがそれぞれ上位3つ(C,D,E)の異なるマシンを選ぶ「棲み分け状態(6通り)」の二次元展開に対応し、全体最適を与える。全体最適点は、(ユーザ 1のスコア、ユーザ 2のスコア、ユーザ 3のスコア) = (100, 200, 900)、(100, 900, 200)、(200,

0 200 400 600 800 1000Score of user i

0

200

400

600

800

1000

Scor

e of

use

r j

user 1 vs user 2user 1 vs user 3user 2 vs user 3

図 4 綱引きボムベのスコア。(PA, PB , PC , PD, PE) = (0.03, 0.05,

0.1, 0.2, 0.9) の場合。

0 200 400 600 800 1000Time

0

200

400

600

800

1000

1200

1400

Ave

rage

scor

e

user 1user 2user 3total

図 5 綱引きボムべの合計スコアの平均。(PA, PB , PC , PD, PE) =

(0.03, 0.05, 0.1, 0.2, 0.9) の場合。

100, 900)、(200, 900, 100)、(900, 100, 200)、(900, 200, 100)

である。特に、ナッシュ均衡状態 (300, 300, 300)が実現されないことに注目したい。さらに、選択数 1000 までの合計スコアのサンプル平均を

図 5 に示す。各ユーザのスコアの平均と合計スコアの平均を示している。ほぼ公平性が保たれながら、合計スコアの平均値が全体最適である 100+200+900=1200を獲得できていることが確認できる。ここで、パラメタ ω=0.08, A=1.0を用いた(γ=PB + PC として式 (8)を計算)。次に、他の一般的な例として、(PA, PB , PC , PD, PE) =

(0.1, 0.2, 0.3, 0.4, 0.5)を考える。図 6に、綱引きボムベのスコアを、図 7に合計スコアの平均を示した。この場合、全体最適点は、(ユーザ 1 のスコア、ユーザ 2 のスコア、ユーザ 3 のスコア) = (300, 400, 500)、(300, 500, 400)、(400, 300, 500)、(400, 500, 300)、(500, 300, 400)、(500, 400, 300) であるが、クラスターを見ても、合計スコアの平均値を見ても、全体最適である 300+400+500=1200が実現できていることが確認できる。このような一般的な例に対しても全体最適が実現できていることがわかる。ここでは、パラメタ ω=0.33, A=1.0を用いた。

0 200 400 600 800 1000Score of user i

0

200

400

600

800

1000

Scor

e of

use

r j

user 1 vs user 2user 1 vs user 3user 2 vs user 3

図 6 綱引きボムベのスコア。(PA, PB , PC , PD, PE) = (0.1, 0.2,

0.3, 0.4, 0.5) の場合。

0 200 400 600 800 1000Time

0

200

400

600

800

1000

1200

1400

Ave

rage

scor

e user 1user 2user 3total

図 7 綱引きボムべの合計スコアの平均。(PA, PB , PC , PD, PE) =

(0.1, 0.2, 0.3, 0.4, 0.5) の場合。

5. まとめと議論

本研究では、コグニティブ無線のチャネル割当て問題に焦点を絞り、限定された形のゲーム利得マトリックスにおいては全体最適を高速に導出できる「物理現象を活用するアルゴリズム」が存在することを示した。このアルゴリズムは、「綱引き原理」と呼ぶ、体積保存則を満たすダイナミクスによる効率的プロセスを利用し、二種類の非圧縮性流体を使ったシリンダ系装置により実装される。この装置を使うことで、毎時刻 O(NM )の評価値を計算することなく、M 回の操作(シリンダ内の流体界面の上下運動)を繰り返すだけで、自動的に全体最適な割当てが導出される。筆者らは現在、量子ドット間のエネルギー移動を用いた意思

決定器を作製している [21], [22]。これらを複数接続することで「量子版綱引きボムベ」を実装できる。量子版綱引きボムベは、コグニティブ無線の問題だけでなく、より多様なゲーム利得マトリックスに対応できる可能性があり、より広範な応用性を期待できる。これらについては将来他所で議論することとしたい。

謝 辞

本研究は、著者らが独立行政法人理化学研究所・揺律機能研究チーム在籍時に行われた研究を部分的に含む。有益な議論とアドバイスに対して、原正彦元チームリーダーと行田悦資博士に感謝する。また、綱引きボムベの理論と量子的拡張についての有益な議論に対して、山梨大学の堀裕和教授と情報通信研究機構の成瀬誠博士に感謝する。

文 献[1] L. Lai, H. Jiang and H. V. Poor, “Medium access in cog-

nitive radio networks: a competitive multi-armed bandit

framework,” Proc. of IEEE 42nd Asilomar Conference on

Signals, System and Computers, pp.98–102, 2008.

[2] L. Lai, H. E. Gamal, H. Jiang, and H. V. Poor, “Cogni-

tive medium access: exploration, exploitation, and compe-

tition,” IEEE Trans. on Mobile Computing, vol.10 no.2,

pp.239–253, 2011.

[3] S. -J. Kim, M. Aono, and M. Hara, “Tug-of-war model for

two-bandit problem,” In: C. Calude, et al. (Eds.), Uncon-

ventional Computation, Lecture Notes in Computer Science

vol.5715, Springer, p.289, 2009.

[4] S. -J. Kim, M. Aono, and M. Hara, “Tug-of-war model for

multi-armed bandit problem,” In: C. Calude, et al. (Eds.),

Unconventional Computation, Lecture Notes in Computer

Science vol.6079, Springer, pp.69–80, 2010.

[5] S. -J. Kim, M. Aono, and M. Hara, “Tug-of-war model for

the two-bandit problem: Nonlocally-correlated parallel ex-

ploration via resource conservation,” BioSystems vol.101,

pp.29–36, 2010.

[6] S. -J. Kim, M. Aono, and M. Hara, “On the tug-of-war

model for multi-armed bandit problem: Bio-inspired com-

puting method for nonlocally-correlated parallel searches,”

Technical Report of IEICE (NLP-2010-4) vol.110, pp.19–

24, [in Japanese], 2010.

[7] S. -J. Kim, M. Aono, and M. Hara, “Improvement of tug-

of-war model for two-armed bandit problem: Biologically

inspired computing method for nonlocally-correlated paral-

lel searches,” Proc. of NOLTA2010, pp.520–523, 2010.

[8] S. -J. Kim, E. Nameda, M. Aono, and M. Hara, “Adaptive

tug-of-war model for two-armed bandit problem,” Proc. of

NOLTA2011, pp.176–179, 2011.

[9] S. -J. Kim, M. Aono, E. Nameda, and M. Hara, “Amoeba-

inspired tug-of-war model: Toward a physical implementa-

tion of an accurate and speedy parallel search algorithm,”

Technical Report of IEICE (CCS-2011-025), pp.36–41, [in

Japanese], 2011.

[10] M. Aono, S. -J. Kim, M. Hara, and T. Munakata, “Amoeba-

inspired tug-of-war algorithm for exploration-exploitation

dilemma in extended bandit problem,” BioSystems vol.117,

pp.1–9, 2014.

[11] S. -J. Kim, M. Aono, E. Nameda, and M. Hara, “Tug-

of-war model for competitive multi-armed bandit problem:

Amoeba-inspired algorithm for cognitive medium access,”

Proc. of NOLTA2012, pp.590–593, 2012.

[12] S. -J. Kim, M. Aono, E. Nameda, and M. Hara, “Amoeba-

inspired algorithm for cognitive medium access,” Technical

Report of IEICE (CCS-2012-037), pp.37–42 [in Japanese],

2013.

[13] S. -J. Kim and M. Aono, “Amoeba-inspired algorithm for

cognitive medium access II,” Technical Report of IEICE

(CCS-2013-034), pp.73–78, [in Japanese], 2013.

[14] S. -J. Kim and M. Aono, “Amoeba-inspired algorithm for

cognitive medium access,” NOLTA, IEICE, vol.5, no.2,

pp.198–209, 2014.

[15] B. B. De Mesquita, The Predictioneer’s Game, Random

House Inc., 2009.

[16] P. Auer, N. Cesa-Bianchi, and P. Fischer, “Finite-time anal-

ysis of the multiarmed bandit problem,” Machine Learning

vol.47, pp.235–256, 2002.

[17] L. Kocsis and C. Szepesvari, “Bandit based monte-carlo

planning,” In: J. G. Carbonell, et al. (Eds.), 17th European

Conference on Machine Learning, Lecture Notes in Artifi-

cial Intelligence vol.4212, Springer, pp.282–293, 2006.

[18] S. Gelly, Y. Wang, R. Munos, and O. Teytaud, “Modifica-

tion of UCT with patterns in monte-carlo Go,” RR-6062-

INRIA, pp.1–19, 2006.

[19] D. Agarwal, B. -C. Chen, and P. Elango, “Explore/exploit

schemes for web content optimization,” Proc. of ICDM2009,

http://dx.doi.org/10.1109/ICDM.2009.52, 2009.

[20] T. Roughgarden, “Selfish routing and the price of anarchy,”

The MIT Press, Cambridge, 2005.

[21] S. -J. Kim, M. Naruse, M. Aono, M. Ohtsu, and M. Hara,

“Decision maker based on nanoscale photo-excitation trans-

fer,” Scientific Reports, 3 2370, 2013.

[22] M. Naruse, W. Nomura, M. Aono, M. Ohtsu, Y. Sonnefraud,

A. Drezet, S. Huant, and S. -J. Kim, “Decision making

based on optical excitation transfer via near-field interac-

tions between quantum dots,” (submitted).