EEGデータを用いたBOLDデータ予測モデルの提案_嘉山敢太 : テキストデータ

1
令和
3
年度
卒業論⽂
EEG
データを⽤いた
BOLD
データ予測モデルの提案
東京都市⼤学
理⼯学部
医⽤
⼯学科
所属:⽥中研究室
学籍番号:
1814019
名前:嘉⼭敢太
指導教員:⽥中宏和
教授
2
⽬次
1
研究背景
................................
................................
................................
................................
.............
4
1

1
はじめに
................................
................................
................................
................................
..............
4
1

2
ニューロフィードバックとは
................................
................................
................................
..
4
1

3
EEG
とは
................................
................................
................................
................................
............
4
1

4
fMRI
とは
................................
................................
........................... ....................
.....................
15
4

4

4 Feature Importance
................................
................................
................................
...
20
4

5
学習・予測
................................
................................
................................
................................
............
21
4

6
精度評価
................................
................................
................................
................................
................
21
5
結果
................................
................................
................................
................................
...................
22
5

1
予測精度
................................
................................
................................
................................
................
22
5

2 Feature Importance
................................
................................
................................
...........................
23
6
考察
................................
................................
................................
................................
...................
26
6

1
予測精度について
................................
................................
................................
.............................
26
6

1

1
パワースペクトル密度の推定
................................
................................
............
26
3
6

1

2
⾎流動態反応関数での畳み込み積分
................................
..............................
26
6

1

3
分散拡⼤係数を⽤いた特徴量選択
................................
................................
...
26
6

2
Feature Importance
について
................................
................................
................................
.......
26
6

3
従来法との⽐較
................................
................................
................................
........ ........................
..
27
7
結論
................................
................................
................................
................................
......................
27
8
今後の課題
................................
................................
................................
................................
........
27
参考⽂献
................................
................................
................................
................................
..................
28
謝辞
................................
................................
................................
................................
...........................
30
4
1
研究背景
1

1
はじめに
現在,国内の少⼦⾼齢化の影響で,介護現場の⼈⼿不⾜,介護難⺠,虐待など,現場
の状況は逼迫している

厚⽣労働省によると,
要介護・要⽀援認定者数は
2021

2
⽉末
現在で
666
万⼈
(

1
号被保険者のみ
)
に達して
おり,
過去と⽐較すると、
介護保険制度
を開始した
2000

(
218
万⼈
)
の約
3
倍に増え、
2003

(
336
万⼈
)
から
18
年間で

2
倍に増
え、
2013

(
564
万⼈
)
から
8
年間で
100
万⼈増えて
いる.また,
各年
4
⽉末
(
2021
年のみ
2


)
の認定者数では
21
年間連続で増加
している
[1]

今後も少⼦⾼齢化に⻭⽌めがかかる様⼦はなく,
内閣府によると,
20
60
年には
65
歳以
上の⼈⼝は約
40
%
にまで
上る
と予想されるため
[2]
,介護現場の状態はさらに悪化して
いくことが予想される

従って,リハビリテーション治療により⾝体障害を軽減する
事が国⺠的課題であると⾔えるだろう

1

2
ニューロフィードバックとは
臨床分野におけるリハビリテーションを⾏う技術の
1
つに
ニューロフィードバック
(
Neurofeedback
,以後
NF)
というものがある F
スコ


"
#

Hybrid
-
NF
スコア

"
#
$
!
%
$
%
"
#
$
"
%
はそれぞれ
Hybrid
-
NF
スコアと
BOLD
-
NF
スコアの

測値
を⽰す.
結果を⾒ると,
EEG

BOLD
-
NF
スコアを予測するモデル
(
⽔⾊
)
では,テストデータセ
ットへの予測精度の中央値が
!
&
'
(
)*
とかなり低い精度となっている.
このような状態では,社会実装した際に,未知の
EEG
データに対する
BOLD
-
NF
スコ
アの予測への信頼性の低さが問題となる.
その為,本研究では従来法の
BOLD
-
NF
スコ
アの予測
精度結果と統計的に有意な差が
出る
程度の精度向上を⽬標とする.
4
研究内容
4

1
データセット
本研究では,
Perronnet

[
1
5
]
によって公開されているデータセットを⽤いる.計
15
名の被験者に対し,
20
秒の閉眼と
20
秒の右⼿運動想起タスクを
8
セット
繰り返す,
10
合計
320
秒からなる
1
セッショ ン
を各被験者につき
3
セッション
⾏い,このタスク中
の脳
の機能
活動を
脳波計

fMRI
で計測する.また
計測された
EEG
データと
BOLD

号データと共に,
NF
スコアも本データセット内に含まれる.
本研究では
EEG
-
NF
スコアを使⽤しないため,
BOLD
-
NF
スコアの定義についてのみ
説明する.
BOLD
-
NF
スコアは
右⼿運動想起関連領域である
1
次運動野・補⾜運動野

Region of
interest(ROI)

BOLD
信号変化率と,⾮関連領域である
Back ground(BG)

BOLD
信号
変化率の差で定義される
.この
BG

BOLD
信号変化率の減算によって正規化がされ
ることが
Perronnet [15]
らによって⽰されている.
本研究では,この値を教師データと
して⽤いる.
BOLD
-
NF
スコアの定義を以下


(1)
に⽰す.
+,
"&'(
-
.
/
&
0
)*+
-
.
/
0
)*+
-
!123
/
4
0
,-
-
.
/
0
,-
-
!123
/
-
5
/
ここで,
0

BOLD
信号,
.
はボクセル数,
!123
は運動想起休憩時
の状態
を表す.
4

2
提案⼿法
従来法では,全
64
チャンネルの情報を⽤いた学習を⾏なったがために,特徴量
空間

⾼次元となってしま
った結果

過学習を引き起こしてしまっている
のではないかと

えた.
そこで本研究では

機械学習モデルで学習を⾏う前に,計測された
EEG
に対し,教師
データである
BOLD
-
NF
スコアと似た傾向を持
たせるような
信号処理を⾏う.
その後

予測
精度に不安定さを与える
多重共線性のある
特徴量を排除
する
ことで特徴量選択を
⾏う

本研究
における
提案
⼿法の
実験⼿順を以下の図
5
に⽰す.

5
提案⼿法の実験⼿順
4.6
予測精度評価
⑥予測値と正解のピアソン相関係数の計算
4.5
学習・予測

Light GBM
による学習・予測
4.4
特徴量選択
③分散拡⼤係数の計算

Light GBM
による
Feature Importance
の算出
4.3
前処理
①パワースペクトル密度の推定
②⾎流動態反応関数による畳み込み積分
11
4

3
前処理
前処理のステップでは,⽣の
EEG
データをより
BOLD
-
NF
スコアと似た挙動を持つ
データに変換し,機械学習モデルがより精度良く学習・予測できるようにすることを
⽬標に⾏った.まず初めに,
⽣の
EEG
データに対し,
教師データである
BOLD
-
NF

コアのように運動想起時に⾼い値を,休憩時に低い値を取るよう
なデータに
変換する
信号処理を⾏った.その後,
EEG

BOLD
信号の時間差を埋め合わせるような処理を
⾏った.⾏った処理の詳細について,以下に⽰す.
4

3

1
パワースペクトル密度
⽣の
EEG
データには,多くの周波数帯域の成分が混合しており運動想起に関連のな
い情報が多すぎる為,ここから
BOLD
-
NF ゴリズム
のうちの勾配
ブースティング
を⽤いた機械学習モデルの
1
つである
[1
9
]

Light GBM

説明を以下に
⽰す.
4

4

3

1
決定⽊
決定⽊とは,
ある条件に基づいて分岐を⾏うことで学習を⾏い,未知のデータが与え
られた際に,そのデータのクラスや予測値を返す機械学習アルゴリズムである.クラ
スの分類結果を返す決定⽊を分類⽊,予測値を返す決定⽊を回帰⽊という.
回帰⽊

デルの例を以下
の図
8
に⽰す.
16

8
回帰⽊
モデル
[
20
]
本研究では,
BOLD
-
NF
スコアの値を予測するため回帰⽊を⽤いる.
決定⽊の特徴としては,ある条件に基づいて分岐をすることで学習を⾏うため,可読
性が⾼い.つまり,返された予測結果に対する根拠
が分かりやすいという利点を持
つ.しかしその反⾯,適切に枝の剪定を⾏わないと過学習に陥り やすいといった⽋点
も持つ.
4

4

3

2
アンサンブル学習
アンサンブル学習とは,複数のモデルを融合させて
1
つの学習モデルを⽣成する⽅法
である.アンサンブル学習は,
⼤きく分けて,バギング,ブースティング,スタッキ
ングの
3
つに分けられる.
バギングとは,ブートストラップサンプリングによって標本データから
無作為に抽出
されたデータに対して,複数の弱学習器を⽣成し,それらを多数決的に統合させるこ
とで最終的な出⼒を出す⼿法である.バギングを⽤いた決定⽊モデルとして,ランダ
ムフォレストが挙げられる.

8
の左図にバギングを使⽤した決定⽊モデルの概略図
を⽰す.
ブースティングとは
,前の弱学習器の結果を次の学習データに反映させることで,学
習ステップを重ねるごとに精度の向上をしていく⼿法であ
4

3

3
XGBoost

Light GBM
の違い
Light GBM
は,⼤規模なデータセットに対して計算コストを抑えるような⼯夫がなさ
れている.故に,
同じ勾配ブースティングを使⽤した決定⽊モデルの
XGBoost
と⽐較
すると,より短時間で学習を⾏う事ができる.その⼯夫とは,
決定⽊の分岐の順番
と,分岐の選択肢にある.
まずは,分岐の順番の違いについて説明する.
勾配ブースティングの学習過程に
は,
level
-
wise

leaf
-
wise

2
つの⼿法がある.
level
-
wise
とは,決定⽊を階層
ごと

同時に分岐させていく
⼿法で
ある

XGBoost

level
-
wise
を採⽤しており,つまり,ど
の葉を分岐させるかの優先順位は付けずに分岐を⾏なっていく⼿法である.
level
-
wise
を⽤いた分岐の様⼦を以下
の図
1
1
に⽰す.
19

11
l
evel
-
wise[
2
4
]
それに対し
leaf
-
wise
とは,決定⽊を 内のサンプル数を
:
,ノード内のクラス数を
K
,クラス
L
に属
するサンプル数を
:
(
,クラス
L
に属するサンプルの割合を
M
-
L
N
3
/
&
:
(
:
-
*
/
と書くと,ジニ不純度は
以下の式
(7)
で定義される.
O
-
3
/
&
5
4
=
M
-
L
N
3
/
5
#
(
4
6
-
P
/
仮に,ノード
t
に単⼀のクラスのみ含まれる時,つまり不純度が最も低い時,
K
&
5

:
(
&
:
であるためジニ不純度は,
O
-
3
/
&
5
4
=
-
:
:
/
5
&
'
6
(
4
6
-
Q
/
とな
り,最も低い値を取る

21
また,ノード
t
に全てサンプルが異なるクラスである時,つまり不純度が最も⾼くな
る時,
K
&
:

:
(
&
5
であるためジニ不純度は,
O
-
3
/
&
5
4
=
-
5
K
/
5
&
5
4
5
K
#
(
4
6
-
G
/
となり,最も⾼い値を取る.
4

4

4

2 Feature Importance
あるノード
3
7
におけるジニ不純度を
O
R
3
7
S

そしてある特徴量で分岐した
左右の⼦ノー

のジニ不純度を
O
-
3
8
/

O
-
3
'
/
とし,
それぞれのサンプル数を
:
7

:
8

:
'
とした時,こ
のノード
3
7
をある特徴量で分岐させた際のジニ不純度の重み付き減少量は以下の式
(10)
になる.
T
O
R
3
7
S
&
:
7
+
O
R
3
7
S
4
:
8
+
O
-
3
8
/
4
:
'
+
O
-
3
'
/
-
5'
/
ここで,
N
は全サンプル数を表す.この値を決定⽊全体で平均した値が
Feature
Importance
となるため,これを
U
R
3
7
S
とすると,以下の式
(11)
になる.
U
R
3
7
S
&
T
O
R
3
7
S
V
T
O
R
3
7
S
988
;<=!>
?
-
55
/
つまり,決定⽊全体で,分岐させることでジニ不純度を⼤きく減少させた特徴量ほ
ど,
Feature Importance
の値は⼤きくなる.
本研究では

特徴量選択をする前に,全
64
チャンネル
のデータに対し,
Feature
Importance

算出し
た.これを⽤いて,
VIF

10
以上となる特徴量の組み合わせ
のう
ち,
Feature Importance
の低い⽅を
排除
していくことで . et al. (2017). Resting
-
state functional
connectivity
-
based
biomarkers and
functional MRI
-
based neurofeedback for psychiatric disorders: a challenge for developing
theragnostic
biomarkers. Int J.
Neuropsychopharmacology
.
[6]
Yahata, N. et al. (2016). A small number of abnormal brain connections predicts adult
autism s
pectrum disorder. Nat. Commun.
[7]
Chang, M. et al.
(2017).
Unconscious improvement in foreign language learning using
mismatch negativity neurofeedback: A preliminary study. PloS One 12, 1
-
13
.
[8]
Macinnes, J. J. et al.
(2016).
Cognitive
Neurostimulation
: Learnin
g to Volitionally Sustain
Ventral Tegmental Area Activation, Ne
u
r
on 89, 1331
-
1342.
[9]
Rostami, Reza, et al.
(2012).
“The effects of neurofeedback on the improvement of rifle
shooters ‘performance’. Journal of Neurotherapy 16.4
.
: 264
-
269.
[10]
The effect of
odor exposure time on olfactory cognitive processing: An ERP study. (2019).
Bang
-
Bei Tang
, Xin Wei, Gang Guo. Journal of Integrative Neu roscience, 18(1):87
-
93.
[11]
Andressa Dias Lemos. (2020). Rich rewards: Scientists reveal ADHD medication’s effect
on the bra
in.
[12]
https://ichi.pro/fmri
-
no
-
seigen
-
to
-
shinraisei
-
105722051944963
[13]
Perronnet, L., Lecuyer, A., Mano, M., Bannier, E., Lotte, F., Clerc, M., & Barilloy, C.
(2017). Unimodal versus bimodal EEG
-
fMRI neurofeedback of a motor imagery task.
Frontiers in Human Ne
uroscience, 11,193.
[14]
Cury, C., Maurel, P., Gribonval, R., & Barillot, C. (2020). A sparse EEG
-
informed
fMRI
model for hybrid EEG
-
fMRI neurofeedback prediction. Frontiers in Neuroscience, 13,
1451.
[15]
Lioi, G., Cury, C., Perronnet, L.
et al
.
(2020).
Simultaneous EEG
-
fMRI during a
neurofeedback task, a brain imaging dataset for multimodal data integration.
Sci
Data
7,
173.
[16]
https://mriquestions.com/does
-
boldbrain
-
activity.html
29
[17]
Patz S,
Fovargue D, Schregel K, Nazari N, Palotai M, Barbone PE, Fabry B, Hammers A,
Holm S, Kozerke S, Nordsletten D, Sinkus R.
(2019).
Imaging l ocalized neuronal activity
at fast time scales through biomechanics. Sci Adv.
[18]
Trevor A., Craney., & James, G.
(2002). Model
-
Dependent
Variance Inflation Factor
Cutoff Values. Quality
Engineering
, 14:3, 391
-
403.
[19]
Ke, G., Meng, Q., Finley, T., Wang, T., Chen, W., Ma, W., ... & Liu, T. Y. (2017).
Lightgbm: A highly efficient gradient boosting decision tree. In
Advance
s in neural
information processing systems
(pp. 3146
-
3154).
[20]
Georgios Drakos. Decision Tree
Regressor
explained in depth.
https://gdcoder.com/decision
-
tree
-
regressor
-
explained
-
in
-
depth/
[21]
G, Singhal.
(2020). Ensemble method in machine learning: Bagging versus Boosting
[22]
Funda Gunes. Why do stacked ensemble models win data science
competitions?
https://blogs.sas.com/content/subconsciousmusings/2017/05/18/stacked
-
ensemble
-
models
-
win
-
data
-
science
-
competitions
[23]
KDnuggets. XGBoost: Implementing the Winningest Kaggle Algorithm in Spark
and Flink.
https://www.kdnuggets.com/2016/03/xgboost
-
im plementing
-
winningest
-
kaggle
-
algorithm
-
spark
-
flink.html
[24]
LightGBM
latest
. https://lightgbm.readthedocs.io/en/latest/index.html
[25]
https://ai
-
laboratory
-
column.com/xgboost_lightgbm
[26]
Breiman, L. (2001).
Random
Forests. Machine learning 45, 5
-
32.
[27]
Menze, B.H., Kelm, B.M., Masuch, R. et al. (2009).
A comparison of random forest and its
Gini
importance with standard chemometric methods for the feature selection and
classification of spectral data.
BMC Bioinformatics
10, 213.
30
謝辞
本研究を遂⾏するにあたって,親切なご指導を頂きました⽥中宏和教授に⼼より感謝
致します.また,多くの相談に乗っていただいた⽥中研究室のゼミ⽣である友⼈達に
も,⼼より感謝致します.