|
Voice Emotion Analysis (
VEA ) and A System for Emotional Physiological Brain Signal Analysis
A G I.Inc. ceo &
chief research officer Shunji Mitsuyoshi
Human mind and emotions, which may belong
to the fields of psychology, medicine or bioscience in academic
terms, have long been out of the scope of scientific quantitative
research. Feelings are somewhat elusive and therefore difficult
to experiment with since people may feel differently with the same
kind of stimulation. Or feelings may fluctuate in subtle ways due
to minute changes of circumstances or conditions. On the other hand,
it is known to everyone through experience that facial expressions
and vocal tones react to inner feelings. There has therefore been
much research on how such phenomena can be utilized for the objective
valuation of human feelings, with no methodology established to
date due to the fact that nothing but the person's subjective claim
can tell how any specific person may feel at any specific point
in time. In short, there is no way to define, let alone measure,
human feelings by any means. This is what hinders scientific approaches
to feelings and emotions.
Having said that, however, there have been a few scientific approaches
to the subject. Historically, hypotheses such as feelings are ``physical
reactions," ``nervous reactions" and ``matters of recognition"
have been presented and all of these were to some extent ``proven"
to be plausible through experiments. The author tried to penetrate
deeper into the arena of feelings by introducing a new classification
of ``emotions" as physiological phenomena and ``feelings"
as perception through recognition. And the first step was to establish
a Feeling Analysis System for the scientific research of feelings.
To start with, ``Emotions" are defined as physiological reactions,.
If an ``emotion" arises, it must be associated with physical
change in brain, vocal chords, pulse, hormones, motion, expression
or speech. Vocal tones were chosen by this research because they
are easily captured and analyzed for correlation with emotions.
It has been known that vocal tones are affected readily by state
of mind but anatomical closeness between the vocal chords and the
part of the brain that controls emotions induced the author to consider
the idea of possible phonetic recognition of feelings. After numerous
trials of traditional analytical methods such as spectrum analysis
and others, the author succeeded in isolating fundamental frequency
from noise signals. By combining the frequency with amplitude of
the voice and its variation, it has now become possible to quantify
the level of emotions with considerable accuracy and this has been
established as Vocal Emotion Analysis or VEA.
``Emotions" are physiological but ``Feelings" are defined
as labels that are derived through human recognition process. An
automatic labeling mechanism was developed by having multiple appraisers
categorize thousands of vocal records into anger, joy, sorrow and
ordinary feeling categories and decide the excitement levels. The
author formalized the decision-making process as a general algorithm.
The experimental results show that the valuation of the excitement
levels is fairly universal or independent of the individuality of
the appraisers. On the other hand, categorization is quite dependent
on the appraiser and this confirmed the general belief that other
people's feelings can be hard to identify in general terms. Comparison
of VEA and brain fMRI suggested a relationship between ``Emotions"
and the motion of periphery portions of the brain.
Technical innovations achieved through this research include: the
algorithm that allows reasonably accurate valuation of human emotions
and subjective feelings based on voice tones, without using conventional
analysis methods such as Possibility Model or Neural Network, and
its realization in the form of VEA; noise suppression mechanism
that effectively suppresses 80dB from 130dB fMRI and thereby exposing
fundamental frequency; a real time analytical system to simultaneously
measure brain-, vocal- and physiological signals as well as emotions
as the output of VEA; a stable isolation method of fundamental frequency
from the vocal tones which had been difficult by conventional technology;
and, the discovery of standardized emotion level that shows accordance
between appraisers. This series of experiments confirmed that almost
all indications of vocal tone feelings contain emotional elements
and that data was utilized in the analysis of physiological brain
signals for feelings and emotions.
These findings will enable observation of feelings and mental status
directly related to the cerebral state by use of phonetic recognition
and scientific criteria of emotions and feelings.
The study introduced a classification of ``Emotions" as physiological
phenomena and ``Feelings" as labels through recognition process
and has proven that ``Emotions" are objectively identifiable
and that ``Feelings" on the other hand are elusive- often undefinable
even to the person experiencing them.[18][19][20][21]
Emotion and emotional feeling:
Emotion is defined by basic physiological
response and body state (i.e. excitement, anger, fear) without awareness.
Emotional feelings are more sophisticated
emotional states such as joy, sorrow, etc. which are experienced
consciously. We study human emotion elicited by voice.
Fig 2. Voice Emotion
Analysis ( VEA ST2.0 )Real-time analysis
感情研究の歴史
感情認識については,1995年代から具体的な研究がなされてきた.
それらの研究は画像からや音声からの認識が中心であった.
特に音声研究では, 器官の構造が誰でも画一的なため,聞こえる周波数帯域も規格化しやすく,構造をそのまま数学処理で再現することが可能である.
当然,音声には雑音や,自然環境では,多くの音がミックスされるという同様の問題もある.
しかし,人間はその環境を丸ごと認識して相手の感情を感じている. また,人間の声を分離して感じているとは,想像できますが,環境の影響も受けている.
[12]
これについて,最も有名な歴史的論争がある.
それは,James-Lange(1890)[13] vs Cannon-Bard(1927)[14] vs Schachter-Singer(1964)[12]論争という.
感情が生理的要素から来るとするJames-Lange論と脳神経系から来るとするCannon-Bard論と感情2要因説<Schachte-Singer論・周囲の環境で
人は自分の感情ですら勘違いしてしまう> [12]という感情の起因についての論争である.
じつは,Emotionについては,現在でも科学では明確な答えが出ていない.[11]
下の図3は当社が現在のところ把握している 当社独自の実験結果から想定する情動と感情の関係図である.
当社としては,<<人は感情や情動を生体全体で関係付けている>> という,EmotionのHomeostasisのMitsuyoshi見解から,Cannon-Bard[14]を中心として,Two-facter
theory[12]の現象を把握し,説明する研究に進んでおります.[12]の説明が出来ると,[13]の議論が出来る. 具体的には<情動が脳による反応や生起において,重要な中心的役割を持っている>という立場で,
全ての情動による心的現象(心理学で言われる心の共鳴現象PS⇔D moveなど)が 定量的(脳神経信号,ホルモンや生体反応そして神経伝達化学物質などの生理信号や指標の状態)に記述<数式化>できる
相対的な基準を導いている.[15][16][17][20]<博士論文>

Fig
3. Homeostasis theory of emotion <
Mitsuyoshi 2008 >
Question 1: Can emotion be determined
by human subjective reaction?
Question 2: Can emotion be determined
by human brain activity?
For the first theme. We took
prosodic information from the human voice as a physical marker that
represents emotion. It is called VEA or Voice Emotion Analysis system
.
問題点
我々の試験でも, ST評価システムの表示の影響を評価者が受ける傾向が確認されている.[6]
しかし,表示システムでのリアルタイム試験結果[6]と発話終了後の評価結果[5][7]のどちらを正解とするかは,難しい問題である.[11]
過去の感情認識研究では, 機械による認識手法や,音声認識による感情的な言語認識辞書での認識,
確率モデルを利用した手法,そして,最近ではニューラルネットワークでの認識手法などがあった.
しかし,実用レベルにまで到達していません.
その理由は簡単です. 感情という抽象的な 対象を物理的に把握するパラメータ検出や閾値基準が無かったからである.
本来,それを最初に見つける作業には,膨大な感情音声資料を聞き続け,その中から見つけ出すという,気の遠くなる作業が必要である.
しかし,これを誰かが行わないと議論も研究もスタートしない.
それをやり遂げるには,相当の精神的苦痛と忍耐が要求され,結果を出すまで,時間と費用が 膨大にかかる.
解決策
そこで,大量の音声資料を独自に入手してゆき,生体特徴や脳科学,音声学や心理学などからヒントを得ながら,
研究者全員でそれらを全て聞き, 物理考察や実験を繰り返し,ロバストな 人間の音声からの情動要素(パラメータ)を見つけた. その過程において,<自己の作品制作衝動(生起)と制作過程の関係(意欲)>
を彫刻家の直感で捉え,<衝動と情動から制作動機と制作意欲の関係を推論し, 心理学でいう「自我モデル」と,不確実性のある状態を演繹的な手法により記述する手段を融合させ,
メカニカルなダイナミックモデル1999年>を独自に考察し,IEEE国際会議において,この仮説[15]を提案した. この仮説は,現在,脳科学におけるダイナミックモデルとして扱う研究に入っている.[18][19][20][21]
.jpg)
Fig
4. Voice of emotion1

Fig
5. Voice of emotion2
感情発話のメカニズム
Mechanism of emotional utterance
人の発声は肺からの空気圧で声帯を振動させて、空気の粗密波を生成する.
The human speech vibrates vocal chords by air pressure from lungs,
and generates a compressional wave of air.
そして、その粗密波は声道により、意識的に舌や喉、唇そして口腔内の運動により言語を表現する.
And, a compressional wave intentionally expresses the language by
the voice road by the movement in the tongue, the throat, the lip,
and the mouth.
一方、外部からの情動刺激を受けた場合、脳の中の辺縁系などの情動部位が発火し強い情動が発生する.
On the other hand, the affective movement element such as limbic
systems in the brain ignites when external emotional stimulation
is received and a strong affective movement is generated.
そして、一般的な社会人の場合、その情動を抑制しようとする働きが前頭前野などで起きる.
And, that starts controlling the emotion in the prefrontal region
etc. [17]
抑制された情動は音声において抑揚といった韻律情報、フォルマントなどの言語情報に現れる.
Controlled emotion appears in the prosodic information of intonation
and language information such as Folmant in the voice.
しかし、これでは、意図的に抑制された状態なので、純粋な情動を分離することは困難である.
But, with this it is difficult to separate out pure emotion because
it is a state not intentionally controlled. [20]
そこで、我々は脳の情動を司る部位である大脳辺縁系などと迷走神経を通じて直結している声帯の人体構造(メカニズム)に着目した.
Then, we paid attention to the human body structure or the mechanism
of vocal chords connected directly through the cerebral limbic system
etc. And the vagus that is the part that rules emotion of the brain.
その声帯の基本周波数の変化などを捉えることで、抑制以前の情動の状態を特定できると想定した.
We assumed that we would be able to specify the state of emotion,
before the subject controlled it, by catching the change in a basic
frequency of the vocal chords etc.
しかし、音声分析において実用レベルに耐えうる堅牢(ロバスト)な基本周波数の推定は非常に難しいのが現状であった.
But, the presumption of a fundamental frequency usually is very
difficult.
一般的には周波数の微細構造を見るケプストラムでの基本周波数推定が知られていたが、微細構造であるがゆえにノイズに非常に弱く不安定であった.
The fundamental frequency presumption by the cepstrum that sees
the microindentation of the frequency has been known up to now.
However, because the technique was a microindentation, it was very
weak against the surrounding noise and it was unstable. [20]
Fig
6. Parameterizing subjective feeling
人の主観の反映
Reflection of person's subjectivity
人の感情評価主観をどのようにパラメータに反映させたかである.
This shows we reflected human feelings evaluation subjectivity in
the parameter.
最初に膨大な感情音声資料を収集した.その資料を20名の男女の感情評価者により主観評価し、 音声一つ一つに評価ラベルを付与し、全員一致に近い音声を学習用に使用した.
First we collected a very large data base of feelings voice material.
The material was subjectively evaluated by 20 men and women feelings
evaluators. And, an evaluation label was given to each voice one
by one, from that, for this study we selected only voices that all
evaluators were in agreement with. [19]
そして、200程度の音声パラメータにより要素解析を行った.
The elements were analyzed according to about 200 voice parameters.
[20]
そして、ルールベースとブーストによる分析と分析官による手作業によりパラメータ解析データと感情主観との関係性を導出し、ロジックルールを構築した.
Next, the relation between the parameter analysis data and the feelings
subjectivity was derived by rule base analysis with a boost from
manual analysis and adjustment by the programmer, and so the logic
rule was constructed.[18][19][20]
この段階でサポートベクターマシンやニューラルネットやベイズの手法も試みたが、どれも実用に耐えうる満足な結果は出なかった.
A satisfactory result that could stand up to practical use was not
achieved though the support vector machine, the neural net, and
the Bayes technique that were tried at this stage. [20]
またHMMも考慮したが、感情主観の認識辞書が作成困難であった.
So, we abandoned HMM. The reason for this is that there is no subjective
feelings recognition dictionary at this time [20]
STの検証
音声の感情分析に使ったパラメータや人の主観を反映させた判定ロジックの組合せから,感情と情動の分離状態を見て認識比較を行った結果,情動パラメータでは,基本周波数とパワーの関係が有効であり,この情動パラメータが,感情ラベル「怒り」「喜び」「悲しみ」「平常」の分離全体に影響していることがわかった.
また,基本周波数を対数化して求めたパラメータ群が,興奮のパラメータと相互に感情ラベルの分離に影響していることを発見した.図7図8にその様相を示す.
Open
test 1
解析パラメータと主観反映ロジックルールを判定ロジックとしセットにして感情認識を作り、人の主観評価がうまく再現できるかどうかを調べた.
We made VEA from one set of our orgirnal analytical parameters and
the judgment logic, and examined whether an individual's subjective
evaluation could be reproduced well.
調査にあたり、学習用の資料とは別の試験用の感情主観評価音声セットを用意した.
During the investigation, we also prepared the feelings subjective
evaluation voice set for our research.

Fig
7. Voice Emotion Analysis open test

Fig
8. Influence of emotion parameter on feelings separation
これは試験結果である.
This is an open test result.
パラメータセットが大体において人の主観どおりに音声を分離した様相である.
The result is an aspect into which the parameter set separated the
voice as it is person's subjectivity.
X軸は韻律全般に使われたパラメータセットで分析の応じて組み合わせから選定している.
X axis selects the analysis from the combination response by the
parameter set used for intonation.
一方、Y軸は基本周波数関係のパラメータセットである.
On the other hand, Y axis is a parameter set related to a F0.
音声資料は主観評価が比較的一致している音声を使った.
The voice material used here was material for which there were two
or more corresponding subjective evaluations.
一部分重なっているが、人の主観評価が基準であるため予測される範囲であった.
The circles reflect successive emotions. This was a range forecast
because the standard was the individual’s subjective evaluation.
[20]
Intuition comparison open test
2 of judgment logic and person
引き続き、発話者による発話直後の主観評価によるテストを実施した.
The subjective evaluation immediately followed after the utterance.
会話は友人同士で行われ、観察者がそれぞれ二台のPCにより判定した.
The conversation was between friends, and evaluated simultaneously
by two observers.

Fig
9. Matching rate of VEA and subjective judgment
最初にVEAによる実験に必要は人の非言語での感情認識能力を調べた.
We examined the feelings recognition ability for human non-language
first.
日本語の感情音声を日本語を理解しない外国人6名でどの程度認識できるかの調査では情動的感情では55%であった.
Agreement was 55% for affective feelings in the investigation of
how six foreigners who did not understand Japanese were able to
recognize Japanese feelings voices.
一方、情動では人同士でも80%程度評価は一致した.
On the other hand, their evaluation achieved about an 80% correspondence
with the person who originated the emotion.
これを性能の評価基準として、発話者の発話直後の主観評価とVEAの一致率は情動的感情では70%であった.
This was the performance criterion. The agreement rate of the subjective
evaluation and VEA immediately after the speaker’s utterance was
70% in affective dynamic feelings.
一方、情動では80%を越えて一致した.
In emotion, they exceeded 80%.
また、発話者以外の評価者の発話直後の主観評価とVEAの一致率は情動的感情では60%であった.
The agreement rate of the subjective evaluation and VEA immediately
after the evaluator's utterances other than those who uttered it
was 60% in affective dynamic feelings.
一方、情動では80%を若干越えて一致した.
On the other hand, emotion exceeded 80%.
これにより、人の主観で作られた判定ロジックが自然な会話での感情認識にも使えたことがわかる.
As a result, we understood and were able to use the judgment logic
that dynamically reflects a person's subjective ability to evaluate
natural feelings. [20]
情動パラメータの感情分離への影響
人同士の主観の一致,人の主観とVEAの比較,主体の内観とVEAの比較を感情と情動に分けて評価した結果,人の主観同士では2割以上の不一致を確認し,VEAを基準とした主体の内観と第三者の主観の比較では,主体の内観とVEAの一致が,人自身の韻律のみからの感情認識基準や人の主観とVEAとの一致より,優れていることを確認した.
また,感情ラベルのVEA表示による人の主観評価の認知影響も確認された.
そして,人同士でもVEAとの比較でも一致が低い感情ラベルの人の主観評価において,情動である興奮だけは高い一致率を示した.
以上の結果から,VEAと人との比較での認知影響を確認し,感情は人の主観,内観によって付与されるラベルであることと,人の主観でも,VEAでも情動(興奮)は安定した基準となること,そして,音声において,情動の要素が,感情ラベル全般に含まれ,情動,感情どちらのパラメータでも声帯情報である基本周波数が強く影響していることを確認し,これにより仮説を実証した.
また,感情が人の主観,内観によって付与されるラベルとして,情動の影響を強く受けて声帯から識別できる興奮と,認知影響によりラベリングされ表示に主観が引きずられる感情の存在を明確にした.[20]
Answer to Question 1
Voice Emotion Analysis System was able to separate emotion and
feelings automatically by classifying the prosody of human voice
.
Subjective judgment from the speaker himself matched well for emotion
(82%) but less for feelings (70%) to the VEA output.
The Problems
Baseline matching rate (emotion evaluation of non-native people
for human voice) was low (55%) for feelings.
→ Subjective judgment is not a reliable measure.
More fundamentally, underlying neural mechanism that produces emotion
is unknown.
→ The research was extended to neuroscience of brain and physiology.
感情認識は,音声認識とは異なり,研究対象が未知の分野<Emotion>である.
そのため,「人間自身が何故,どのように音声から,感情を認識できるのか?」をメカニカルに明確にさせることが重要になり, ロジカルに再現できることを最重要課題とした.[18][19][20][21]
@・対象となる「感情や情動」の物理考察<定量化>に主眼を置いて,明確に区分化し,定量化する
A・膨大な感情音声資料を使って,ロジカルな再現性と主成分分析可能な状態であるとこ
B・ロジックが後追い出来て検証出来ること,リアルタイム性を手軽に再現できること
C・脳科学・生理学での物理考察が人間の心理作用の解明につながること
<可能な限り主観に頼らないことを目標とする>としている.
Fig
10. Homeostasis experiment of emotion
Answer to Question 2 Can emotion
be determined by the brain activity?
1. We measured brain activity using fMRI during conversations.
2. At the same time, emotional feelings were identified by Voice
Emotion Analysis System.
STの科学検証
fMRI
test 3 Verification of science
感情は人の主観,内観によって付与されるラベルと考え,これにより,生理動因を持つ情動(生理反応)と,認知影響によりラベリングされる感情(認知ラベル)があり,この二つの心的作用の関係から,感情の基本問題が起きると仮説を立て,情動が脳の辺縁系などの反応に由来し,人の主観同士でもあまり揺らがない基準となり,音声から,固定された基本周波数とパワーによる判定ロジックでロバストに検知できると考えた.
一方,感情は認知ラベルであり,人の主観の個人差の影響も認知影響も強く受け,情動に比べて基準となりにくいと考えた.
しかし,情動の要素は,脳の構造や感情発声の口腔内の構造,ホルモン,神経伝達物質,恒常性などから感情全般に影響していると考え,感情の基準として情動が有効であると考えた.
そこで,この仮説の有効性を確認するため,人の音声を利用して,人の主観や内観と比較しながら,情動と感情の認知影響を調べることにした.
その実現に向けて,人の感情的な発声を脳とホルモンや神経伝達物質の影響から,構造として捉え,音声の感情発話のメカニズムから,言葉内容が影響しない,非言語での音声感情分析(VEA)システムを構築し,生理指標や脳活動との比較をリアルタイムに計測できる装置を作り検証した.
We developed the neurophysiology system that
detects brain activities as well as physiological measures induced
by the autonomic nervous activities Such as heart activities, body
temperature, blood pressure and detecting pupil size during conversation.
Emotional feelings were identified simultaneously using the Voice
emotion analysis system. One problem here is a huge sound noise
from the MRI machine.
感情ラベル全般に大きな影響を持つ情動が生理動因(脳,生理反応)をもつかどうかを知るために,情動の生理指標とVEAの比較を同時に行うシステムの手段を構築することにした.
ロバストな情動基準(基本周波数)と人の主観を反映する基準を持つVEAシステムにより,fMRIでの130dBの騒音の中でも,80dBの騒音削除に成功し,きれいな基本周波数を取得する手段を講じて,VEAを情動生理反応基準とした,脳の活動と心拍,血圧,体温,眼球活動(瞬目も含む)そして,声帯(基本周波数・パワー)をリアルタイムに計測・比較するシステムを作った.図11にそれを示す.

Fig
11. The Phonetic Recognition of Feelings and
A System for Emotional Physiological Brain Signal Analysis
This is our actual system that
enables natural conversation during the detection of brain activity.
The subject lay inside the magnet. The speech was transmitted through
mask microphone to the experimenter’s hearing system through the
headphone. The same for the reverse direction from the experimenter
to the subject. The conversation was monitored by a director who
regulated the conversation when the conversation became boring.
ロバストな基本周波数検知の成功
多くの音声研究論文では,音声からの感情認識において喉にある声帯から生まれる基本周波数(F0)
の検知が最重要であるとされる. しかし,音声研究の長い歴史において,堅牢にあらゆる環境において,この基本周波数を 検知する手法が確立されていない.
当社は独自の研究により,130デシベルの騒音の中でも人の声帯から来る基本周波数の検知に成功した.

Fig
12. F0 ( Experiment in noise environment
of 130 dB )
Here we can see that the research
achieved the presumption of a robust fundamental frequency and steady
automatic detection.
fig 12 is a comparison of the
fundamental frequency presumption by an original technique and a
general cepstrum.
上の図12は,130デシベルの騒音の中での会話における音声の基本周波数(F0)の検知を行ったものある.
また,日常環境において従来の手法との比較では以下のような結果が得られている.

Fig
13. Cepstrum F0 vs Proposal F0
It is obviously understood that
the proposed technique is steady.
The voice used here was one
that had been collected with a general mike in a daily life environment.
[20]fig13
下の図13のブルーの表示が当社独自の手法での基本周波数(F0)の検知表示である.
ピンクの表示(従来の手法)の部分で○枠で囲まれた部分が,バラケテおります. このままでは,どの信号が正確なF0なのか機械にはわからない. しかし,
当社の手法ではスムーズな基本周波数の連続性が保たれている. この手法により,歌声から感情発声まで綺麗なカーヴで可視化することを実現させた.
これで,機械による自動検知もエラーが無くなりスムーズに行えるようになる.
We achieved a significant, 80dB reduction
of MR noise, amounting to about 1/100,000,000 noise reduction. Therefore
we could reliably detect critical sound parameters including F0
from the subject’s voice from the conversation inside the magnet.
[20] fig14
下の図14は130dBの騒音環境を80dBノイズカットし,fMRI稼働環境での音声情動実験のノイズ削減データである.

Fig
14. Experiment result of deleting fMRI noise of 80 decibels
( Experiment in noise environment
of 130 dB )

Fig
15. Cepstrum F0 vs Proposal F0 (
Experiment in noise environment of 130 dB )
上の図15は平常状態と興奮状態の差を既存のF0と我々のF0で比較したものである.
この基本周波数検知により,初めて大量の感情音声データからの感情の音声特徴 のパラメータ抽出が可能になる.そして,
一つ一つこのパラメータを主観評価と生理指標分析することで, 感情認識ロジックを構築している. 最近流行の確率モデル認識手法(HMM)ではなく,基本に忠実な判定ロジックでの
地道な科学的再現性を追求した手法による, 認識エンジンだからこそ出来る,軽量化と高性能の両立が特徴である.[20]

Fig
16. Emotion activity of large brain confirmed with system
STの科学検証結果
Result of verification of science
of ST [21]
誰でも気軽に心や脳の状態を知ることができれば,便利である. そこで,音声から脳と自律神経で直結している声帯の変化を解析し,興奮を判定するシステムを構築し,
システムが興奮と判定した時点の発話者の脳活動と心拍変化を測定した. システムと人の主観の比較から, 情動(F0)パラメータと抑揚パラメータの組合せが,感情の分離に影響していることがわかった.
また,リアルタイムの評価システムを使用することで, 発話者主観が70%でシステムと一致することを確認した. この実験から,非言語環境での人の認識限界である55%にシステムが同等以上で達成すること,
感情パラメータの比較から,興奮を基準とする情動と感情の分離を示すことができた. そして,fMRIや心拍などの生理信号を同時計測し,音声の興奮基準と比較する装置を作り,
自作マスクマイクで130dBから50dBに騒音を削減し, fMRIを稼動させながら,ロバストなF0検出で音声の分析に成功した.
実験では会話中にシステムが興奮と判定した時間で,発話者の情動の脳活動と心拍変化を装置で確認した. これにより,システムの感情自動判定結果を人の主観と生理反応の両方で確認できた.図17参照
システムの稼動実験では,映像呈示で,脳科学で指摘される情動の発火をfMRIで確認した.図16参照
これにより,システムが感情の基本問題の生理分析に利用できることを示した.
また,fMRIの稼動中における会話実験では,人の主観と主体の内観ラベルで一致した 興奮の音声から,ばらつきや高低差といった基本周波数特性がわかった.
また,STが情動ありと判断した音声において,脳活動において情動活動と思われる部位の活動が確認された.この試験ではSTが情動なしと判定した音声との両側で検定(t-statistic
P<0.001)された。図17参照
ただし,本論文ではシステムの工学実験であるため,この実験結果のみで情動の生理動因(生理反応による情動の創発)を実証したことにはならない.
今後多くの医療研究者による本論文で提案したシステムでの臨床例からの分析,追試が必要と考える.
以上,VEAが揺らぎがちな人の主観に対して,固定された基準として,感情と情動の生理動因と認知ラベルの比較研究に利用できることを示し,生理分析においても,基本周波数を利用した情動と感情の分析の有効性を示した.[20]
If everyone can readily detect the state
of the mind and the brain, it is convenient. Then, we made the device
that measured ``emotion and brain activity" that used the voice.
We constructed a real-time emotion evaluation system ( recognized
by prosodic information ) using changing vocal chords (robust F0)
connected directly by the brain and autonomic. Speakers responded
70% , which is considered as a system performance. the system is
able to achieve equivalent or above performance to non-verbal speakers(55%).
To evaluate the brain activity using fMRI associated to the emotional
voice, we devised a ``mask-microphone" which could reduce the MR
sound noise from 130 to 50 dB. With this equipment, human brain
activity can be assessed while speaking. When a real-time evaluation
system judged the excitement, we confirmed the excitement activity
of the brain and the heart-rate. We were able to show the separation
of emotion and feelings based on the excitement. And, the feelings
and emotion automatic operation judgment results of the system were
able to be confirmed by both the subjectivity and the physiology
reaction of the human.fig17 [20]

Fig
17. Emotion activity of large brain confirmed with
system
(
moment in which emotion is detected in ST, t-statistic(0.1% in critical
region) by NICT )
感情認識STで興奮と確認できた時間の会話中脳の情動活動の画像
( t検定にて,両側棄却域0.1% (99.9%の精度) 修正なし 独立行政法人情報通信研究機構による検定
)
図17は感情認識で興奮と出力した 時間におけるfMRI脳活動の結果の図である.
イベント時刻(情動興奮)オンセットに対応したBOLD反応 が,それ以外のすべての活動と差があるかどうか,という(イベント)−(非イ
ベント)の形式で0.1%の両側棄却域にてt検定で実施.STがfMRI内の被験者の会話で,情動を検出した瞬間と検出しない状態において,検出された瞬間の被験者の右半球扁桃体,
そして,前頭底部(BA12付近),そして 前頭前野,に活動が確認できる.これが,感情(特に情動)に関連していると 思われる.前頭ブローカ野に活動が確認
できる,これは会話をしていることを保障している. また,なぜか右後側頭部に活動が見られるが, その原因は不明である.
注意:この実験で,STが完全に情動を検出するということを証明するものではありません.しかし,人の主観以外の比較でも,反応が出たということは大きな意味を持ちます.また,fMRIの解像度や精度も今後発展し,より詳細な事実も見つかると思われます.MEGなどでの実験も今後行う必要があります.よって,多くの脳研究者による追試や実験を期待します.そして,その結果をSTのパラメータへ反映させることで,より高精細なシステムが出来上がると考えております.研究者の皆様,ご協力お願いいたします.
Result of brain
physiology
We developed a brain-physiology
system. Sound noise from MRI as well as head motion were solved
using the novel mask-microphone and head fixation system. Emotional
conversation experiment carried out inside the magnet between subject
and experimenter. The director regulated the conversation. Human
emotional voice successfully detected from the subject inside MR
magnet during detection of brain activities. Brain regions related
to excitement and anger were detected during conversation using
VEA system and fMRI.[20][21]
Conclusion
We developed a novel system
that made it possible to determine human emotional feeling as well
as excitement by means of human voice (Voice Emotion Analysis System).
Since judgment of emotional feeling was vulnerable, we measured
neural activities of the brain using MRI as well as physiological
measures. The loci of excitement and anger were identified in the
human brain using the above system..[20][21]
今後
現在のステップ:STEmotion
(Ver3.0)との脳活動,生理指標との比較, 行動科学的事実との比較.
本人でも難しい真の感情を生理指標と比較しながら,支払いの有無や購入の事実などの確認が取れた正解を持つ音声データと,心理分析テンプレートやPS⇔D分析,共鳴共振分析などを利用した心理分析を実現させる.[11][21][22]
複数の第三者の主観では,人同士でも平均60%以上の一致は難しく,また,発声者本人でも不安定であった.[12][4]*注意
これでは音声認識とは違って,正解や基準が不安定なため,統計的手段でもランダム選択との比較以外できない.(
The Institute of Statistical Mathematics )
そのため,最近の研究では発声者の感情の科学分析と物理考察,行動科学比較などを重要視している.
その実現には,VEAの固定されたパラメータと個々の判定ロジックを使って,感情をリアルタイムに表示させ, 同時に脳活動や生理信号を検出し,ロジックやパラメータと脳活動を1対1で観察できる環境が望ましい. そのため,私たちは,確率モデルやニューラルを使用しない感情判定ロジックを地道に作って来た.そして,STEmotion
(VEA Ver3.0)のパラメータの切り分けと可視化ツールを作った.
このツールを使って,感情のラベリングが脳活動でどのように行われているか(感情のメカニズム)を探る. 同時に情動の完全な物理量計測による定量化と規格化が始まっている.
これにより感情・情動のメカニズム解明(心理分析テンプレート)と定量化(国際基準化)が可能となる日も近いと思われる.[6]
注意:この上述の手法しか,従来の感情試験が行えません. しかし,どうしてもシャクターの仮説の影響の可能性もあり,人の主観だけでは比較が完全ではないのです.
そこで,多くのお客様のご要望で,感情の科学的計測との比較が必要になり,現在国立研究所と行っております. その証明により,より安心してお使いいただけることが,出来ると信じております.
[1] 久保田新,[臨床行動心理学の基礎]丸善株式会社pp98 (2003) 「人間は他人の表情から視覚情報だけで感情を検知しているかという実験結果がある.
その結果は,30〜40%程度であった.また,一つの感情に限って試験すると,正答率は どの感情も50%であった.これでは確率的にも当てにならない.」
[2] Koichi SHIBASAKI,Shunji MITSUYOSHI,``Evaluation of Emotion Recognition
from Intonation"
IEICE Technical Report TL2005-15,pp49, 2005.<5.2の平均値を四捨五入>SGI
Japan
[3] Koichi SHIBASAKI,Shunji MITSUYOSHI,``Evaluation of Emotion Recognition
from Intonation"
IEICE Technical Report TL2005-15,pp48-49, 2005.<5.1>SGI
Japan
[4] SGI Japan
[5] Koichi SHIBASAKI,Shunji MITSUYOSHI,``Evaluation of Emotion Recognition
from Intonation"
IEICE Technical Report TL2005-15,pp48-49, 2005.<4.2><4.4>SGI
Japan
[6] Koichi SHIBASAKI,Shunji MITSUYOSHI,``Evaluation of Emotion Recognition
from Intonation" IEICE Technical Report TL2005-15,pp47, 2005.SGI
Japan
[7] SGI Japan
[8] Shunji Mitsiyoshi,``Collected Data on Partner Robot Technologies"N・T・S.Inc.
pp401
[9] Shunji Mitsiyoshi,``Collected Data on Partner Robot Technologies"N・T・S.Inc.
pp402
[10] Antonio R Damasio, ``Looking for Spinoza: Joy, Sorrow, and
the Feeling Brain"
Harvest Books 2003.
[11] Joseph LeDoux: ``The Emotional Brain: The mysterrious Underpinnings
of Emotional Life "
pp55-66, University of Tokyo Press, 2003.
[12] Stanley Schachter: ``The interaction of cognitive and physiological
determinants "
Advances in Experimental Social Psychology, Vol.1, New York Academic
Press, 1964.
[13] William James: ``The Prinples of Psychology"
Dover Publications, Inc, 1890.
[14] Walter Bradford Cannon: ``The James-Lange theory of emotion"American
Journal of Psychology,
Vol.39,pp106-124, A critical examination and an alternative theory,
1927.
[15] Shunji Mitsuyoshi, Fuji Ren: ``The Sensibility Inference Function
by Psycho-Quantum Computer"
,pp1679-1686, IEEE International Conference on Systems, Man and
Cybernetics, 2003.
[16] Shunji Mitsuyoshi, Fuji Ren: ``Mind of Machine"
Vol.2005,No19,pp323-327, IPSJ Symposium Series, 2005.
[17] Shunji Mitsiyoshi,``Collected Data on Partner Robot Technologies"N・T・S.Inc.
[18] Shunji Mitsuyoshi et al: ``Non-verbal
Voice Emotion Analysis System", International Journal of Innovative
Computing, Information and Control, pp,819-830, Vol.12. 2006.
[19] Koichi Shibasaki,Shunji Mitsuyoshi,``Feeling
Voice Management System and Feeling Voice Database for Voice Feeling
Management"the 2007 IEEE International Conference on
Natural Language Processing and Knowledge Engineering (IEEE NLP-KE¨07),
pp,419-426, Aug.30-Sep.1, 2007.SGI Japan
[20] Shunji Mitsuyoshi et al: ``Emotion
Voice Analysis System Connected to the Human Brain", the 2007
IEEE International Conference on Natural Language Processing and
Knowledge Engineering (IEEE NLP-KE¨07), pp,479-484, Aug.30-Sep.1,
2007.
[21] Yasuto Tanaka et al: ``Correlation
between human brain activities and the autonomic nervous system
elicited by emotional video movies.", Neuroscience 2007 Pacifico
Yokohama, Japan., Sep.11, 2007.
[22] Chiemi Kawanishi et al: ``Establishing
Methods and Analytical Examples for Empathic Underatanding As Technological
Competency in Nursing.", INFORMATION International Information
Institute, pp.253-262. Vol,10, 2007.
|