We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Yang Wang and Minh Hoai
Stony Brook University, Stony Brook, NY 11794, USA
CVPR 2018
paper
動画認識において,現状のシステムでは人間の行動と,それに付随する有意な要因(物体や背景など)の分離がうまくいっておらず,行動認識の結果が背景に影響を受けてしまうことがある.
そこで本研究では,行動を含む動画とコンテキスト(背景,物体,カメラモーションなどあらゆる視覚情報)が似ているが行動を含まない動画(conjugate sample)からの情報を活用することで,追加のアノテーションなしで,人間の行動とコンテキストの情報を分離する手法を提案.
動画の行動が起きてる場所の前後のフレームをconjugate samplesと定義する. そうするとコンテキストの情報がほとんど全て同じで, それ以外の行動の情報のみが異なる動画を用意することができる.
conjugate samplesを有効に活用するナイーブな方法は,conjugate samplesを負例として扱う方法であるが,これはあまりうまくいかない.なぜなら,この方法ではcontextの情報がネガティブな根拠だと判断してしまうからだ.しかしながら,contextの情報は分類に有効になることもあるため,この方法はうまくいかない. もう一つのナイーブな方法は,全てのconjugate samplesを正例として扱う方法である.しかしながらこれも有効ではない.というのもconjugate samplesには行動の情報が含まれてなく,この方法では行動の情報を学習することができない.
そこで本研究では,上図のようなアプローチを提案している.行動認識器は,action extractor, context extractor, action classifierの3つからなる.この行動認識器を (i) classification loss (ii) action sample と conjugate sampleの行動特徴量の類似度 (iii) action sample と conjugate sampleのコンテキスト特徴の相違度,の3つを最小化するように学習させる.
ネットワークはC3Dをベースにしている.
学習ステップは以下の通り.
提案法で精度向上を確認
Apr. 8, 2021
The text was updated successfully, but these errors were encountered:
No branches or pull requests
INFO
author
Yang Wang and Minh Hoai
affiliation
Stony Brook University, Stony Brook, NY 11794, USA
conference or year
CVPR 2018
link
paper
概要
動画認識において,現状のシステムでは人間の行動と,それに付随する有意な要因(物体や背景など)の分離がうまくいっておらず,行動認識の結果が背景に影響を受けてしまうことがある.
そこで本研究では,行動を含む動画とコンテキスト(背景,物体,カメラモーションなどあらゆる視覚情報)が似ているが行動を含まない動画(conjugate sample)からの情報を活用することで,追加のアノテーションなしで,人間の行動とコンテキストの情報を分離する手法を提案.
提案手法
動画の行動が起きてる場所の前後のフレームをconjugate samplesと定義する.
そうするとコンテキストの情報がほとんど全て同じで,
それ以外の行動の情報のみが異なる動画を用意することができる.
conjugate samplesを有効に活用するナイーブな方法は,conjugate samplesを負例として扱う方法であるが,これはあまりうまくいかない.なぜなら,この方法ではcontextの情報がネガティブな根拠だと判断してしまうからだ.しかしながら,contextの情報は分類に有効になることもあるため,この方法はうまくいかない.
もう一つのナイーブな方法は,全てのconjugate samplesを正例として扱う方法である.しかしながらこれも有効ではない.というのもconjugate samplesには行動の情報が含まれてなく,この方法では行動の情報を学習することができない.
そこで本研究では,上図のようなアプローチを提案している.行動認識器は,action extractor, context extractor, action classifierの3つからなる.この行動認識器を (i) classification loss (ii) action sample と conjugate sampleの行動特徴量の類似度 (iii) action sample と conjugate sampleのコンテキスト特徴の相違度,の3つを最小化するように学習させる.
ネットワークはC3Dをベースにしている.
学習ステップは以下の通り.
実験
提案法で精度向上を確認
date
Apr. 8, 2021
The text was updated successfully, but these errors were encountered: