Action Classification์ ๋ค์ํ ๋ ผ๋ฌธ ๋ถ์ ๋ฐ ๊ธฐ๋ฅ ๊ตฌํ
Video Recognition
- ๋์์ ๋ฐ์ดํฐ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ณต๊ฐ์ , ์๊ฐ์ ์์๋ก ๋ถํด๋ ์ ์๋ค.
- ๊ณต๊ฐ์ ๋ถ๋ถ์ ๋์์์์ ๋ฌ์ฌ๋ ์ฅ๋ฉด๊ณผ ๋ฌผ์ฒด์ ๊ดํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค.
- ์๊ฐ์ ๋ถ๋ถ์ ๊ด์ฐฐ์(์นด๋ฉ๋ผ)์ ๋ฌผ์ฒด์ ์์ง์์ ๊ดํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ค.
๋ ผ๋ฌธ ๋ถ์
- 2D ConvNet + LSTM
- ๊ฐ frame๋ณ๋ก features๋ฅผ extractํ๊ณ ๋น๋์ค ์ ์ฒด์ ๋ํด ์์ธก์ ์ค์ํ๋ image classification์ ๊ฐ๋ ์ ๊ทธ๋๋ก ์ ์ฉํ ๋ฐฉ์
- Bag of words image modeling ๋ฐฉ์ ์ ๊ทผ -> temporal structure(์๊ฐ)๋ฅผ ๋ํ๋ด๋๋ฐ ์ด๋ ค์์ด ์๋ค.
- LSTM๊ณผ ๊ฐ์ recurrent layer์ ์ ์ฉํ์ฌ temporal ordering, ๋์๋ฒ์์ ๋ํ ์์กด์ฑ์ ์ก์๋ผ ์ ์๋ค.
- LSTM(RNN์ ํ ์ข ๋ฅ) : ๊ธด ์์กด๊ธฐ๊ฐ์ ํ์๋ก ํ๋ ํ์ต์ ์ํํ ๋ฅ๋ ฅ์ ๊ฐ๊ณ ์๋ค.
- ๊ธด ์์กด๊ธฐ๊ฐ์ ๋ฌธ์ ๋ฅผ ํผํ๊ธฐ ์ํด ๋ช ์์ ์ผ๋ก ์ค๊ณ๋จ
- 3D ConvNet
- ๊ธฐ์กด์ convolutional networks์ spatio-temporal filter๋ฅผ ์ถ๊ฐํจ์ผ๋ก์จ ์๊ณต๊ฐ๋ฐ์ดํฐ๋ฅผ ๊ณ์ธต์ ์ผ๋ก ๋ํ๋ผ ์ ์๋ค.
- ํ์ง๋ง 2D Conv์ ๋น๊ตํ๋ฉด ํ๋ผ๋ฏธํฐ ์๊ฐ ๊ธ๊ฒฉํ ๋์ด๋๊ธฐ ๋๋ฌธ์ train์ ์ํค๋๋ฐ ๋ฌด๋ฆฌ๊ฐ ์๋ค.
- architecture C3D : ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ด๊ธฐ ์ํด์ BN์ ๋งค conv,fc layer์ดํ์ ์ํ
- ์ฒซ ๋ฒ์งธ pooling layer์์๋ temporal stride๋ฅผ 1์์ 2๋ก ์ฆ๊ฐํ์ฌ ์ฌ์ฉ
- Two-Stream
- ConvNet + LSTM์ high-level variation์ modelingํ ์ ์์ง๋ง, low-level motion์ ์ก์๋ด๋๋ฐ ์ด๋ ค์์ด ์๋ค.
- ๋ํ ๋ค์์ frame์ ์ญ์ ํ๋ฅผ ์ํํด์ผํ๊ธฐ ๋๋ฌธ์ high computation power ํ์
- Two-Stream networks๋ short temporal snapshots(๋น๋์ค์ RGB ์ด๋ฏธ์ง 1๊ฐ)์ ์ธ๋ถ์์ ์ฐ์ฐํ optical flow N๊ฐ ์์์ averaging์ ํตํด classification์ ์ํ
- Optical flow์ ๊ฒฝ์ฐ horizental, vertical 2๊ฐ์ ์ฑ๋๋ก ๊ตฌ์ฑ๋์๊ธฐ ๋๋ฌธ์ conv layer 2๊ฐ ์ฌ์ฉ
- test์์๋ ๋น๋์ค๋ก๋ถํฐ multiple snapshots์ ์ํ๋งํ๊ณ ์์ธก๊ฐ์ average๊ฐ์ ์ฌ์ฉ
- 3D-Fused Two-Stream
- Two-Stream network์์ ๋ง์ง๋ง conv layer ์ดํ์ ๊ณต๊ฐ๊ณผ flow stream์ ๊ฒฐ์ ํ ๊ฒ
- time, x, y, dimensions๊ฐ 3x3x3 3D conv layer (output 512 channels)
- 3x3x3 3D max-pooling layer, fc layer๋ฅผ ํต๊ณผํ๋ ํํ
- two-stream/ 3D-fused two-stream ๋ชจ๋ end-to-end ๋ฐฉ์์ผ๋ก train
- Inflating 2D ConvNets into 3D (I3D)
- 2D ConvNets์ 3D ConvNet์ผ๋ก convertํ๊ธฐ ์ํด ๋งค์ฐ ๊ฐ๋จํ ๋ฐฉ๋ฒ ์ฌ์ฉ
- temporal dimension์ ์ถ๊ฐํ๋ ๊ฒ์ผ๋ก NxNํํฐ๋ฅผ NxNxN๋ก ๋ณ๊ฒฝ -> ๋ชจ๋ ํํฐ์ pooling kernel์ ์ ์ฉ
UCF-101
- 101๊ฐ ๋์ ์นดํ ๊ณ ๋ฆฌ์ 13320๊ฐ ๋น๋์ค๋ฅผ ํตํด UCF101์ ๋์ ์ธก๋ฉด์์ ๊ฐ์ฅ ํฐ ๋ค์์ฑ์ ์ ๊ณตํ๋ฉฐ ์นด๋ฉ๋ผ ์์ง์, ๊ฐ์ฒด ๋ชจ์ ๋ฐ ํฌ์ฆ, ๊ฐ์ฒด ํฌ๊ธฐ, ๊ด์ , ์ด์์ ํ ๋ฐฐ๊ฒฝ, ์กฐ๋ช ์กฐ๊ฑด ๋ฑ์ ํฐ ๋ณํ๊ฐ ์๋ ๊ฐ์ฅ ํฐ ๋ค์์ฑ์ ์ ๊ณต
- Human-Object Interaction
- Body-Motion Only
- Human-Human Interaction
- Playing Musical Instruments
- Sports
-
๋ ผ๋ฌธ ๋ถ์ ๊ฒฐ๊ณผ Two-Stream I3D์ ์ด์ฉํ ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์๋ค.
-
๊ธฐ๋ณธ ์คํ์์ค๋ kinetics-400์ ์ด์ฉํ์์ง๋ง Kinetics-600์ผ๋ก ๋ฐ๊ฟ์ฃผ์๋ค.
-
ํ๋ ์์ด 50์ผ๋๋ณด๋ค ํ๋ ์ 200์ผ ๋ ๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๊ฒ์ ์ ์ ์์๋ค.
-
์์์ ๊ฐ๋, ์์น์ ๋ฐ๋ผ์ ๋ค๋ฅธ ๊ฐ์ ๋์ถํด๋ด๋ ๊ฒ์ ํ์ธํ ์ ์์๋ค.
-
์์ง ์ ํํ ์์ธก๊ฐ์ ๋ด๊ธฐ์๋ ๋ถ์กฑํ ๋ชจ๋ธ์ด๋ผ๊ณ ์๊ฐ์ด ๋ค์ง๋ง, ๊ณ์ํด์ ์ฑ์ฅํ๋ ๋ฅ๋ฌ๋ ๋ถ์ผ์์ ๋๋ฌด ์ค๋๋ ๋ชจ๋ธ์ ์ด์ฉํด์ ํ๋ก์ ํธ๋ฅผ ์งํํ ํ๋ ์๋ ๊ฒ ๊ฐ๋ค.