[NLP๋ ผ๋ฌธ ๋ฆฌ๋ทฐ] Zero-shot transfer learning with synthesized data for multi-domain dialogue state tracking(2020)
์ ๋ชฉ : Zero-shot transfer learning with synthesized data for multi-domain dialogue state tracking
์ ์ : Giovanni Campagna Agata Foryciarz Mehrad Moradshahi Monica S. Lam
๋ฐํ๋ ๋ : 2020
paper : https://arxiv.org/pdf/2005.00891.pdf
code : https://github.com/stanford-oval/genie-toolkit
Review
์ด๋ฒ ๋
ผ๋ฌธ์ Domain State Tracking(DST) ์์์ Zero/Few shot learning๊ณผ ๊ด๋ จํ ๋
ผ๋ฌธ์ด๋ค. ์ด ๋
ผ๋ฌธ์ ์๋ก์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ง๋ ๊ฒ์ด ์๋๋ผ, ontology๋ฅผ ์ด์ฉํด ๋ํ ๋ฐ์ดํฐ๋ฅผ "ํฉ์ฑ" ํ ๋ค, ํฉ์ฑ๋ ๋ฐ์ดํฐ๋ก๋ง ๊ธฐ์กด์ ์กด์ฌํ๋ ๋ชจ๋ธ์ ํ์ต์ํจ ์ฐ๊ตฌ์ด๋ค.
์ฐ๊ตฌ์๋ค์ MultiOZ dataset์ ๊ตฌ์กฐ๋ฅผ ๋ณด๊ณ (๋
ผ๋ฌธ์์๋ emperical ์ด๋ผ๋ ๋จ์ด๋ฅผ ์) ๊ฒฝํ์ ์ผ๋ก ๋ํ ๋ฐ์ดํฐ์ "ํจํด" ์ด ์๋ค๊ณ ์๊ฐํ์ฌ MultiOZ ์์ ์ ๊ณตํ๋ ontology ๋ฅผ ์ด์ฉํด์ ๋ํ๋ฐ์ดํฐ๋ฅผ Rule based๋ก (๋
ผ๋ฌธ์์๋ few human-hours๋ผ๊ณ ํํ) ๋ง๋ ๋ค ์ด๋ฅผ baseline๋ชจ๋ธ์ ํ์ต์ํจ ์ฐ๊ตฌ์ด๋ค.
ํฉ์ฑ๋ ๋ฐ์ดํฐ๋ก ํ์ต์ํจ ๋ชจ๋ธ๋ค์ TRADE์ SUMBT์ด๋ฉฐ TRADE๋ pre-trainned language model(bert์ ๊ฐ์..) ์ ์ฌ์ฉํ์ง ์๊ณ , ํ์ต๊ณผ์ ์์ ๋ณด์ง ์์ value๋ฅผ ์์ฑํ ์ ์๋ค๋ ํน์ง์ด ์๋ ๋ฐ๋ฉด SUMBT๋ Bert ๋ฅผ ์ฌ์ฉํ์๊ณ , ํ์ต๊ณผ์ ์์ ๋ณด์ง ์์ value๋ ๋ต์ผ๋ก ์ ์ํ ์ ์๋ค๋ ํน์ง์ด ์๋ค.
ํฉ์ฑ๋ ๋ฐ์ดํฐ๋ก ๋ชจ๋ธ์ ํ์ต์์ผฐ์ ๋ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฒฐ๊ณผ์ ํฌ๊ฒ ๋ค๋ฅด์ง ์๋ค. ํ์ง๋ง Zero shot ๋ฐฉ์(๋ชฉ์ ์ผ๋ก ํ๋ domain์ ์ ์ธํ๊ณ ํ์ต์ํจ๋ค, test๋ ๋ชฉ์ ์ผ๋ก ํ๋ domain์ผ๋ก ํ๋ ๋ฐฉ๋ฒ)์ผ๋ก ๋ชจ๋ธ์ ํ ์คํธ ํ์ ๋๋ TRADE๊ฐ 1/2, SUMBT๊ฐ 2/3 ์ ๋์ ์ฑ๋ฅ์ ๋ณด์๋ค.
์ด๋ฅผ ๋ณด์์ ๋, pre trainned๋ชจ๋ธ์ ์ฌ์ฉํ๋ SUMBT๊ฐ ํฉ์ฑ ๋ฐ์ดํฐ์์ ํฉ(?) ์ด ๋ ์๋ง๋ค๊ณ ํ ์ ์๋ค.
Limitation + ๋ด์๊ฐ
์์์ ๋ฆฌ๋ทฐํ ๋ ผ๋ฌธ๋ค๊ณผ๋ ๋ค๋ฅด๊ฒ ๋ณธ ๋ ผ๋ฌธ์ ๋ชจ๋ธ์ ์๋ก ๊ตฌ์ฑํ๊ธฐ ๋ณด๋จ, ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ๋ชจ๋ธ์ ์ ์ฉํ ๋ฐฉ์์ ์ฌ์ฉํ์๋ค. ์ด ๋ฐฉ๋ฒ์ด ๊ฐ์ง๊ณ ์๋ ๋จ์ ์
- ์ฌ๋์ด ๋ํ ๊ท์น์ ๋ง๋ค์ด์ผํ๋ค. ๋ํ๊ท์น์ ์ ๋ง๋ค๋๋ผ๋ ๋ง๋ค์ด์ง ๋ํ๊ท์น์ด ๋ชจ๋ Multi OZ๊ฐ ์๋ ๋ค๋ฅธ ๋ฐ์ดํฐ์๋ ์ ์ฉ์ด ๋ ์ ์์์ง? ์๋ฌธ์ด ๋ค์๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ๋ ผ๋ฌธ์ ์ฝ์ผ๋ฉด์ ์ด์ฉ๋ฉด ๋ ธ๊ฐ๋ค(?) ๋ผ๊ณ ์๊ฐ ํ ์ ์๋ ์์ ์ ์ ๊ตํ๊ฒ ํ์ ๋, ๊ฒฐ๊ณผ๊ฐ ์ข๋ค๋ฉด(์ฌ์ค ๊ทธ๋ฅ ์ข์์ง ๋ชจ๋ฅด๊ฒ ์..!) ์ ๊ตํ๊ณ ๋ ผ๋ฆฌ์ ์ผ๋ก ๋ ธ๊ฐ๋ค๋ฅผ ์งํํ๋ค๋ฉด ์ข์ ๋ ผ๋ฌธ์ผ๋ก ๋์ฌ ์ ์๊ตฌ๋ ํ๋ ์๊ฐ์ ํ๋ค!๐