- Published on
Gemini Live ์ ๊ทธ๋ ์ด๋ โ ์ค์๊ฐ ์์ฑ ๋ฒ์ญ๊ณผ Proactive Audio๋ก ๋ํ AI๊ฐ ๊ท๊ฐ ๋๋ค
ํ์ ์ค์ ์ธ๊ตญ์ด๋ก ๋งํ๋ ์ฌ๋์ด ์๋ค. ๋์ํต์ญ์ฌ๋ฅผ ์ฐ์๋ ๋น์ฉ์ด ํฌ๊ณ , ๋์ค์ ๋ฒ์ญ๋ณธ์ ๋ฐ์๋ ํ๋ฆ์ด ๋๊ธด๋ค. ์ด ์ค๋๋ ๋ฌธ์ ๋ฅผ Google์ด ๋ค์ ๊ฑด๋๋ ธ๋ค.
2026๋ 5์, Google์ Gemini 2.5 Flash Native Audio์ ๋๊ท๋ชจ ์ ๋ฐ์ดํธ๋ฅผ ๋ฐํํ๋ค. ๋ ๊ฐ์ง๊ฐ ๋์ ๋๋ค. ํ๋๋ ์ค์๊ฐ ์์ฑ-์์ฑ ๋ฒ์ญ(Live Speech-to-Speech Translation), ๋ค๋ฅธ ํ๋๋ Proactive Audio๋ค. ๋จ์ํ ๊ธฐ๋ฅ์ด ์ถ๊ฐ๋ ๊ฒ์ด ์๋๋ผ, AI๊ฐ ์๋ฆฌ๋ฅผ ๋ค๋ฃจ๋ ๋ฐฉ์์ ํจ๋ฌ๋ค์์ด ๋ฐ๋์๋ค.
์ค์๊ฐ ์์ฑ-์์ฑ ๋ฒ์ญ: ๋ชฉ์๋ฆฌ์ ์ํผ์ ์ด๋ฆฐ๋ค

๊ธฐ์กด ๋ฒ์ญ ์ฑ์ด ํ๋ ์ผ์ ์ด๋ ๋ค. ์์ฑ์ ํ ์คํธ๋ก ๋ณํํ๊ณ , ํ ์คํธ๋ฅผ ๋ฒ์ญํ๊ณ , ๋ฒ์ญ๋ ํ ์คํธ๋ฅผ ๋ค์ ์์ฑ์ผ๋ก ๋ณํํ๋ค. ์ธ ๋จ๊ณ๋ฅผ ๊ฑฐ์น๋ ๋์ ์๊ฐ์ด ๊ฑธ๋ฆฌ๊ณ , ์ค์ํ ๊ฒ๋ค์ด ์ฌ๋ผ์ง๋ค. ๋งํ๋ ์ฌ๋์ ํค, ๊ฐ์ธ, ๊ฐ์ , ์๋ โ ์ธ์ด์์ ์๋ฏธ์ ์ ๋ฐ ์ด์์ ์ฐจ์งํ๋ ๊ฒ๋ค์ด๋ค.
Gemini์ Live Speech-to-Speech Translation์ ๋ค๋ฅด๊ฒ ์ ๊ทผํ๋ค.
์ด์ดํฐ์ ๋ผ๊ณ ๋ํ๋ฅผ ์์ํ๋ฉด ์๋๋ฐฉ์ ๋ชฉ์๋ฆฌ๊ฐ ์ค์๊ฐ์ผ๋ก ๋ฒ์ญ๋๋ค. ํต์ฌ์ ํคยท์๋ยท์ต์์ ๊ทธ๋๋ก ์ ์งํ๋ค๋ ์ ์ด๋ค. ์๋๋ฐฉ์ด ํฅ๋ถํด์ ๋น ๋ฅด๊ฒ ๋งํ๋ฉด ๋ฒ์ญ๋ ๊ฐ์ ์๋๊ฐ์ผ๋ก ์ ๋ฌ๋๋ค. ์ง๋ฌธ์ ๋์ง๋ ์ด์กฐ ๊ทธ๋๋ก ๋ด ๊ท์ ๋ฟ๋๋ค. ๋จ์ํ ๋จ์ด๋ฅผ ๋ฐ๊พธ๋ ๊ฒ์ด ์๋๋ผ ๋ง์ ์ง๊ฐ๊น์ง ์ ๋ฌํ๋ ค ํ๋ค.
24๊ฐ ์ธ์ด, 30๊ฐ์ง HD ์์ฑ์ ์ง์ํ๋ค. Google AI Studio, Vertex AI์์ ๋จผ์ ์ฌ์ฉ ๊ฐ๋ฅํ๋ฉฐ, Gemini Live์ Search Live์๋ ์์ฐจ ์ ์ฉ ์ค์ด๋ค.
Proactive Audio: ๋๋ฅผ ํฅํ ๋ง์๋ง ๋ฐ์ํ๋ค
๋ ๋ฒ์งธ ๊ธฐ๋ฅ Proactive Audio๋ ๋ ํฅ๋ฏธ๋ก์ด ๊ฐ๋ ์ ๋ด๊ณ ์๋ค.
AI ์์ฑ ์ด์์คํดํธ์ ๊ณ ์ง์ ์ธ ๋ฌธ์ ๊ฐ ์๋ค. ํญ์ ๋ฃ๊ณ ์๋ค๋ ๊ฒ. TV ์๋ฆฌ, ์ ์ฌ๋์ ๋ํ, ๋ฐฐ๊ฒฝ ์์ โ AI๋ ์ด ๋ชจ๋ ๊ฒ์ "๋ด๊ฒ ํ๋ ๋ง"๋ก ์คํดํ ์ ์๋ค. ๋ฐ๋๋ก ๋๋ฌด ์๊ฒฉํ๊ฒ ์ค์ ํ๋ฉด, ์ค์ ๋ก ํ์ํ ๋ ๋ฐ์์ ๋ชป ํ๊ธฐ๋ ํ๋ค.
Proactive Audio๋ ์ด ๋๋ ๋ง๋ฅผ ๋ค๋ฅด๊ฒ ํผ๋ค.
"๋ชจ๋ธ์ ์์ ์๊ฒ ํฅํ ์ฟผ๋ฆฌ์ ๋ํด์๋ง ์๋ต์ ์์ฑํฉ๋๋ค. ๊ธฐ๊ธฐ๋ฅผ ํฅํ์ง ์์ ์ฟผ๋ฆฌ์๋ ๋ฐ์ํ์ง ์์ต๋๋ค." โ Google ๊ณต์ ๋ฌธ์
AI๊ฐ ๋จ์ํ ์จ์ดํฌ์๋๋ฅผ ๊ฐ์งํ๋ ๊ฒ์ด ์๋๋ผ, ๋ฐํ์ ์๋์ ๋ฐฉํฅ์ ํ์ ํ๋ค. ๋์ ๋ํ ์ค์ธ ๊ฒ์ธ์ง, ๋ค๋ฅธ ์ฌ๋๊ณผ ๋ํ ์ค์ธ ๊ฒ์ธ์ง๋ฅผ ๋งฅ๋ฝ์ผ๋ก ๊ตฌ๋ถํ๋ค. ํ ์คํธ ์ ์ฌ์ ์ค๋์ค ์๋ต์ ๋ชจ๋ ์์ฑํ๋, ๊ด๋ จ ์์ ๋๋ง ํ์ฑํ๋๋ค.
ํ์ฌ Preview ๋จ๊ณ๋ก, Gemini API๋ฅผ ํตํด ๊ฐ๋ฐ์๋ค์ด ๋จผ์ ํ ์คํธํ ์ ์๋ค.
๋ฉํฐํด ๋ํ ํ์ง ๊ฐ์
์ด๋ฒ ์ ๋ฐ์ดํธ์์ ๋ ์ฃผ๋ชฉ๋ฐ์ง๋ง ์ค์ฉ์ ์ธ ๋ณํ๊ฐ ์๋ค.
๋ฉํฐํด ๋ํ ์ผ๊ด์ฑ์ด ํฌ๊ฒ ๊ฐ์ ๋๋ค. ์ด์ ์๋ ์ฌ๋ฌ ์ฐจ๋ก ๋ํ๋ฅผ ์ด์ด๊ฐ๋ฉด ์์ ๋๋ ๋ด์ฉ์ AI๊ฐ ๋งฅ๋ฝ์์ ๋์น๋ ๊ฒฝ์ฐ๊ฐ ์ข ์ข ์์๋ค. 12-25 ๋ชจ๋ธ ๋ฒ์ ๋ถํฐ ์ด์ ํด์ ๋ฌธ๋งฅ์ ๋ ์์ ์ ์ผ๋ก ์ ์งํ๋ค.
ํจ์ ํธ์ถ(Function Calling)์ ์ ํ๋์ ์ง์ ๋ฐ๋ฅด๊ธฐ(Instruction Following)๋ ํฅ์๋๋ค. AI ์์ฑ ์์ด์ ํธ๋ฅผ ํ๋ก๋์ ์๋น์ค์ ์ฐ๊ฒฐํ๋ ๊ฐ๋ฐ์๋ค์๊ฒ ์ค์ํ ๊ฐ์ ์ด๋ค.
๊ต์ก์์์ ํ์ฉ ๊ฐ๋ฅ์ฑ
์๋ํ ํฌ CEO๋ก์ ์ด ๋ ๊ธฐ๋ฅ์ด ๊ต์ก ํ์ฅ์ ์ด๋ป๊ฒ ์ฐ๊ฒฐ๋ ์ง ์๊ฐํด๋ดค๋ค.
์ค์๊ฐ ์์ฑ ๋ฒ์ญ์ ๊ต์ก ํ์ฉ:
- ๊ตญ์ ํ์ ์์ ์์ ํ์์ด ์์ ์ ์ธ์ด๋ก ๋งํ๊ณ ๊ต์ฌ๊ฐ ์ค์๊ฐ์ผ๋ก ์ดํด
- ๋ค๊ตญ์ด ๊ฐ์กฑ์ ์๋ ๋ค์ด ๋ถ๋ชจ์ ๋ชจ๊ตญ์ด ์์ ์ ์ค์๊ฐ ๋ฒ์ญ์ผ๋ก ํจ๊ป ๋ค์
- ํด์ธ ๊ตํํ์ ํ๋ก๊ทธ๋จ์์ ์ธ์ด ์ฅ๋ฒฝ์ ๋ฎ์ถ๋ ๋๊ตฌ
Proactive Audio์ ๊ต์ก ํ์ฉ:
- ๊ต์ค ํ๊ฒฝ์์ AI ์ด์์คํดํธ๋ฅผ ์ผ๋๋, ์์ ์ค ๋ฐฐ๊ฒฝ ์์์ด๋ ํ์๋ค์ ์ก๋ด์๋ ๋ฐ์ํ์ง ์๊ณ ๊ต์ฌ์ ์ง๋ฌธ์๋ง ์๋ต
- ์ด๋ฆฐ ํ์๋ค์ ์๊ธฐ์ฃผ๋ ํ์ต ํ๊ฒฝ์์ AI๊ฐ ๊ณผ๋ํ๊ฒ ๋ผ์ด๋ค์ง ์์ผ๋ฉด์ ํ์ํ ๋ ๋์ ์ ๊ณต
์ธ์ด ํ์ต์ ๊ด์ ์์ ๋ณด๋ฉด, ์ค์๊ฐ ์์ฑ ๋ฒ์ญ์ "์ดํด์ ๋ณด์กฐ ๋๊ตฌ"์ "์ธ์ด ์ต๋์ ๋ฐฉํด ์์" ์ฌ์ด์ ๊ฒฝ๊ณ์ ์๋ค. ๋ฒ์ญ ์์ด ๊ทธ ์ธ์ด์ ๋ ธ์ถ๋๋ ๊ฒ์ด ์ธ์ด ์ต๋์ ๋ ํจ๊ณผ์ ์ผ ์ ์๊ธฐ ๋๋ฌธ์ด๋ค. ๋๊ตฌ๋ฅผ ์ธ์ ์ผ๊ณ ๋์ง์ ํ๋จ์ด ์ฌ์ฉ์์ ๋ชฉ์ ์ ๋ฌ๋ ค ์๋ค.
๊ธฐ์ ์คํ ์์ฝ
| ํญ๋ชฉ | ๋ด์ฉ |
|---|---|
| ๋ชจ๋ธ | Gemini 2.5 Flash Native Audio (12-25) |
| ์ง์ ์ธ์ด | 24๊ฐ ์ธ์ด |
| HD ์์ฑ ์ | 30๊ฐ |
| ๋ฒ์ญ ๋ฐฉ์ | ์์ฑ-์์ฑ ์ง์ ๋ณํ (ํ ์คํธ ์ค๊ฐ ๋จ๊ณ ์ต์ํ) |
| ํน์ง ๋ณด์กด | ํคยท์๋ยท์ต์ ์ ์ง |
| Proactive Audio | Preview ๋จ๊ณ, Gemini API ๊ฐ๋ฐ์ ์ฐ์ ์ ๊ณต |
| ๋ฉํฐํด ๊ฐ์ | ์ด์ ํด ๋งฅ๋ฝ ์ ์ง ๊ฐํ |
| Function Calling | ์ ํ๋ ํฅ์ |
ํ์ฉ ํ
์ค์๊ฐ ๋ฒ์ญ ์์: Google AI Studio์์ Live API๋ฅผ ํ์ฑํํ๋ฉด ๋ฐ๋ก ํ ์คํธ ๊ฐ๋ฅํ๋ค. 24๊ฐ ์ธ์ด ์ค ์ํ๋ ์ ๋ ฅ/์ถ๋ ฅ ์ธ์ด๋ฅผ ์ค์ ํ๋ฉด ๋๋ค.
Proactive Audio ํ ์คํธ: ํ์ฌ ๊ฐ๋ฐ์ API๋ฅผ ํตํด Preview ์ ๊ณต ์ค.
proactiveAudio: trueํ๋ผ๋ฏธํฐ๋ก ํ์ฑํํ๋ค.ํค ๋ณด์กด ํ์ธ๋ฒ: ๋์ผํ ๋ฌธ์ฅ์ ๊ฐ์ ์ ๋ฌ๋ฆฌํด์ ์ ๋ ฅํด๋ณด์. ํฅ๋ถ๋ ๋ชฉ์๋ฆฌ์ ์ฐจ๋ถํ ๋ชฉ์๋ฆฌ์ ๋ฒ์ญ ๊ฒฐ๊ณผ๋ฌผ์ด ์ด๋ป๊ฒ ๋ค๋ฅธ์ง ๋น๊ตํ๋ฉด ์ด ๊ธฐ๋ฅ์ ํ์ง์ ์ง๊ด์ ์ผ๋ก ๋๋ ์ ์๋ค.
๋ฉํฐํด ๋ํ ์ต์ ํ: 12-25 ๋ชจ๋ธ์ ๋ช ์์ ์ผ๋ก ์ง์ ํด์ ์ฌ์ฉํด์ผ ๊ฐ์ ๋ ๋ฉํฐํด ๊ฒฝํ์ ์ป์ ์ ์๋ค. ๊ตฌํ ๋ชจ๋ธ์ ์ ๋ฐ์ดํธ ๋ฏธ์ ์ฉ.
Function Calling ํ์ฉ: ํฅ์๋ ํจ์ ํธ์ถ ์ ํ๋๋ฅผ ํ์ฉํด ์์ฑ์ผ๋ก ๋ด๋ถ ์์คํ ์ด๋ API๋ฅผ ํธ์ถํ๋ ์์ด์ ํธ๋ฅผ ๊ตฌ์ถํด๋ณด์. ๊ณ ๊ฐ ์๋น์ค, ์์ฝ, ์ ๋ณด ์กฐํ ๋ฑ์ ์๋๋ฆฌ์ค์์ ์ค์ฉ์ ์ด๋ค.
์ถ์ฒ
- Google Blog, "Gemini 2.5 Native Audio upgrade, plus text-to-speech model updates": https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/
- Google DeepMind Blog, "Gemini 2.5's native audio capabilities": https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-2-5-native-audio/
- Android Central, "Google's upgraded Gemini 2.5 Flash Native Audio model makes AI more conversational": https://www.androidcentral.com/apps-software/ai/googles-upgraded-gemini-2-5-flash-native-audio-model-makes-ai-more-conversational
- Google Cloud Blog, "Gemini Live API available on Vertex AI": https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai
- eWeek, "Gemini 2.5 Flash Native Audio Gets Major Voice Upgrade": https://www.eweek.com/news/google-gemini-2-5-flash-native-audio-update/