본문 바로가기
AI - ARTTECH/Overview

구글 제미나이, 멀티모달 협업 에이전트 '젬' 확장

by AF(에엪) 2025. 10. 3.
반응형

구글 제미나이, 멀티모달 협업 에이전트 '젬' 확장

이미지·음성·영상 결합 AI로 콘텐츠 제작 혁신 박차

 

Gemini 로고.

 

 

[AF 에엪 기술융합부] 구글(Google)은 자사의 인공지능(AI) 모델인 제미나이(Gemini)의 멀티모달 기능을 대폭 확장하고 있다. 제미나이는 텍스트뿐만 아니라 이미지, 음성, 영상 등 여러 형태의 정보를 동시에 이해하고 처리할 수 있는 인공지능 모델을 뜻한다. 구글은 2025년 9월 24일 보도된 제미나이 2.5 플래시(Flash)와 플래시-라이트(Flash-Lite) 업데이트 버전을 통해 품질, 속도, 효율성을 크게 개선했다. 특히 장기간에 걸친 복잡한 에이전트 작업에서 15%의 성능 향상을 보였다. 에이전트는 사용자 대신 특정 목표를 달성하기 위해 스스로 계획하고 행동하는 인공지능 시스템을 의미한다. 사용자들은 크롬(Chrome) 웹 브라우저와 안드로이드(Android) 및 아이오에스(iOS) 모바일 앱에서도 이 강력한 멀티모달 기능을 직접 활용할 수 있다.

콘텐츠 제작 혁신을 이끄는 주요 기능


구글은 구글 AI 스튜디오(Google AI Studio)에서 이미지, 영상, 오디오를 이해하고 생성하는 기능을 시연하는 멀티모달 앱렛(Applet) 개발 도전을 진행했다. 제미나이 2.5 플래시 이미지 모델은 2025년 9월 6일부터 7일까지 무료 체험 기간을 제공했으며, 라이브 API(Live API)는 세 개의 동시 세션을 지원했다. 이러한 기능들은 대화형 스토리텔링, 다양한 형태의 콘텐츠 처리, 그리고 멀티미디어를 생성하는 플랫폼 등에 활용되어 콘텐츠 제작 분야의 혁신을 이끌고 있다.

특히 주목할 만한 기능은 정지된 이미지를 동영상으로 변환하는 포토-투-비디오(photo-to-video) 기능이다. 사용자는 단일 이미지에 미묘한 움직임을 추가하거나, 연관된 여러 장의 사진을 연결하여 짧은 영상 클립을 만들 수 있다. 또한 정적인 장면에 카메라의 움직임(패닝, 줌, 틸팅) 효과를 추가할 수 있다. 이 기능은 인공지능 기반 게임 캐릭터 생성, 교육용 시뮬레이션 제작, 마케팅 크리에이티브 작업 등에 바로 활용이 가능하여 기업과 개인 창작자 모두에게 큰 도움이 되고 있다.

제미나이를 통해 생성된 모든 콘텐츠에는 신스아이디(SynthID) 메타데이터가 자동으로 삽입된다. 신스아이디는 인공지능이 만든 결과물임을 나타내는 워터마크 기술로, 콘텐츠의 출처 투명성을 높이고 저작권을 보호하는 데 도움을 준다. 구글은 앞으로 증강현실(AR) 및 가상현실(VR) 플랫폼과의 연동도 계획하고 있다고 밝혀, 제미나이의 활용 범위가 더욱 넓어질 것으로 기대된다. AR/VR 플랫폼은 가상과 현실 세계를 결합하거나 새로운 가상 환경을 구축하는 기술 기반을 뜻한다.


AF 에엪 기술융합부 press@artfr.co.kr
 

◎ AF(에엪) https://artfr.co.kr
Copyright © ARTFR.CO.KR, 무단 전재 및 재배포 금지

#AF #에이에프 #에엪 #인공지능 #AI #구글 #Gemini #제미니 #제미나이

반응형