영상 AI 개발 기업 트웰브랩스(대표 이재성)가 12일, 자체 개발한 고도화된 영상언어 생성 모델 '페가수스-1.2'를 공개했다. 이 모델은 트웰브랩스의 초거대 영상언어 생성 모델로, 긴 영상을 텍스트로 요약하거나 영상에 관한 자유로운 질의응답을 가능케 하는 등 영상 기반 텍스트 생성 기능을 제공한다.
페가수스-1.2는 기존 버전에 비해 영상과 음성을 동시에 분석해 텍스트로 변환하는 능력이 강화되었으며, 다양한 길이의 영상을 높은 정확도로 처리할 수 있다. 또한, 이미 한 번 처리한 영상은 효율적으로 저장 및 재사용 가능하다. 이를 통해, 실제 산업 현장에서의 활용성이 더욱 높아질 것으로 기대된다.
페가수스-1.2는 고급 비전 인코딩 전략과 정교한 토큰 감소 기술을 통해 모델의 효율성과 이해도를 크게 높였다. 또한, 업계 선두주자인 Gemini 1.5 Pro, GPT-4o와 비교했을 때, 더 빠른 응답 속도와 더 뛰어난 성능을 더 낮은 비용으로 제공한다.
트웰브랩스 이승준 CTO는 “페가수스-1.2는 혁신적인 시공간 정보 이해 방식을 도입해 영상을 정확하게 이해하고, 다양한 산업 현장의 요구사항을 충족시킬 수 있게 되었다”고 말했다.
이미지 제공: 트웰브랩스(twelvelabs.io)