GPT-4o 출시! : 실시간 통번역, 듀엣 등 여러가지 신기능

한국 시간으로 2024년 5월 14일 새벽 2시에 Open AI 공식 유튜브 채널에서 GPT-4o가 공개되었습니다.

사람들은 이번 유튜브 스트리밍에서 시연하는 여러가지 신 기능들을 보고 놀라움을 감추지 못하였는데요.

어떠한 것들이 추가되었고, 특히 어떠한 것이 사람들을 놀래켰는지 자세히 알려드리겠습니다!

GPT-4o 란?

► GPT-4o 바로가기

우선 GPT-4o 는 GPT-4의 상위버전으로 이번 주요 업데이트는 텍스트, 음성, 시각 데이터를 실시간으로 처리할 수 있다는 것을 보여주고 있습니다.

그럼 영상에 나온 주요 업데이트를 세부적으로 나누어 설명해 드리겠습니다.

GPT-4o
GPT-4o 출시! : 실시간 통번역, 듀엣 등 여러가지 신기능 2

1. 실시간 멀티모달 처리

우선 멀티 모달 ( Multi-Modal ) 은 여러 종류의 데이터 유형을 동시에 처리할 수 있는 능력을 말합니다.

이는 텍스트, 음성, 이미지 등 다양한 형태의 입력을 이해하고 상호작용하는 것을 포함합니다.

GPT-4 에 이미 있는 기능이었습니다. 그러나, 실제로 텍스트는 만족할 만한 성능을 보여주었으나 이미지나 음성에서는 부족하였던 점이 많았었습니다.

GPT-4o는 이러한 문제를 개선하여, 이미지를 업로드 하면 이를 분석하고 텍스트나 음성으로 설명할 수 있게 되었습니다.

추가로 실시간으로 데이터를 처리한다는 점에서 대화 중에도 빠르고 정확하게 반응할 수 있게 되었습니다! ( 이 부분은 바로 뒤에 더 자세히 말씀드릴게요! )

2. 응답 속도 향상 및 STS 기능 추가

GPT-4o 는 실시간 대화 능력이 크게 향상되었다는 것이 확 체감이 되었습니다.

기존 GPT-4 로 영어 소통을 시도해 본 적이 있으나, 음성 인식까지 텍스트로 변환하고 이해한 다음 저에게 답변해주는 것이 답답했었으나,

이번에는 이러한 점을 매우 개선하여, 음성 입력에 대하여 0.23초 안에 응답할 수 있어 인간보다 빠른 반응속도를 보여주었습니다.

추가로 STS ( Speech To Speech ) 기능이 추가되어 음성을 텍스트로 변환하는 단계를 거치지 않고 바로 음성으로 응답할 수 있다고 해요!

3. 이미지와 텍스트 통합 처리

이미지를 분석하여 설명할 수 있는 기능이 넓어졌다고 말하는 것이 맞는 것 같습니다.

텍스트와 이미지를 동시에 처리할 수 있어, 사진 속 사람의 표정을 읽고 감정을 분석하거나, 복잡한 이미지를 설명하는 것이 가능해졌습니다.

이러다가 AI가 곧있으면 예술 작품에 대하여 자기 의견을 내는 것이 가능해 지는 것이 아닐까 싶습니다.

4. 한국어 처리 능력 향상

지금까지 GPT-4를 사용할 때면, GPT-3.5에게 한국어로 질문할 때와 달리 매우 느린 속도로 나오는 답변을 보면서 실망했던 적이 많았습니다.

이번에는 한국어와 같은 비영어권 언어의 처리 속도와 정확성이 크게 향상되었습니다. 한국 문화와 관련 지식도 추가되어서 자연스러운 대화가 가능해졌어요.

그러나 아직은 한국어 전문 용어를 설명할 때는 다른 서비스에 비해 부족한 점이 있기는 합니다.

5. 감정 인식 및 자연스러운 대화

사람의 말투와 표정을 읽고, 무려 “감정” 을 이해할 수 있습니다.

적절하게 말투를 변화 시키면서 웃거나 과장된 말투와 농담을 하는 것을 보면, 아이언 맨에 나온 자비스가 현실로 나온줄 알았습니다.

T 인 인간인 저보다도 공감을 잘하는 AI라니 좀 슬프네요.

6. 영상 통화 기능

마지막으로 감정 인식에서도 말씀드린 표정을 읽는 부분에 해당하는 부분입니다.

사람과 영상 통화를 하는 것과 같이 상호작용이 가능해 졌습니다. 사용자의 표정, 외모, 패션을 평가하고 주위 상황을 통합적으로 인식하여 사용자의 상태를 판단한다고 합니다.

곧 있으면 GPT 에게 심리 상담을 받을 수 있는 날이 오지 않을까 싶습니다.

놀라웠던 점

스트리밍 외에 여러가지 데모 영상들을 공개하였습니다.

이 중에서 특히 놀라움을 주었던 영상 몇개를 소개해 드리겠습니다.

1. 실시간 통번역

이 영상을 보면, 여성은 이탈리아어로 남성은 영어로 대답하는 것을 실시간으로 자연스럽게 상호작용 하는 것을 볼 수 있습니다.

특히 1분 20초 쯤, 거의 마지막 쯤에 GPT가 사람들의 웃음을 듣고 그걸 살짝 웃으면서 대답하는 것을 보면서 소름이 살짝 돋았습니다.

2. 데스크톱 버젼

현재는 인터넷 홈페이지로 접속하는 것과 휴대폰 어플리케이션으로 접속하는 방법 두 가지만 있었다면,

이제는 데스크 톱 버젼이 나와, 스크린 화면을 실시간으로 확인하면서 사용자에게 이에 대한 정보를 실시간으로 전달해주는 것을 확인할 수 있습니다.

영상에서는 날씨 그래프를 분석을 하는 것을 보여줍니다.

아래는 macOS 용 GPT 앱 다운로드 방법입니다!

3. GPT 간의 상호작용 ( 듀엣송 )

이 영상에서는 한 GPT는 볼 수 없고, 나머지 하나의 GPT는 카메라를 통해 볼 수 있는 것으로 시작합니다.

그래서 볼 수 있는 GPT는 현재 보고 있는 것을 설명하고, 이에 대하여 다른 하나는 궁금한 점에 대하여 물어가면서 티키타카를 이어갑니다.

여기까지만 해도 놀라웠는데, 더 놀라운 점은 중간에 노래를 시키는 장면입니다.

한 소절 씩 부르는 것으로 보여주었는데, 중간 노래같지 않다는 지적에 중간에 수정하는 것이 매우 놀라웠습니다.

마치 옛날에 시리와 빅스비의 대화를 보는 듯한 느낌을 주었습니다.

무료 사용자 업데이트

현재 무료 사용자들에게 제한적으로 GPT-4급의 모델인 GPT-4o 를 제한적으로 사용할 수 있게 해줌과 동시에 GPT Store를 사용할 수 있게 해주었습니다.

GPT Store는 기존 유료 사용자들만 사용할 수 있는 기능 이었는데, 제작자들이 프롬프트를 작성하여 다른 사용자들에게 배포하는 형식의 스토어입니다.

결론

제가 저번 포스팅에서 GPT 유료 버젼과 Claude 유료 버젼을 무료로 사용할 수 있는 방법에 대하여 알려드렸었습니다.

그러나, 저번 알려드린 방법에서는 모든 기능을 사용할 수는 없고, 단순 채팅 기능 만이 사용가능하여서 아쉬운 것 같습니다.

채팅 기능 만을 본다면, 클로드는 이제 GPT-4o로 인하여 다시 역전 되었다고 볼 수 있게 되었다는 것이 맞는 것 같습니다.

이 게시물이 얼마나 유용했나요?

평점을 매겨주세요.

평균 평점 5 / 5. 투표 수 : 125

투표한 사람이 없습니다. 가장 먼저 게시물을 평가해 보세요!

Leave a Comment

error: 우클릭 할 수 없습니다.