AI Call 인공지능 통화 기술과 트렌드 - 구글 Duplex, 네이버 AiCall

썸네일_AI콜

2018년 5월 8일 구글 연례 개발자 행사(Google I/O)에서 발표한 구글 듀플렉스(Google Duplex)를 시작으로 플랫폼 사업자들 간의 AI Call 전쟁 서막이 열렸다. 기존의 시리(Siri), 빅스비(Bixby) 등이 음성으로 명령을 내리면 정해진 대로 답변을 해주는 '음성비서' 수준이었다면 구글 CEO 선다 피차이(Sundar Pichai)가 소개한 구글 듀플렉스는 기존의 음성비서 AI와는 확연하게 차원이 다른 수준이었다.

선다 피차이는 Keynote 발표에서 일상의 차량 엔진오일 교환, 배관공 호출, 미용실 예약 등 많은 일들이 전화 통화로 진행된다는 부분에 주목하여 Google이 사용자들을 서비스 제공업자와 더욱 편하게 연결하는 방법에 대한 많은 고민을 했다고 한다.

필자는 네이버 N예약을 많이 사용하여 온라인 예약이 많이 활성화되어 있다고 느끼지만 미국의 경우는 많은 서비스 제공업자들이 온라인 예약 서비스를 제공하고 있지 않으며 AI가 이를 더 편리하게 해결할 수 있는 대안이 될 수 있다고 한다.

아래 Youtube 동영상을 꼭 한번 보길 바란다. Google Duplex가 실제로 미용실에 전화를 걸어 예약을 진행하는 과정을 시연했는데 사람의 뉘앙스처럼 의성어를 써서 '음-흠 (Mm-hmm)' 이 화제가 되었다. 현장 분위기가 재밌다. 

구글CEO 선다 피차이의 AI Call 시연, 한글자막 있음

국내/해외 플랫폼 사업자 중 대표적으로 '구글'과 '네이버'가 준비하고 있는 AI Call(인공지능 통화) 기술의 특징과 트렌드에 대해 한번 살펴보자.

구글 '듀플렉스' (Google Duplex)

구글의 듀플렉스는 '전화를 거는 고객'의 입장에서 인간처럼 전화를 걸고 대화를 하며 예약을 잡아주는 서비스이다. 안드로이드 및 iOS 스마트폰에서 사용 가능하며 구글 어시스턴트(Google Assistant)를 기반으로 한다. 예약하고 싶은 레스토랑 이름과 참석 시간 및 인원을 말해주면 듀플렉스가 식당에 직접 전화를 걸어 예약 가능 유무를 확인하고 예약 완료 시 전화로 알림을 받거나 이메일/캘린더로 초대 받을 수 있게 되는 프로세스이다.

구글듀플렉스도식화
구글 듀플렉스와 구글 어시스턴트 및 사용자간 워크 플로우(Work Flow)를 도식화한 그림

구글은 지속적인 대화(Continued Conversation)를 실제 사람과 유사한 보이스(New Voice)와 복합적인 행위(Multiple Actions)로 구현하기 위해 여러 가지 기술을 적용했다. 새로운 자연어 처리 기술(Natural Language Understanding), 신경망 기반의 딥러닝(Deep Learning), 문자를 음성화해주는 TTS(Text-to-Speech), 그리고 가장 중요한 RNN(Recurrent Neural Network) 기술을 적용해 자연스러운 대화를 만들 수 있게 되었다고 한다.

‘순환 신경망’이라고도 불리는 RNN은 구글 어시스턴트가 실제 상황에서 부딪힐 수 있는 여러 가지 난점을 극복하기 위해 구글의 ‘텐서플로우 익스텐티드(TFX)’를 통해 설계되었으며, 이러한 기술을 통해 단순히 발화된 단어뿐만 아니라 각 단어가 활용되는 전체적인 대화의 맥락까지도 이해하고 처리하게끔 설계되었다.

또한 이러한 대화의 맥락에 맞는 고정밀 데이터를 확보하기 위해 단순 단어의 의미에 의한 훈련이 아닌 익명의 전화 통화 데이터 뭉치를 통해 순환 신경망을 학습시켜 지금과 같은 결과를 얻었다고 발표했다.

 

네이버 'AI콜' (AiCall)

네이버 AiCall(가칭)은 구글과 반대로 '전화를 받는 점주'의 입장에서 식당에 전화를 건 고객을 대상으로 인간처럼 대화를 하며 예약 처리해주는 서비스이다. 네이버 글레이스라는 사내독립기업이 제공을 준비하고 있으며 '스마트 플레이스' 라는 업체 정보 및 비즈니스 관리 도구를 통해 정답형 정보를 찾는데 0.2초 밖에 걸리지 않는다고 한다.

AI콜은 사람과 통화하듯이 구현하는 게 관건이기 때문에 빠른 응답속도는 필수 과제이다. 점주가 '050'(안심번호)로 시작하는 기존 전화번호 이용이 가능하며 기본적인 정보 제공 뿐 아니라 인기 메뉴 추천, 추가 요청사항 수집까지 확장해 나갈 계획이라고 한다. 능동적 소통을 통해 지역 소상공인 사업 편의성 증진이 목표이며 네이버 인근 식당 30개 대상으로 시범 운영해 19년 연내 아웃백 미금점 서비스를 제공할 예정이라고 한다.

아래 동영상은 네이버 AiCall의 시연 영상이다.

그 외 카카오 '디플로 프로젝트(DFLO Project)'

카카오의 디플로(DFLO)는 '거부감 없는 AI'를 위해 사용자의 컨택스트를 이해하며 발화하는 AI 엔진에 도전하는 프로젝트이다. 듀얼(Dual), 딥러닝(Deep Learning), 다이얼로그(Dialog)를 상징하는 'D'와 흘러감을 뜻하는 '플로우(Flow)의 합성어이다. 호출어와 명령어로 이뤄진 현재의 대화형 AI에서 벗어나 사람처럼 자연스럽게 대화하고, 전화 예약 등 특정 업무를 대신해줄 수 있는 AI를 만들겠다는 계획이다.

식당 예약, 회의 스케줄 잡기, 드라이브 스루(drive-through)에서 커피 주문받기 등 대화의 범위가 좁고 목표가 분명한 과업부터 시작하여 어떤 문의가 들어올지 모르는 콜센터 등에 적용할 수 있도록 고도화 하는 것이 목표라고 한다.

자연스러운 대화를 구현하기 위한 어려움

아래는 듀플렉스를 개발한 구글 개발 관계자의 전언이다. "사람들은 서로 이야기할 때 컴퓨터와 대화할 때보다 복잡한 문장을 사용합니다. 종종 중간 문장을 바로잡거나, 필요한 것보다 더 장황하거나, 단어를 생략하고 대신 문맥에 의존합니다."

Google AI Blog 발췌 : https://ai.googleblog.com/2018/05/duplex-ai-system-for-natural-conversation.html

여기서 우리가 눈여겨봐야 할 것은 단순한 표현법을 넘어서 인공지능의 상황에 대한 대처이다. 두 번째로 등장하는 헤어샵 예약에서는 최초로 시도했던 시간 12시에 예약이 불가능하자, 10시로 변경하는 유연성도 보여준다. 두 가지 경우에서 보이는 듀플렉스의 행동은 기계 같은 인공지능이 아니라 조금 더 사람 같은 인공지능이다. 명령에만 수동적으로 충실히 움직이는 기계가 아니었던 것이다. 이 발표 이후 바로 언론에서는 아이언 맨의 자비스와 비교하기 시작했다. 명령에만 의한 수동적인 행동이 아닌 자비스처럼 전체적으로 상황 판단을 할 줄 안다는 점에서 말이다.

블로그 인용 : https://post.naver.com/viewer/postView.nhn?volumeNo=16464353&memberNo=2361328

 

마치며

구글과 네이버의 AI Call 콘셉트가 전혀 다른 걸 알 수 있었다. "구글은 왜 '전화를 거는 고객'의 입장에서 서비스를 만들고 네이버는 왜 '전화를 받는 점주' 입장에서 서비스를 만들었을까?" 개인적인 생각으로는 AI Call을 정확도 높게 구현하기 위해서는 전화 거는 사용자의 빅데이터가 먼저 많이 모아져야만 다양한 상황에서 점주 대신 AI가 응대할 수 있기 때문에 구글이 한 수 더 멀리 보고 앞섰다는 생각이 든다. 

AI Call이 상용화 되기 위해서는 자율주행과 마찬가지로 윤리적 제도가 먼저 마련되어야 할 것이다. 인공지능이 예약시간 또는 예약인원을 전혀 엉뚱하게 예약했거나 또는 점주 대신 받은 인공지능이 엉뚱하게 주문을 받아서 전혀 다른 음식을 배달해 주면 누가 책임을 져야 할 것인가? (구글? 고객? 점주?) 인공지능은 편리함과 사고 리스크의 양날의 검이기 때문에 현재는 제도가 기술을 따라가지 못하고 있지만 점차 윤리적 제도가 마련되면 우리는 전화통화도 더 편리하게 누릴 수 있는 세상이 찾아올 것이다. 

댓글

Designed by JB FACTORY