[테크인사이드 #19] 첨단 기술에 사람의 손길을 더해 완벽을 추구하다,영어 단어 연상 스타트업 ‘트윈워드’

점점 발달해 가는 기술. 그 궁극적인 목적은 '사람처럼'이 아닐까? 꼭 '사람처럼' 움직이는, 그래서 귀찮지만 누군가 꼭 해야만 하는 역할들을 대신하는 것이 진보해가는 기술의 궁극적 역할인 것이다. 이를 실현하기 위해 머신러닝, 빅데이터 등 사람의 손길을 대신해가는 기술들이 속속들이 등장하고 있다. 하지만 아직까지도 기술이 따라 하지 못하는 사람만의 무언가가 있고 그 차이를 완전히 메꾸지는 못하고 있다. 여기 완벽하지 못한 기술과 컴퓨터에 사람의 손길을 더해 완벽함을 탐하는 영어 단어 연상 스타트업, 트윈워드가 있다.

DSC_0861

- 트윈워드의 주요 사업에 대한 소개 부탁합니다.

트윈워드는 영어 단어 연상을 만드는 회사입니다. 빅데이터를 활용해 수많은 단어의 관계를 맵핑하는 것이 트윈워드가 하는 일이죠. 기존에 단어 연상이라 하면 통계적인 것이 전부였습니다. 예를 들어 한 문장 안에 두 단어가 자주 등장한다면 그 두 단어는 어떠한 연관이 있다고 봅니다.

예를 들어 아버지라는 단어와 카메라라는 단어보다 아버지와 어머니가 한 문장 안에서 더 자주 쓰일 것입니다. 이것은 아버지와 카메라보다 아버지와 어머니가 더 관련 있는 단어라는 것을 말하는 것이죠. 인터넷에 있는 오만가지 단어들을 모아서 통계를 내면 단어들의 관계를 알아볼 수 있는 것입니다. 하지만 이러한 통계적 방법에는 한계가 있습니다.

저희가 구글 등 인터넷의 자료들을 모아서 아버지, father의 유의어를 뽑아봤습니다. 그 결과 10위와 15위에 sex와 rape가 꼽혔습니다. 아버지와 유의어로 섹스와 강간이 선정된 거죠. 우리는 이 결과를 보고 의아하게 생각했습니다. 누가 봐도 쉽게 납득 할 수 없는 이상한 결과니까요. 이 결과는 통계적인 단어 연상의 한계를 보여주는 것입니다. 심리학자들은 사람들이 생각하는 것과 말하는 것이나 행동하는 것에는 차이가 있다고 말합니다. 하지만 통계에 쓰이는 데이터는 사람의 머리에서 꺼내오는 것이 아니라 사람들이 말한 것이나 글로 쓴 것을 정리한 것입니다. 아무리 뛰어난 연상 알고리즘을 가지고 있더라도, 이미 왜곡되어 있는 인터넷 자료 기반으로 분석하여 추출하는 건 한계가 있습니다. ‘Garbage in, Garbage out’이죠.

다시 아버지의 유의어를 찾은 예로 돌아가 봅시다. 아버지의 유의어로 섹스와 강간이 꼽힌 것을 보고 대부분 사람은 이상하다고 생각합니다. 우리는 이렇게 사람이 직접 데이터 처리에 관여해야 한다고 생각했습니다. 통계적 처리의 부족한 부분을 사람이 직접 참여하는 크라우딩 소싱으로 채우려고 합니다.

저희 사업은 크게 두 부분으로 나뉠 수 있습니다. 단어 연상을 위해 데이터를 크라우드 소싱하는 부분과 모아진 데이터를 처리해 단어 연상을 매핑하는 부분입니다.

 

- 트윈워드의 핵심 기술은 무엇인가요?

앞서 말씀드린 것처럼 통계적 처리와 함께 사람이 직접 입력한 데이터를 포함하여 단어 연상 데이터베이스를 구축하는 게 저희의 핵심기술입니다.

벡터 공간, 쉽게 말해 이 방과 같은 3차원 공간에 단어들이 둥둥 떠 있다고 생각하시면 됩니다. 유사성이 큰 단어들은 가까이에, 의미가 먼 단어들은 멀리에 둥둥 떠다니는 것입니다. 앞서 말한 예에서 보면 아버지와 어머니는 비교적 가까이에 붙어 있을 것이고 카메라는 저 멀리에 떠 있겠죠. 통계 처리된 결과와 크라우딩 소싱된 사람들이 직접 입력한 데이터를 모아서 이 방안에 단어들을 배치합니다. 이렇게 배치돼 있는 단어들을 활용해 단어 간의 관계를 파악하고 분류합니다. 단어가 배치돼 있는 방안에 내가 원하는 기준대로 칸막이를 치면 분류가 되는 거죠.

Wording_Lab

단어 연상 맵핑을 완성하기 위해 사람들이 직접 단어 간의 유사성에 관한 데이터를 입력해야 하는데요. 이 데이터는 앱과 서비스로 소싱을 합니다. 최근 저희가 신규 서비스 워딩랩(Wording Lab)을 론칭했습니다. 워딩랩은 기자나 블로거 등 글 쓰는 사람들을 위한 단어 추천 서비스입니다. 글 쓰는 사람들을 만나 글을 쓸 때 어떤 점이 어려우냐고 물어보니 의외로 단어가 잘 생각나지 않는다는 이야기를 많이 들었습니다. 보통 글 쓰는 일을 직업으로 하는 사람들은 단어, 문법은 기본으로 알고 있겠지 생각하지만 직업인 만큼 단어 선택에도 신중해지고 막상 쓰려면 기억이 안 나는 경우가 많다더라고요. 그래서 글을 쓸 때 비슷한 단어나 유사어를 추천해주는 서비스를 개발하게 된 겁니다.

또 하나 준비 중인 서비스는 심리테스트입니다. 예를 들어 설명해보죠. 땅콩 하면 어떤 게 떠오르세요? 사람마다 떠올리는 게 다 다를 텐데요. 최근 있었던 땅콩 회항 사건이 생각나는 사람도 있고 맥주를 떠올리는 사람도 있겠죠. 별 이유 없이 떠올린 단어지만 여기에서 평소 관심 있어 하는 분야나 성격, 심리를 파악할 수 있습니다. 땅콩 회항 사건을 떠올린 사람은 시사나 트렌드에 관심이 많은 사람일 수 있고요, 맥주를 떠올린 사람은 술을 좋아하는 사람일 수 있죠. 이와 같은 단어선택 심리테스트는 칼 융(Carl Jung)이 만든 단어 연상 기법에 근거를 두고 있습니다.

워딩랩에서 사람들이 제시된 단어 중 어떤 유사어를 선택하는지, 또 심리테스트에서 사람들이 연관성 있다고 떠올리는 단어는 무엇인지 그 데이터를 모아서 단어 연상 데이터베이스 구축에 활용하는 것입니다.

 

- 관련 국내외 최신 트렌드는 어떤가요?

우선 텍스트 분석을 하려는 곳이 점차 늘어나고 있는 것 같습니다. 요즘 나오는 서비스 대부분에는 텍스트 분석을 할 수 있죠. 콘텐츠 추천이 될 수도 있고 오타 수정, 이메일 자동 분류기, 댓글 필터링 등 활용할 분야가 많죠. 서비스에 이런 기능을 추가하고 싶어하는 분들이 저희를 찾아주시기도 합니다. 특히 스타트업 쪽에서도 관심이 많더라고요. 그런데 저희가 한국어는 서비스하지 않아서 적용할 수 있는 부분이 많지 않기는 합니다. 한국어 서비스 론칭하면 연락 달라는 곳도 많았어요. (웃음) 저희 말고도 많은 곳에서 시도하고 있죠. 하지만 아직 수준이 그렇게 높지는 않습니다.

similartos

- 경쟁사가 있다면?

구글, 마이크로소프트와 같은 굵직한 회사들이 단어 연상 분야에서 열심히 연구하고 있습니다. 구글 셋츠(Google Sets)라고 해서 유의어나 연상어를 보여주는 서비스도 나온 적이 있고요. 그 외에도 오픈 딕셔너리를 추구하는 회사들이 있습니다. 위키피디아처럼 누구든 연상어를 입력해 그 기반으로 서비스하는 윅셔너리(Wiktionary)라는 서비스도 있고요. 다양한 서비스가 있지만 저희가 차별점으로 가져가는 부분까지 간 회사는 아직 못 본 것 같습니다.

 

- 비즈니스적 측면에서 앞으로 계획이 있다면?

사실 올해는 트윈워드에게는 아주 재미있는 한 해가 될 것 같습니다. 지난해 기술력을 인정받아 연구개발지원금을 받게 돼 지금은 저희 팀원이 네 명이나 됩니다. (웃음) 마케팅 관련 인력도 충원해서 이제는 마케팅과 개발을 함께 진행할 수 있게 됐습니다. 이전까지는 개발할 때는 개발만, 마케팅할 때는 마케팅에만 집중할 수밖에 없었거든요. (웃음) 얼마 전 워딩랩을 론칭해서 지금 시장의 반응을 보는 중이고요. 오는 4월 심리테스트 서비스도 론칭할 예정입니다. 그리고 하반기에는 마케팅에 집중할 계획입니다.

 

- 테크 스타트업을 하며 가장 힘들었던 점이 있었다면?

개발자 출신이다 보니 영업이나 마케팅이 너무 힘들었습니다. 사실 처음에는 “영업, 마케팅 뭐 어렵겠나? 모르면 배워서 하면 되지” 하고 생각했습니다. 이게 조금 엔지니어들의 성향인 것 같습니다. (웃음) 나중에 얼마나 어려운지 깨닫게 됐지만 여전히 쉽지 않더라고요. 제가 잘 알지 못하니 사람을 뽑기도 쉽지가 않았습니다. 개발자와 달리 어떤 사람이 우리에게 필요한 사람인지 파악조차 할 수 없었죠. 그렇다고 데려와서 제가 가르쳐 줄 수도 없고요. 그런 점이 좀 어려웠습니다.

 

- 우리나라에 테크 스타트업이 더 많이 위해 개선됐으면 좋겠다 하는 점이 있다면?

좀 더 나이 든 사람들이 많이 창업할 수 있었으면 좋겠습니다. 개인적으로 한 분야에서 10년은 있어야 그 기술을 이해하고 잘한다고 말할 수 있지 않나 싶습니다. 그래도 쉽지 않거든요. 그러기 위해서 나이 든 사람에게도 창업 지원을 많이 해줬으면 좋겠습니다. 창업 지원 프로그램을 보면 ‘만 39세 이하’라는 기준이 있습니다. 무조건 마흔 넘어서 해야 한다는 것도 말이 안되지만 무조건 마흔 전에 해야 한다는 것도 어불성설이라 생각합니다. 통계적으로도 40대는 30대에 뒤이어 가장 많이 창업하는 연령대 2위라고 알고 있습니다.

 

- 퓨처플레이 한재선 CTO가 보는 트윈워드는?

연상 단어를 찾아주는 기술은 텍스트 분석 기술에서도 다방면으로 활용될 수 있는 요소 기술입니다. 따라서 트윈워드의 기술은 다양한 서비스에 적용될 수 있는 장점을 가지고 있지요. 다만 트윈워드가 크라우드소싱 기법을 접목하는 모델이기 때문에 기술로서만 해결할 수는 없을 겁니다. 즉 사람들을 어떻게 모을 것인지가 중요해지는 것이죠. 따라서 마케팅 측면에 신경을 많이 써야 하지 않을까 생각합니다. 또한, 스타트업이나 대학교, 연구소 등과 같이 신기술 도입에 적극적인 곳과 협력을 통해 트윈워드 기술의 적용사례를 늘리는 것이 급선무일 것 같습니다. 

 

 

 

사진 출처 : Sentiment Tutorial 

최 지연
오늘 보다 내일이 더 기대되는 여자. 매일매일 배우는 자세로 글 쓰겠습니다.

익명 댓글

avatar