How Reuters’s Revolutionary AI System Gathers Global News

인터넷의 등장과 그에 따른 정보 폭발은 기자들이 정확한 뉴스를 빠르게 생산하는 일에 어려움을 만들고 있다.

최근 테크놀로지리뷰에 따르면 로이터는 arXiv에 발표한 논문에서 자동으로 뉴스를 작성한다고 발표했는데, 로이터가 직면한 문제는 사건에 대한 이해를 왜곡하는 가짜 뉴스를 어떻게 효과적으로 차단하는 것인가이다.

그럼에도 불구하고 AP와 같은 통신사들은 자동 기사 작성에 앞서 나가고 있다. 이 기사들은 금융이나 특정 스포츠 뉴스처럼 미리 작성된 기사 템플릿에 결과(“X사는 3분기에 Y백만 달러의 수익을 기록했다고…”)를 채우는 식으로 작성되고 있다.

테크놀로지리뷰는 “이처럼 언론사들이 자동 기사 작성에 압박을 받고 있는 가운데 로이터는 거의 완전하게 자동화된 특종 식별 기술을 발표했지만 이런 시스템은 불순한 의도를 가진 교란자라는 문제를 가지고 있다”고 보도했다.

로이터 트레이서라는 새로운 시스템은 트위터를 글로벌 센서로 사용하여 어떤 일이 벌어지고 있는지를 탐지한다. 여러 종류의 데이터를 마이닝하고 머신러닝을 통해 가장 관련된 사건을 식별하고 주제를 결정하며 우선순위를 정한 다음 헤드라인과 요약 기사를 작성한다. 이처럼 작성된 뉴스는 로이터의 전 세계 통신망을 통해 배포된다.

첫 단계는 트위터 데이터를 공급하는 것이다. 트레이서는 하루에 전체의 2%에 달하는 1200만 건의 트위터 메시지를 분석하다. 이 중 절반은 무작위로 선정하고 나머지는 로이터 소속 기자들의 계정에서 가져온다. 여기에는 다른 언론기관, 중요 기업, 영향력 있는 개인 등이 포함된다.

다음 단계는 뉴스가 발생했는지를 결정하는 것이다. 트레이서는 여러 사람이 동시에 동일한 이야기를 할 때라고 가정한다. 클러스터링 알고리즘을 이용하여 이 대화를 그룹화한다. 물론 여기에는 스팸, 광고, 일상 대화 등도 포함될 수 있다. 이 중에 몇 가지만 뉴스로서 가치가 있을 뿐이다.

이 다음은 이 사건을 분류하고 우선순위를 매기는 작업이다. 트레이서는 여러 알고리즘을 사용하여 이 작업을 수행한다. 첫째는 대화의 주제를 식별한다. 다음 로이터와 주요 언론사의 트위트 메시지로 데이터베이스화된 주제와 비교한다. 이 단계에서 도시 데이터베이스와 지역 기반 키워드를 이용하여 사건이 발생한 지역도 판단한다.

대화 혹은 소문이 잠정적으로 뉴스가 될 수 있다고 식별되면 그 정확도를 측정한다. 트레이서는 이전 메시지 중에 현재 언급되고 있는 메시지가 있는지 추적하여 출처를 파악한다. 이후 가짜 뉴스를 생산한 주체인 내셔널 리포트(National Report)나 풍자 언론 사이트 더 어니언(The Onion) 등이 아닌지를 검색한다. 

이후 마지막으로 헤드라인과 요약 기사를 작성한 후 로이터를 통해 뉴스를 배포한다. 실제로 뉴스 작성을 위해 사용하는 1200만 건의 메시지 중에 약 80%는 노이즈로 판정된다. 나머지 6000개의 클러스터는 10개의 서로 다른 알고리즘을 사용하는 13개의 서버에서 분석된다.

로이터는 전 세계에 2500명의 기자를 두고 트위터를 포함한 여러 뉴스 출처를 통해 매일 3000 건의 뉴스 통보를 생산한다. 이 중에서 약 250개가 뉴스로 작성된다. 트레이서가 작성한 기사를 BBC와 CNN과 비교했을 때 2%의 트위터 메시지로 작성한 기사가 약 70%의 기존 기사를 커버하는 것을 알 수 있었다.

그리고 트레이서는 더 빨리 이런 작업을 수행한다. 로이터 연구개발팀은 그 좋은 예로, 지난 10월 라스베이거스 총격 사건의 경우를 들면서, 새벽 1:22에 트레이서가 뉴스를 탐지했고 1:38에 기사 작성 기준을 충족한 후 1:49에 사고를 보도했다고 밝혔다.

테크놀로지리뷰는 “흥미로운 점은 이런 시스템을 교란시키는 것이 얼마나 쉬운가 하는 점”이라며 “불순한 교란자가 트위터 메시지를 통해 트레이서를 바보로 만들 수도 있지만 사람도 속임수에 당하는 일이 있는 것을 생각한다면 시스템의 유용성을 판단하는 것은 어려운 일이다. 언론 분야에서 인간의 역할은 분명히 있지만 향후 자동화가 진행될 것이 분명한 가운데 아직 결정되지 않은 상태”라고 보도했다.

저작권자 © 한국원자력신문 무단전재 및 재배포 금지