대규모 데이터를 처리하는 데이터 베이스에대해 찾아보다 보니 구글 빅쿼리(Google BigQuery)라는 데이터 웨어하우스에 대해 알게 되었다. 필자는 지금까지 HDFS를 이용한 데이터 분산 처리로 대규모 데이터를 다뤄봤을 뿐 다른 플랫폼을 사용해본적은 없었다. 빅쿼리를 알게된 김에 HDFS의 단점을 보완하는 빅쿼리를 구축해보려고한다. 구글 빅쿼리란? 인프라를 관리할 필요 없이 쿼리가 실행가는한 데이터 웨어하우스이며 클라우드 서비스를 통하여 제공되기 때문에 설치를 할 필요도 없이 RDBMS에서 사용되는 SQL 쿼리를 그대로 사용가능하다. 또한 페타바이트에 달하는 쿼리도 매우 빠른 속도로 처리가 가능하다. 하지만 장점만 있는 것은 아니다. 빅쿼리는 데이터가 무결하고,정확한것을 가정하고 사용자에게 제공하는 ..