- 総数20億以上ものデータを扱うため、分析処理に数分から数十分かかる
- 速度とデータ容量の改善をしたい
- 過剰な計算処理を防ぐため、分析処理を行う仕様を変更し、処理時間を数秒から数十秒に短縮
- 仕様変更により、保有できるデータ容量も100億まで増加
20億以上のデータをQlikViewで処理するも、速度に課題が
「いま市場では何が売れているか」「どのような人に購入されているのか」。こうした消費者の購買動向データをもとに、小売企業向けサービスを提供しているのが情報サービス企業A社だ。購買動向データ内には、全国数千万人規模の消費者データが集約されている。誰が何をどのようにして購入したのかを分析し、得られた調査データを顧客へ提供することで、顧客は年齢や性別、地域別などの消費者の購買行動やトレンドを把握することができる。A社はこういったサービスをSaaSにて提供していた。
このSaasサービスのデータ分析を支えていたのが「QlikView」だったのだが、A社はある課題を抱えていた、とINSIGHT LABの担当エンジニアは言う。
「最も大きな課題は分析にかかる時間でした。総数20億以上ものデータを扱っているため、お客様が分析を行うたびに数分から数十分かかってしまう。お客様の満足度向上のためにも、元の分析機能は残しつつ、速度とデータ容量の改善をしたいとご依頼をいただき、このプロジェクトがスタートしました」
現状を紐解き、過剰な計算処理が判明
導入されていたQlikViewを調査したところ、データに対し可能な限り紐づけが行われていることが判明した。これにより本来処理不要なデータに対しても計算処理が行われてしまい、結果として分析に時間がかかってしまっていたのだ。システムの内容修正で対応できそうな問題ではなかったため、分析を最適化するシステムをゼロから構築することになった。
過剰な計算処理を防ぐには、元データを一括で分析していた仕組みを再構成する必要がある。そこでINSIGHT LABは、それぞれの分析手法に応じたデータテーブルを事前に抽出する仕組みをVBScriptで構築。それぞれのテーブル内だけで分析処理を行う仕様にすることで、大幅な速度改善を試みた。これにより、保有できるデータ容量も100億まで増やすことが可能になり、速度とデータ容量の改善という課題を解決することができる。
複雑な条件、膨大なデータ量に苦戦するも、速度改善に成功。顧客拡大の一助に
しかし、これらを踏まえたシステムの再構築は容易な作業ではなかった。
「分析に利用するデータは単なる購買データではなく、誰が何を購入したのかがレシート単位でわかるもの。購入者ごとに購買データが紐づけされているため、どうしても母集団のデータ抽出ロジックが複雑になってしまいます」
こういった複雑な条件かつ20億以上のデータソースが原因となり、当初は分析処理を実施した際、数式・集計ロジックのずれなどが多発していた。それらをひとつずつ解決し、無事にリリースされた新システムでは、数分から数十分かかっていた分析処理がわずか数秒から数十秒に短縮。大幅な速度改善に成功した。
この結果を受けて、A社からは好評の声が届いたという。
「分析処理のスピードアップがお客様の満足度向上に繋がり、結果として顧客拡大の一助となったとお喜びいただけました。今後もデータ分析のプロフェッショナルとして、分析ツールの改善・再構築など、お客様のご要望にお応えできる解決策をご提案していきたいと思います」
当サービスに関するお問い合わせや資料請求は