課題解決のプロフェッショナル|ソリューションアーキテクトのリアル

「データは、現実世界をそのまま映し出す鏡ではない。データサイエンスの面白みは、人間の偏見やバイアスを超え、AIを通してより正確に「現実」を把握できるところ。」-そう語る彼女に、AIソリューションアーキテクトの仕事を通じて、データサイエンスの世界で描く未来について話を聞いた。

BOURKE, Rebecca (バーク・レベッカ)

ライオンブリッジジャパン株式会社 
ライオンブリッジ AI・Solutions Architecht(ソリューションアーキテクト)

アイルランド出身。大学卒業後、母国でアドビシステムズ株式会社へ入社、2016年に東京大学大学院に入学。図書館情報学研究室にて情報格差や災害時のツイッターデータ活用方法を中心に研究し、2018年に学修士号を取得。プロジェクト管理者としてライオンブリッジジャパン株式会社に入社後、2020年にAIソリューションアーキテクトに異動。機械学習用データと公平性に関心があり、ワクワクしながら日本のAI業界について学んでいる。仕事以外では、野良猫シェルターでボランティア活動を行なっている。

R²インタビューデータサイエンスと彼女のルーツ
仕事内容

―現在のあなたの仕事内容、データサイエンスとどのように関りがあるかを教えて下さい 

データサイエンスというよりも機械学習向けデータに関わりがありますね。弊社は教師データの作成やアノテーションサービスの「Lionbridge AI」を提供しています。その中でソリューションアーキテクトという、顧客のビジネスや技術的なニーズを理解した上で、セールスチームと協力しながら解決のためのソリューション(計画)を構築、提案する仕事に携わっています。

一般的な流れとしては、まずお客様のニーズを詳しくヒアリングします。想定している規模はもちろん、どのようなデータを活用したいのかなどです。弊社の経験及び専門知識を活かし、求められているデータセットを効率的に実現するため、弊社の技術ツールや100万人ののコントリビューターで最適ソリューションを提案します。多くの場合、提案させていただいたワークフローでトライアルを行ない、その結果をお客様と共有し、必要があればワークフローを改善するといった流れです。 

―データサイエンスの面白みはどんな点だと思いますか?

私が興味を惹かれるのは学習データです。データが鏡のように現実世界をそのまま反映するものだと思い込んでしまう人は少なくはないと思います。しかしそのデータがどのような人によって、どのようなプロセスを経て収集又は作成されたかによって、偏りや偏見が多少入ってしまうことは間違いないです。

AIが現実世界により一層影響を与えるようになってきていていますが、抽象的なデータ又は多様な視点が入った客観的なAIの訓練用データセットを作ることによって人間の偏見やバイアスを超え、AIを通してより正確に「現実」を把握することができるところは大変興味深いことだと思います。 

―ビジネスにおけるデータサイエンス活用にどのような可能性を感じていますか?

AIが進化していく中、データはますます充実できるようになってきており、多くの会社に眠っているデータがあると思います。AIを作るために高品質のデータはなくてはならないものであり、データを効率よく適切に整理すれば、機械学習を訓練しどの業界でもAIを活用できます。

例えば、TwitterやFacebookなどのソーシャルメディアで、自社製品やサービスに関する投稿を感情分析すれば、マーケティングやビジネス向上のヒントになるかもしれません。また、ECサイトやサービス業では、チャットボットを導入することによって、さらに迅速なカスタマーサポートを実施し、顧客満足度を上げることが期待できます。業務効率化に役立つRPAなども挙げられます。 

―データサイエンティストとして働いたご経験の中で、特に思い出深いエピソードを教えて下さい

弊社では業界を問わず、多様な研究開発に関わるお客様のために機械学習向けのデータを提供しています。今までの経験で特に印象に残っているプロジェクトは、音声翻訳システムの開発に取り組んでいるお客様のためのデータ作成です。

3つの国出身の方からの、英語非母語話者の日本語の固有名が入った英語での音声収録及び文字起こしサービスをご利用いただきました。
弊社は翻訳サービスも提供しているため、作業者コミュニティーは非常に多様性に富んでおり、このような特柄の案件でも対応できるような仕組みを持っています。

AI開発、特にAI教師データに置いて非母語話者といったようなマイノリティーを考慮することは社会にとって重要なことだと考えていますし、弊社が多様な作業者を抱えているからこそプロジェクトが成功したことを誇りに思っています。 

ワークスペースでは愛猫と一緒に仕事をすることも

学習方法

―データサイエンスに関する知識をどのように習得されましたか?また現在はどのように学んでいますか?

基本的なデータ分析方法は大学院でRやStataを使って学びましたが、分析よりもデータに関するメタ的な概念(データ・情報・知識の関係、データの代表性・偏り・偏見、高品質のデータ収集・構築方法など)を中心に研究していました。
大学の講座やゼミ、学問論文や専門書に加えて、修論のために2016年の熊本地震時のツイッターデータを収集、分析する実経験では大きな学びがありました。 

ライオンブリッジ入社後は、オンライン講座(CourseraedXなど)、ブログ記事などを通して独学で機械学習データというトピックに関する知識を増やしています。
現在は数十年の経験を持つライオンブリッジのソリューションアーキテクトチームの一員として仕事をしており、機械学習データに関わる豊富な経験を持っている先輩や仕事を通して実務経験から学んでいます。 

―データサイエンスとアナタのルーツを聞かせてください。

データ、特にデータを収集・整理することに興味を持ったのは、修論の研究を行なった経験がきっかけでした。
災害時に日本語非母語話者の情報ニーズに関連する研究でしたが、 そのニーズとそれに対する情報の入手しやすさを把握するために過去ツイッター投稿データを収集、分類する必要がありました。具体的には、2016年の熊本地震時に発信された英語でのツイートを収集する課題でした。 

ツイッターのデータセットを作成するには、まずは対象となる期間、言語、発信元の位置情報(日本国内・国外)、ハッシュタグなどを絞る必要がありました。
ツイッターの過去のデータは、ある期間が経つと非公開になってしまい入手するには購入する手段しかないので、研究課題に合う体表的なサンプルが取れるようにパラメータをきちんと定義することがとても大事でした。 

データ収集の次の課題は分類することでしたが、私の研究に関連する先行研究がほとんどなかったため分類のカテゴリーを定義する必要がありました。
分類の作業自体は、研究者の偏見が入らないように他人に行なってもらいましがが、その方々向けの作業ガイドラインを作成する課題もあり、結局は100ページ以上のものになりました。 

研究を始めた頃、高品質のデータセットを作成する作業の難しさは理解できておらず、データ収集、作成が研究の第一段階だと予定していました。
しかしデータを収集していくうちに高品質のデータセットを用意するのがどの学問でも大きな課題であることに気づき、結局研究の重点をオンライン災害情報の分類基準に置くことにしました。 

―データサイエンティストとして、今後の目標や挑戦したいことがあれば教えてください。

ライオンブリッジに入社してから機械学習データについて沢山学ぶことができましたが、最近は少しずつデータ以外の面で機械学習について勉強することにチャレンジしています。具体的に言うと、Courseraの「Python for Everyone」を通してPythonを身につけるようにしていて、機械学習については同サービスの「Machine Learning」プログラムを受講しています。 

時間があるときは「Women Who Code Tokyo」に参加させていただいています。それ以外に、機械学習・機械学習用のデータに関連する本を1ヶ月に1冊程度読むようにしており、つい先日は、最近話題となっているCaroline Criado-Perez氏の「Invisible Women: Exposing Data Bias in a World Designed for Men」を読み終えました。 

―大変興味深いお話をありがとうございました。 今後のレベッカさんのますますのご活躍を応援しています!

  • URLをコピーしました!