野坂 大喜(弘前大学大学院保健学研究科/医学部保健学科、弘前大学情報連携統括本部情報基盤センター 兼任)
キーワード
重要な“データの公平性”
データクレンジングとは?
オープンデータの活用
これまでのリテラシー編ではAI技術の概要について述べてきました。近年、AIを手軽に作れるアプリやWEBサービスが登場したことで、難しいプログラミングを学ばなくとも精度の高いAIモデルが簡単に作成できるようになっています。ここからは臨床検査技師の皆さんが実際にAIを作るための手順を4回にわたって説明していきます。
◆AI作成用データの収集と準備
今回は、教師あり学習を前提としたデータの準備方法を説明します。AIの生成においては、〈1〉学習用データ〈2〉検証用データの2種類を用意する必要があります(図1)。1つめの学習用データとは、AIがパターンを学習するためのデータセットです。一方の検証用データは、AIモデルの性能を評価するためのデータセットです。学習用データを使って作成されたAIモデルが未知のデータに対してどれくらいうまく機能するかを評価するために使います。これらのデータには正答をラベル付けしておきます。AIは正答率をUPさせるように学習を繰り返すごとにパラメータを調整し、理想的な解答を提示するモデルができあがっていきます(図2)。
一般的にAIの精度向上には質が良いデータが必要といわれますが、質が良いとは、正確性・多様性・一貫性・適切な特徴を有するデータのことであり、ヒトが誤ったデータをAI学習に使用すると、AIは誤ったデータに基づいて学習を進めるため、精度が下がります。医療AIを作成する際には、臨床検査技師が準備した検査データがAI精度に強く影響を及ぼしますので、質の良い検査データをより多く収集し、提示することが、高性能なAIモデルを作成するための重要なステップとなります。
◆データクレンジングとは?
質の良いデータの重要性を述べてきましたが、患者データでは測定不能によるデータの欠落や溶血による外れ値なども度々発生します。このようなときに行うのがデータクレンジングです。データクレンジングは、生のデータセットからノイズや不正確なデータ、重複したデータなどを除去するプロセスです。クレンジングの詳細な手法については良書に譲りますが、クレンジングされていない場合、作成したAIモデルの正確性や信頼性が低下し、医療診断や治療予測の精度もまた影響を受けることになりますので、準備段階で注意を払うべきことの1つとなります。
◆データの公平性を確保
データの公平性とは、異なる人々やグループに対して偏りや差別がないことを保証する重要な概念です。特に医療AIモデルには、特定の属性や特性に基づいて人々を区別することなく、公正な予測や判断を行うことが求められますので、データの公平性を確保することが必要です。では、データの公平性のためどのような点に注意を行えばよいのでしょうか?ポイントは、〈1〉データ収集の際に異なる人々やグループから均等にサンプルを収集すること〈2〉特定の人々やグループに偏った情報を含めることなく、客観的かつ公正なデータを確保することになります。
医療診断AIについて考えてみましょう。例えば臓器移植患者の選定や手術適用の有無をAIに委ねた場合に、特定の属性をもった患者にだけ有利に働くAIが作成されていたらどうでしょうか?データの公平性は医の理念の根幹に関わる問題ですので、AIに学習させるデータの公平性の確保もまた重要です。
◆容易に活用できる“オープンデータ”
AIを作成するためのデータ収集と注意事項について述べてきましたが、準備には手間と時間を要しますので、大変さに断念する方もいるのではないでしょうか。そこで登場するのがオープンデータです。
オープンデータとは誰もがインターネット等を通じて容易に利用できるよう、自治体や学術団体などから公開されたデータのことを指します。データを容易に利用できるよう条件があり、〈1〉営利、非営利を問わず二次利用可能なルールが適用されたもの〈2〉機械判読に適したもの〈3〉無償で利用できるものとなっています。つまり、許可されたルールの範囲内で自由に複製・加工や頒布などができるデータともいえます。私たちが社会科で習った人口統計などもオープンデータですが、医療データも公開されており、1例としてCOVID-19感染患者のAI予測利用などが記憶に新しいのではないでしょうか?
臨床検査技師がAIを作成するためのデータ収集において、医療オープンデータは非常に有益です。例えば、疾患の発生率、検査結果、治療効果などのデータを利用してAIモデルを構築することができます。厚生労働省はNDBオープンデータとその分析サイトを公開しています。
また、臨床検査に携わる皆様がAI作成に利用できるデータとしてはKaggleが有名です。KaggleはAI開発のプラットフォームとして知られ、医療関連のデータセットが多数提供されています。また、専門学会などでもデータ共有の取り組みが始まっており、今後は臨床検査においても個人レベルでのAI作成しやすい環境が整えられていくことでしょう。
※次回(5月23日木曜日配信予定)の臨床検査技師によるAI構築(2)では、「畳み込みニューラルネットワーク、転移学習と強化学習」などを解説する予定です。
野坂 大喜
PROFILE |大学病院勤務を経て現職。医用工学・情報科学を専門とし、病理画像診断システムの開発に携わる。大学発ベンチャー取締役の企業経験も有し、現在は医療AI技術や医療VRの研究を進めると共に、AI社会における言語技術教育に取り組んでいる。