対話型AIで探る医学情報 ①ChatGPT編
~水腎症の原因/尿路結石症の記事との比較~
<目次>
前回、前々回の記事において、OpenAIのChatGPTをはじめとするGenerative AIについて最後に軽く触れました。Generative AI(生成AI、生成系AI)の中でも画像生成を行うようなものではなく、対話型AI(チャットAI)を試して比較みたいと思います。
前回・前々回の記事で意識した具体的な鑑別を挙げる、参考文献を貼る、具体的な研究・数値を探すこと等を含めて、現在の対話型AIにできないことを書くという事を意識する内容となりました。対話型AIによる変化は第3次医療AIブームとして画像解析(AI画像診断)とは異なる面での変化ももたらしてくれると考えています。2023年4月(既にスクショ済み)における対話型AIの回答を用いた実験的な記事、兼記録にしたいと思います。
昨今話題のChatGPTのような対話型AIは、ChatGPTだけでなくPerplexity AIなども含めて多数あります。特にここ1年ぐらいで一般に向けて実用化が進んだような気がします。第1段として日本語の使えるChatGPT(無料版 GPT-3.5、拡張機能なし)、第2段としてPerplexityAIを扱ってみたいと思います。
1. 水腎症の原因
それでは、対話型AIであるChatGPTに水腎症(hydronephrosis)の原因について
質問してみたいと思います。
1-1. ChatGPT×水腎症の原因
やっぱり、英語は苦手、苦手とまで行かなくてもサボりがち、時間がかかるというような人も多いのではないでしょうか。やはり「日本語で聞けるなら日本語で聞きたい!」という人もいると思います。日本語で水腎症の原因を質問してみました。
いかがでしょうか。まったく鑑別が思い浮かばない人にはヒントになるかもしれません。 「水腎症は、腎臓にたまった尿が排出されずに腎臓内にたまる状態を指します。この状態は、尿が腎臓や尿路系に流れる際に障害があるために起こります。」ということのようです。
大きく4つに分けて原因(閉塞性の原因、非閉塞性の原因、機能的な原因、その他の原因)が挙げられています。例えば、閉塞性の原因において腫瘍とは、尿路系の悪性腫瘍はもちろんのこと、婦人科系・泌尿器科系の悪性腫瘍等による腫瘍浸潤・圧迫によるものも考えられ、やや想起する原因として抜けが生じやすそうな気もします。他にも、非閉塞性の原因において、先天性異常とはややざっくりしているとか、尿管骨盤部閉塞のどこが非閉塞なのかとか、考えてしまいます(※尿管骨盤部閉塞はChatGPTによる翻訳間違いの可能性が高いです→1-2を参照)。
この程度の内容であれば、Google検索で見つかる日本語のホームページとの差別化というほどでもありません。ホームページであれば、病院や学会等が公開しているというようなある程度の信憑性があるものもありますので、ChatGPTの優位性はないように感じます。特に内容として汎用性の高い内容(検索しやすい内容)の場合にはホームページとの差別化は難しいでしょう。
1-2. 表作成!ChatGPT×水腎症の原因
続いては、表の作成をお願いしてみます。
上記のように表にまとめてもらえます。便利に感じませんか。これこそがChatGPTのメリットだと考えています。中途半端な日本語の内科学教科書なら、「パッと見」しやすい病気が見えるシリーズと比較して、大して情報量が変わらないことと似ているように感じました。表にしてもらうだけ見やすくなるという感じです。
今回もそうですが、Ureteropelvic Junction Obstructionを尿管骨盤部閉塞と誤訳していると考えられます。これを踏まえると、質問の際に翻訳や解釈が異なると異なる回答になると考えられますが、回答が同じテンプレートのようなものであれば、英語版の機械翻訳であるかもしれません。DeepLにてUreteropelvis Junction Obstructionを翻訳させた際にも同じく誤訳しました。
それ以外にも、対話型AIによって原因の分類の仕方のアイデアをもらえたりもするとは感じました。言葉になりにくい部分でのアイデアの整理にも一役買ってくれることもありそうです。
実際に、前々回に作成したスライドと比較すると分かりやすいと思います。人が作成することによる内容の調節(深さや分類方法等)やデザインの調節もできますが、手間や時間がかかります。
用途による使い分けも意識すると良いと考えています。もっと出来が良くなれば、ChatGPTがどんどんと人が作成する必要性もなくなって楽になるでしょう。今のところであれば、ChatGPTには、整理の仕方のアイデア(今回で言うところの分類方法のアイデア)や人間の認識の漏れの確認といった補助をしてもらえるでしょう。後は、状況として一度使って終わりのものであれば、デザイン等もこだわる必要性も少なくなるのでChatGPTのままでも良いでしょう。
これこそ、論文のように多数の人が長い期間に渡って何度も見るものには人の手を加える価値が高めであると思います。一方で、あまり多くの人が見ないもの、1回だけ/その時だけに近いような文章作成ほど、ChatGPTのようなものによる文章作成の簡便さが活かされ、費用対効果も高いと考えられています。これこそ、UpToDateのような文章よりも、退院サマリーや診療情報提供書、J-Oslerのようなものの方が、Generative AIによる効果的な人的リソースの節約になりそうです。
1-3.「医師向け!」×ChatGPT×水腎症の原因
対話型AIとして、あくまで一般人に回答している可能性も考えて、「水腎症の原因を医師向けの回答として教えてください」と質問してみました。
先ほどまでと大差はありません。他のフィードバックの結果もあるとは思いますが、特に記載の仕方が変わったり、内容の深さが変わったとも感じません。むしろ、内容として原因の大項目2つ目の腎臓疾患の項目の記述、薬剤性のNSAIDsは腎障害ことを示しているのような記述をはじめ、記述の正確性にも疑問が残ります。
さらに「水腎症の原因を医学書レベルで教えて!」として質問してみましたが、基本的な回答は同じです。
ここで、「医学書レベル」が対話型AIに通じなかったと考えて少し聞き方を変えてみました。次に「医学書程度の情報として」という文言で質問してみました。
回答が変わりました。「最も一般的な原因は尿路結石」とのことで、疫学的な少し嬉しい記述が増えました。ここはChatGPTの難点ですが、参考文献がないので確かめたくなっても確かめることができません。それにしても「医学書程度の情報」といっても記述の内容は、具体的な原因についての記述が減って少しあっさりした面と、疫学的な情報がひとつ入ったことで深みを増した面があります。しかし、特に大きく変わった印象は受けませんし、これだけだと物足りなさを感じます。
さらに「医師向けの情報提供として」というように質問してみました。
回答の専門性や解像度に大きな変化はありませんでした。やはり、GPT-3.5では今のところは医師向け、医療者向けとしては微妙かもしれないと考えられます。もちろん、ChatGPT側でプロンプト(前提となる状況設定のようなもの)で医師としての設定は諸所の事情により、制限されているかもしれません。
また、幻覚(hallucination)によって腎機能障害と混同している部分もあります。「腎機能障害によって引き起こされる」という因果関係が逆で、水腎症によって腎機能障害も引き起こされることがあるというのが正しいでしょう。
知らない人が読んだら、誤解しそうな文章の流暢さです。補足でも幻覚について触れていますが、「水腎症」という言葉がもしかすると、ChatGPTが「誤解」しやすいキーワードなのかもしれないという可能性もあります。
1-4. ChatGPT×水腎症の原因(成人)
前回のブログ記事が成人における水腎症の原因でした。成人における水腎症の原因についても質問してみようと思います。
あまり「成人」というキーワードを入れても回答は変わりませんでした。対話型AIとして、あまりこれ以上の情報を持っていないのかもしれません。
【補足1】フィードバックで変化する回答
ChatGPT×水腎症の原因
先ほどと同じ質問をまた調べてみました。
(注)先ほどまでの回答は前々回・前回のブログ記事を書いている時に調べてみたものです。
同じ時に質問したため、同じ回答の英語と日本語といった感じです。最初の時と回答が変化していることが伺えます。
次に表での回答も質問してみました。
こちらも前回の表で回答してもらったときと回答が異なります。フィードバックによって改善を試みたような面があるのかもしれません。原因の整理・分類の仕方は変わりましたが、特に内容が良くなっているようには感じません。
しかし、回答が質問した時(他の質問を含めた利用やフィードバックの前後)によって変わるという意味では、質問したときによって回答のムラのようなものができる可能性があります。
【補足2】頓珍漢な回答(幻覚 hallcination !?)
実は、先ほどの水腎症の原因について、最初に質問したときに頓珍漢な回答を受け取ることがありました。「水腎症の原因は?」と聞いた時に意味不明な回答を頂きました。
お読みいただいたら、最初の文章から見当違いであると気がつくと思います。酷いですね。おそらく、自然言語的な文章の組み合わせとして「正しい」と勘違いされたまま行きついた先にあります。これこそ、自然言語処理にて自然な文章のように書きつつも内容がでたらめ・頓珍漢という「幻覚(hallucination)」という状態です。
ChatGPTでは、「水腎症は腎臓の機能障害によって引き起こされる疾患」と誤った解釈がされ、それに基づいた誤った鑑別疾患まで挙げています。
さらに、「一般的な原因としては、腎臓の損傷や障害、尿路の閉塞、尿細管の損傷、腎臓の先天正常、糖尿病、高血圧症、腎臓に影響を与える薬物の副作用などが挙げられます」とのことで、腎障害の原因なような気もします。尿路の閉塞によって水腎症にも、そこから腎障害にもなることもあるのですが、その他の原因は、腎障害の原因を誤って挙げているようにも考えられます。
もはや、「水腎症は、水分や電解質の過剰摂取によっても引き起こされる可能性があります」というChatGPTの返答には諦めを感じます。水中毒のような病態も「水腎症」とでも勘違いしているのでしょうか。このあと、低評価とそれに対するフィードバックをしました。それで次回以降の回答が変わったのかもしれません。
あとは幻想だけではなく、Open AIが持つ情報に誤った情報やフィードバックが多くなれば、情報としての数の多さをChatGPTが「正しい」と誤って判断するようなデータ汚染によるリスクもあります。例えば、デマのような状況で誤った情報が増えたときです。分かりやすく言い換えると、バカがフィードバックすると、間違っていてもバカが納得する回答を用意する傾向になるリスクがあるという事です。
まとめると、その分野に対して無知な状態でChatGPTを使うとこのようなリスクが上がるかもしれません。
2. 尿路結石に対する超音波検査の論文
次に尿路結石症に対する超音波検査の診断特性について、ChatGPTを用いて調べてみたいと思います。この内容においては、最新論文(2021年以降)による影響があまりないかもしれませんが、アップデートの激しい内容や直近に大きなアップデートのあった内容ではそもそもChatGPTの使用は難しいことはご留意ください。
2-1.「超音波検査」の感度/特異度
前回のブログ記事を書いている際に尿路結石の診断に対する超音波検査(特にpoint-of-care ultrasound; POCUS)の感度や特異度を深掘りしました。さらに深そうな内容に対して、ChatGPTがどのように答えるのかをチェックしてみたいと思います。
まずは「超音波検査」で質問してみます。
意外としっかりしたように見える回答をしてくれました。感度に関してはPOCUSでもRadiology Ultrasound(radiology-performed ultrasonography)とどちらとも解釈できる程度の回答です。しかし、特異度が90%以上というのは、POCUSではなくRadilology Ultrasoundのことかもしれません。
これこそ、参考文献がないのでどうしようもないと言うべきかもしれません。拡張機能を使えば、参考文献(引用文献)まで表示させられるみたいですが、基本機能だけではここまでだと感じます。
2-2. POCUSの感度/特異度
先ほどの回答結果より、「超音波検査の感度、特異度」とは言わずに「POCUSの感度、特異度」と指定して質問してみました。
ChatGPTの回答の主旨は変わりませんでした。感度は70-80%程度、特異度は90%以上と先ほどと同じような回答をしています。定義がややぼんやりとしたものに対して、ややぼんやりとした回答をする程度なのかもしれません。POCUSをRadiology Ultrasonographyに変えて質問しても、全く同じ回答でした。
この回答からアイデアを広げていくと、和製の内科学書の記述のような書き方は早いうちにChatGPTと競合になる可能性が高いとも考えられます。
2-3. 論文を探してもらう!?
それならば、尿路結石症に対する超音波検査とCT検査についての論文を探してもらおうと考えました。もちろん、2021年までのデータしか持ち合わせていないchatGPTというデメリットもあるため最新論文を紹介されることはないですが、2021年以前の参考になりそうな論文を紹介してくれるのでしょうか。
このような論文は実在しませんでした。フィードバック後に再度尋ねても、再度、実在しない論文を紹介してくれました。今のところ、拡張機能なしでは役に立ちそうにありません。
2-4. 論文を要約してもらう!?
DOIやURLによって論文を指定して要約してもらおうと考えました。先日のブログでも参考文献として引用した”The Accuracy and Prognostic Value of Point-of-care Ultrasound for Nephrolithiasis in the Emergency Department: A Systematic Review and Meta-analysis” という救急外来における尿路結石症に対するPOCUSの診断の正確さや予後についてのメタ解析まで行った論文です。
この論文を用いて試してみたいと思います。
まったく異なった内容について述べています。フィードバックをしても、PubMedのURLを指定してみても、論文のタイトルで指定してみても、まったく異なった内容の返答をしてきます。
ChatGPTとして、目の前に与えられた文章に対する返答は得意であると感じているので、アブストラクトをコピペして実験してみました。
アブストラクトまでChatGPTに与えれば、もっと短く日本語で要約してくれます。わざわざ、ChatGPTへコピーしなければなりませんが、翻訳をしている人にとっては一定の時間短縮にはなる可能性もあります。
これこそ、アブストラクトを直接読みつつ、訳の分からない単語や文章の一部をGoogle Chromeのブラウザの拡張機能を用いてDeepL(無料版の左カーソル選択)等で翻訳させるのと、どちらがよいかという比較になってくると思います。各個人の英語の読解力に左右されると思います。
英語でさらっとななめ読みができる人にとっては、そこまで必要にも感じませんでしたが、「文章を与えれば、それに対してまともな返答をしてくれる」傾向があるというのは使う際のヒントだと考えています。
例えば、今のところは無理でも、機能としては診療情報提供書、退院サマリー、J-OSLERのような病歴要約のような場面でも使えそうな可能性もあると考えています。
J-OSLERの名前の由来にもなったWilliam Osler先生は「医学教育を講義室から病棟に解放した」とか様々に言われるように、机での勉強よりもベッドサイド教育の有用性を説いた素晴らしいとされる先生でした。そのような先生のお名前が使われたJ-OSLERによって、病歴要約によって机でレポートを書く時間が増えたというのは何と皮肉なことでしょう(笑)。そのようなJ-OSLERへの対応でも将来的に対話型AIによる自然言語処理で克服できる日が来るかもしれません。
ChatGPT(OpenAI)という事でアメリカの会社が日本の患者データを持つことを嫌がる人もいるかもしれません。日本版の似たような自然言語処理システムで、そこにカルテのデータを置いて、そこから病歴要約や退院時サマリーなどを生成するような形を整えれば、国内ということでそのような壁も超えやすそうです。そして、ブルジットジョブを減らしてくれることに貢献してくれるでしょう。
3. まとめ -ChatGPTと医療情報検索・収集-
これまでで得られたChatGPTの利用できそうな特徴は次のような点であると考えています。
- 日本語が使用可能
- 表を作成、アイデアの整理
- 文章作成のおける費用対効果の高さ
- 与えられた文章に対する返答・要約
- 専門性/解像度のそこまで高くない内容(→一般向けの平易な文章)
ChatGPTの有料版(GPT-4)、拡張機能の使いこなし、今後の機能の改善・発展によってもっと専門的な、解像度の高い、医療従事者向けの内容も対応できるようになればと期待もしています。
【続編】
①ChatGPTの医療現場/事務での活用
◆非医療者向けの対話型情報提供/診療補助
先ほどまでは医療者(特に医師向け)の医療情報や医学的な内容の情報収集という視点でチェックしてきました。まだ今のところ、粗が目立つというのか、必要としているほどの情報の解像度がないと感じます。
次回、この結果を活かして、前々回の水腎症の原因、前回の尿路結石症のブログ記事の内容から少し離れて、医療現場でChatGPTの役立ちそうな場面を考えてみたいと思います。
②Perplexity AI編(水腎症の原因/尿路結石症)
今回のChatGPTによる医学情報収集に続き、Perplexity AIでも同様の試みをしてみました。出典まで紹介してくれる対話型AIであるPerplexity AI編も合わせてご覧ください。
本日もお読みくださいまして、ありがとうございました。
【関連記事】
ChatGPTとの比較のもととなった記事はこちらになります。
対話型AIをはじめとする自然言語処理ではなく、画像解析(AI画像診断)のような第3次医療AIブームについて興味がある方はこちらもよろしければ、ご覧ください。