Checklist for Artificial Intelligence in Medical Imaging (CLAIM)とは、放射線分野最高ジャーナルであるRadiology誌から発表された、医療画像分野でのAI(Deep learningなど)の論文を作成及び査読するときのチェックリストです。なかなかChallengingなチェックリストで作成者の労力は図るに及ばないですが、使用者側からするとやや難解であり、最初からこのリストを知った上でアルゴリズム作成しないと、時既に遅しなチェックリストでもあるので、今回はこれに対して考察を加えていきたいと思います。少しでも、日本の画像AI研究者の一助になれば幸いです。なお、是非意見いただきたいので、コメントお待ちしています。
CLAIM checklist: Radiology: Artificial Intelligence 2020 doi:10.1148/ryai.2020200029
Manuscript Title and Abstract
項目1. 論文のタイトルや抄録に「Deep learning」や「Random-forest」などのAI技術が使われていることを明示すること。
Item 1. Indicate the use of the AI techniques—such as “deep learning” or “random forests”—in the article’s title and/or abstract; use judgment regarding the level of specificity.
ここは、妥当ですね。ただ、さらっとランダムフォレストなどの従来の機械学習も登場していますので、いわゆる深層学習以外の既存の機械学習もこの範疇になるということを述べています。これに合わせるのに研究者は苦労しそうです。
項目2. 抄録は、研究のデザイン、方法、結果、結論を構造的に要約したものであるべきであり、原稿全体を読まなくても理解できるものであるべきである。研究集団の概要(患者数または検査数、画像数、年齢および性別の分布)を記載する。前向き研究なのか後ろ向き研究なのかを示し、実施した統計解析を要約する。結果を提示する際には、比較のための P 値を必ず含めること。ソフトウェア、データ、結果のモデルが公開されているかどうかを示す。
Item 2. The abstract should present a structured summary of the study’s design, methods, results, and conclusions; it should be understandable without reading the entire manuscript. Provide an overview of the study population (number of patients or examinations, number of images, age and sex distribution). Indicate if the study is prospective or retrospective, and summarize the statistical analysis that was performed. When presenting the results, be sure to include P values for any comparisons. Indicate whether the software, data, and/or resulting model are available publicly.
盛りだくさんです。一つ一つ分解していきましょう。まず一文目はよいとして、集団の概要の部分ですね。年齢及び性別の分布まで抄録には必要になるということです。これは当たり前なのかもしれませんが、私は少し前まで知りませんでした。もちろん本文中には書いていたのですが、Radiology誌のRevision時に抄録を短くする必要があり、削ると注意を受けたことがあります。
次ですが、抄録中にはprospective、retrospectiveなどの言葉を必ず用いた方が無難なようです。Deep learningの研究はほとんどが後ろ向き研究と思います。作成したアルゴリズムを新たに病院などにやってきた患者に適応するなどしたときには、検証は前向き研究ということになると思います(この場合ももちろんAI作成に関しては後ろ向きになりますが)。
そして、結果の提示にはP値が必要ですね。感度・特異度・精度・陽性適中率・陰性適中率・AUCあたりになることが多いと思います。これらは95%信頼区間で表示することになりますが、それほど難しいものではありません。ほとんどが平均値の95%信頼区間ですので、Google先生に聞けばすぐ教えてくれますし、自身でcodingするのも簡単です。
最後ですが、Deep learningらしいといいますか、ソフトウェアの公開情報(GitHubなど)を記載する必要があります。個人的には原則として公開したほうが良いと思います。Covor letterなどで、「このアルゴリズムはオープンソースで社会のより良い健康のために使える」などと謳うとカッコいいですしEditorの印象もよく、Editor’s kickは減るように感じています。私は学習した重みファイルも一緒にuploadすることも多いですが、商用化だったりアルゴリズムを守りたい場合は、重みファイルのみ除いてモデルのみuploadしておくとよいです。つまり、実際試してみたりするのには使えないけど、データセットさえ自分で用意すれば、trainingはできる状態です。おそらく、このCLAIMに該当する研究者のみなさんのアルゴリズムの最大の価値は、学習データと学習済みの重みファイルと思います。そこさえuploadしなければcodeをuploadすることにあまり抵抗はないのではないでしょうか。もしソフトウェアが公開されていない場合も、レジストリにデータを公開している場合(世界標準はclinicaltrials.govやWHO ICTRP、日本ではUMIN)は記載すれば良さそうです。個人的には、後ろ向き研究であれば、レジストリ登録する必要は現時点ではないと思います。もし登録する場合は、できれば世界標準のClinicalTrialsやWHO ICTRPに登録しとくべきです。UMINでは受けあってくれない雑誌社もわりとあります(というか、ClinicalTrialsやWHO ICTRP以外認めないというところも、ままあります)。
The Introduction
項目3. 臨床的、科学的、または運用上の重要性について述べる。研究の根拠、目標、予想される影響を記述する。関連する文献を要約し、その研究がどのようにそれらの文献の上に成り立っているのか、またその文献とどのように異なるのかを強調する。研究の背景、基礎となる科学、方法論の基礎となる仮定、研究のニュアンスを理解できるように記述する。
Item 3. Address an important clinical, scientific, or operational issue. Describe the study’s rationale, goals, and anticipated impact. Summarize related literature and highlight how the investigation builds upon and differs from that work. Guide readers to understand the context for the study, the underlying science, the assumptions underlying the methodology, and the nuances of the study.
まずは、研究の重要性を述べます。そして研究の重要性の根拠やインパクトを記述します。
そして、関連論文を要約します。あまり書きすぎるとDiscussionと被りますので詳細な中身を述べるのではなく、時代の流れや今の研究までの系譜を作成するようなイメージで書くのが良いと思います。ただ、意識すべきはその次のそれらの文献とどのように異なるのかという点です。つまり新規性ですね。この新規性を強調できるような形で流れを作成することが重要です。
最後の一文はふんわりしていますが、要はその他様々な方法(例えば研究の背景、基礎となる科学、方法論の基礎となる仮定、研究のニュアンスなど)で、研究の説明を補足して、読者によりわかりやすいものにしてくださいという意味ですね。
項目4. 答えを出すべき臨床的または科学的な問題を明確に定義し、曖昧な記述やプロセスの説明は避ける。研究の仮説を事前に明確にすることで、ポストホックにデータ作成される可能性を制限する。取り組むべき問題を特定する。研究の目的と仮説は、サンプルサイズの計算の指針となり、仮説が支持されるかどうかを決定する。
Item 4. Define clearly the clinical or scientific question to be answered; avoid vague statements or descriptions of a process. Limit the chance of post hoc data dredging by specifying the study’s hypothesis a priori. Identify a compelling problem to address. The study’s objectives and hypothesis will guide sample size calculations and whether the hypothesis will be supported or not.
まずは曖昧な表現を避けての問題提起が必要です。そして、その問題は説得力のあるものである必要があります。研究の仮説を事前に定義しておくことで、後からごちゃごちゃとデータをいじって作成されたstudyとなることを、制限することができます。殆どの場合、仮説というか確信というか変な自信をもって、できるだろうなぁと思ってアルゴリズムの作成を始めると思うので、あまり困ることはなさそうです。なかなか仮説を立てにくい場合(先行研究がありそうなときなど)は、「このAIモデルでは先行研究がないので、できるかどうかを仮説検証してみた」的に逃げることもあります。例えば、Faster R-CNN (two-stage detector)ではあるけど、RetinaNet (one-stage detector)ではないから、やってみました!的な感じです。ディープラーニングの研究者としては、そらFaster R-CNNでできんねんからRetinaNetでもできるやろという感じですが、その内々に沸き起こるツッコミはpaperを書く上では置いときます。
そして、研究の目的や仮説がサンプルサイズの指針になるとのことです。サンプルサイズはMethodsで詳記しますが、ここは正直現実的でないと感じています。ほとんどの場合、予め設定したサンプルサイズ数を集めることはせず、できる限りの症例数をかき集めてやる、というのが現実に合っているように思います。Deep learningってそういう分野じゃなかったですっけ?
The Methods Section
読者が説明した手順を再現できるように、研究の方法論を十分に明確かつ完全な方法で記述する。徹底した記述が雑誌の字数制限を超えている場合は、「方法」のセクションで作業を要約し、補足資料で詳細を説明する。
Describe the study’s methodology in a sufficiently clear and complete manner to enable readers to reproduce the steps described. If a thorough description exceeds the journal’s word limits, summarize the work in the Methods section and provide full details in a supplement.
このMethodsが正直、CLAIMのキモです。結局、科学とは再現性が重要で、deep learningにおいてはその再現性の担保が難しい(完全に同じアルゴリズムはほとんど再現不可能)ため、しっかり書きましょうという感じです。結局は、補足資料(Supplemental materials)をキチンと用意しましょうねということになります。最近はoriginal articleも短くなる傾向で、simplifyされています。確かRadiology AIも合計3000字だった気がします。この字数でこのchecklistの特にこのmethodの部分の要件をすべて満たすのは事実上不可能です。もっと字数が必要なります。そのため、効果的にsupplemental materialsに移しましょう。今までいろんなdeep learning系のpaper読んできましたが、supplemental materialsがないのは、ほぼないです。というか、トップジャーナルに載るようなpaperはsupplemental materialsのボリュームがすごくて軽く読むにはうんざりしますが、すごく勉強になります。
Study Design
項目 5. 研究がレトロスペクティブかプロスペクティブかを示す。可能であれば、予測モデルをプロスペクティブな設定で評価する。
Item 5. Indicate if the study is retrospective or prospective. Evaluate predictive models in a prospective setting, if possible.
レトロスペクティブかプロスペクティブを示す。抄録と同じですね。可能であれば、「予測モデルをプロスペクティブな設定で評価する」ときました。いままでこれは見たことないですね。あまり気にせず、収集したデータをtraining, validation, testに分ける従来の方法で良いとは思います。ただ、最近問題視されることの1つにdeep learningの再現性があります。実は、医療AIの先駆け的存在にJAMAのDevelopment and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal Fundus Photographsがありますが、これのReplication study (再現実験)がでました。そこでは興味深いことに「そんな精度になりませんけど、、、」という結果がでています。
項目6. モデル作成、探索的研究、実現可能性研究、非劣性試験など、研究の目的を定義する。分類アルゴリズムについては、診断、スクリーニング、病期分類、モニタリング、サーベイランス、予測、予後などの使用目的を明記する。AI アルゴリズムの提案された役割を、トリアージ、代替、アドオンなどの他のアプローチと比較して示す。予測モデルの種類、予測の対象、臨床的または科学的な疑問をどのように解決するかを記述する。
Item 6. Define the study’s goal, such as model creation, exploratory study, feasibility study, or noninferiority trial. For classification systems, state the intended use, such as diagnosis, screening, staging, monitoring, surveillance, prediction, or prognosis. Indicate the proposed role of the AI algorithm relative to other approaches, such as triage, replacement, or add-on. Describe the type of predictive modeling to be performed, the target of predictions, and how it will solve the clinical or scientific question.
まずはstudyの定義ですね。ここは素直に、model creation, exploratory study, feasibility study, noninferiority trial, observer performance studyなどの単語を使用するのがよいのではないでしょうか。
分類アルゴリズムについても、diagnosis, screening, staging, monitoring, surveillance, prediction, prognosisなどいずれを目的にしているのか明記しましょう。
今回の研究のAIが、既存の方法に対して、そのトリアージ(triage)になるものなのか、代替(replacement)として使用されることを想定したものなのか、付加価値(add-on)として使用されるものなのかということを示す必要があります。研究でのAIの文脈によると思いますが、読影医に対してAI使用前後での精度を比較したマンモグラフィからの乳癌の検出AIの内容であればそれは付加価値として使用するということになります。また、読影医と乳癌検出のAIの精度比較の内容であれば、代替ということになります。
予測モデルの種類については、classification, segmentation, detectionなどのことと思います。予測の対象は、肺癌 or 正常やstageⅠ, stageⅡ, stageⅢなどのことです。そして、Introductionで提起した問題をどのようにしてこのAIが解決するのかを書くことが必要です。
Data
項目7. データの出所を述べ、そのデータがモデルの意図された使用法とどの程度一致しているかを示す。読者が報告された精度推定値のを解釈できるように、予測モデルの対象となる適応を記述する。同じデータセットを使用した過去の研究を参照し、今回の研究がどのように異なるかを明記する。研究が適切に実施されていることを保証するために倫理的ガイドラインを遵守し、倫理審査とインフォームドコンセントを記述する。データソースや画像へのリンクがあれば,それを提供する.著者はモデル化またはデータ解析に使用したデータおよび/またはソフトウェアを、一般にアクセス可能なリポジトリに預けることを強く推奨する。
Item 7. State the source of data and indicate how well the data match the intended use of the model. Describe the targeted application of the predictive model to allow readers to interpret the implications of reported accuracy estimates. Reference any previous studies that used the same dataset and specify how the current study differs. Adhere to ethical guidelines to assure that the study is conducted appropriately; describe the ethics review and informed consent. Provide links to data sources and/or images, if available. Authors are strongly encouraged to deposit data and/or software used for modeling or data analysis in a publicly accessible repository.
最もボリュームの多いセクションの始まりです。頑張ってまいりましょう。まず1行目・2行目ですが、ソースデータを示し、そしてそれがどれくらい目的とする使用法に対して一致しているかを示すというものです。また、AIの研究中での対象への適応を詳記して、報告する精度がどのような対象中での結果であるかを解釈しやすいようにするべきということです。これは、たしかにそう言われればそうすべきなのですが、なかなか実際には大変です。大抵deep learningのアルゴリズムを作成するときは、特に医療分野にbig dataなんてものはなかなか存在しませんので、できる限りの異常データを集めてくることが多くなります。そして、それをそのままの割合でtrain, validation, testに(多くの場合8:1:1に)分割して使用します。こうして生まれたtest datasetが研究での問題解決するために使用される対象となるコホートと一致することは多くありません。例えば、胸部レントゲンから肺癌検出のアルゴリズムを作成するとき、肺癌データをできる限り集めます。そして、それに同じ数の正常を混ぜてアルゴリズムを作成します。このときそのままの割合でできたtest datasetと実際の使用目的とする検診でのコホートの違いは明白です。test datasetには正常と肺癌が大体1:1くらいで入っています(class imbalaneがなく精度が高くなるから)が、検診での肺癌は100人に1人もいません。そうすると、明らかにこのtest datasetのみでの評価は研究の目的に一致していないことになります。唯一の解決法は、正常データをどこかで沢山あつめてきて、それに肺癌データを少量混ぜたデータセットもテストデータとして用意しておくこととなります。言葉では簡単ですが、実際するとなるとまた多くの労力をかけなくてはならなくなります。ましてや研究が一段落してからなど改めてやるのは大変ですから、するならば事前にこのことも考慮に入れる必要があるということです。ただ、NEJMの最新研究でもDiscussionの最初の段落に
“Negative predictive values were high, but positive predictive values were lower and varied considerably depending on the prevalence of papilledema and other optic-nerve conditions.”
のように書かれており、これは裏を返すと、model作成時のコホートが違うよという意味ですので、このように素直にリミテーションっぽく書くというのが現時点では方策かなぁと思います。
次の文は、同じデータセットを使用した過去の研究を参照し、今回の研究がどのように異なるかを明記するとのことです。あまり、過去のデータセットを用いてテストするパターンは多くないように思いますが、ある場合はそうすべきです。私も一度、Mammographyの研究の際に、DDSMというデータセットを使用しましたので、そのときは引用しました。ちょっとしたことですが、オープンデータを使ったときはcitationのみでなく謝辞にも入れるほうがbetterみたいです。Lancet系のジャーナルで指摘されたことがあります。
次は、倫理委員会などの定型文ですね。いわゆる「opt-outで、日常診療で得たものだから、同意はwave outされましたよ」的なパターンが多いかと思います。もちろんですが、オープンデータから作成したものは倫理委員会などを通す必要はありません。
最後ですが、データソースや画像へのリンクがあればそれを提供する、とのことですね。そうすべきでしょう。ただ画像へのリンクは実際貼れない場合も多いと思います。ここから「強く推奨する」と語気を強めていますがやはり、データ解析に使用したデータ、コードは一般にアクセス可能なリポジトリに預けるのが良いみたいです。前者は世界標準はclinicaltrials.govやWHO ICTRP、日本ではUMINなどで、後者はGitHubなどですね。データのリポジトリは世界標準であるclinicaltrials.govやWHO ICTRPにするほうが無難です。
項目8. 対象となる可能性のある参加者またはスタディがいつ、どこで、どのようにして特定されたかを明確にする。場所、日付、治療の状態、症状、過去の検査結果、またはレジストリの組み入れなどのinclusion criteriaとexclusion criteriaを明記する。収集方法が連続的か、無作為か、または便宜的かのいずれが選択されたのかを示す。患者、スタディ、読影レポート、画像などのいずれを使用したのかを明記する。
Item 8. Define how, where, and when potentially eligible participants or studies were identified. Specify inclusion and exclusion criteria such as location, dates, patient-care setting, symptoms, results from previous tests, or registry inclusion. Indicate whether a consecutive, random, or convenience series was selected. Specify the number of patients, studies, reports, and/or images.
いわゆる適格基準(eligibility criteria)のところですね。これはいずれの研究でも比較的似ていると思います。それほどわかりにくいところはないのではないでしょうか。まず、目的とするデータを内包する大きな枠組みとしてinclusion criteriaで抽出してきたものを、少しずつexclusion criteriaで除外していき、 最終的に目的とするピュアなデータに至るまでの過程を示すということです。いわゆデータクレンジングの部分です。
項目9. 前処理は、様々なソースからの生データを、分析のために機械で読めるフォーマットに変換することである。前処理の手順を、他の研究者が再現できるように十分に詳細に記述する。正規化、画像サイズのリサンプリング、ビット深度の変更、ウィンドウレベル設定の調整の使用を指定してください。データが再スケーリングされているかどうか、閾値制限(「二値化」)されているかどうか、標準化されているかどうかを明記する。次の問題がどのように処理されたかを明記すること(地域フォーマット、手動入力、不整合データ、欠落データ、間違ったデータタイプ、ファイル操作、匿名化の欠落データ)。また、外れ値を除去するための基準を定義してください。ライブラリ、ソフトウェア(メーカー名とその所在を含む)、バージョン、採用したすべてのオプションと設定を指定する。
Item 9. Preprocessing converts raw data from various sources into a well-defined, machine-readable format for analysis. Describe preprocessing steps fully and in sufficient detail so that other investigators could reproduce them. Specify the use of normalization, resampling of image size, change in bit depth, and/or adjustment of window/level settings. State whether or not the data have been rescaled, threshold-limited (“binarized”), and/or standardized. Specify how the following issues were handled: regional format, manual input, inconsistent data, missing data, wrong data types, file manipulations, and missing anonymization. Define any criteria to remove outliers. Specify the libraries, software (including manufacturer name and location), and version numbers, and all option and configuration settings employed.
ここは比較的新しい部分に思います。今まで出てきたdeep learning系の論文が比較的なおざりにしていた部分です。結構ガッツリ記載してほしいみたいで、“fully and in sufficient detail” と語気も強めです。DICOMからpngにした的なことから記載する必要がありそうですね。
その他に関しては、細かく項目を書いてくれているので、それらの状況を詳記しましょう。
ただ注意点としては、正規化やサイズのリサンプリングとかはaugmentationと一緒にやってしまうことも多い(特にKeras user)のが実際とは思います。ただ、augmentationは後述するようにTrainingのsectionで登場します。ということは、実際は一緒にやっていても、リサイズや正規化などの処理に関してはこちらに記載して、augmentationはTrainingのsectionで書くというやり方をするほうが良さそうです。まぁどちらに書いてもそのことでrejectされることはないと思いますが。
後、少し気になるのはこのdataのセクションのpreprocessingとground truthのセクションの前後関係です。Ground truthとは後述されますが、教師データの作成の意味です。たとえば、胸部レントゲン画像に肺癌、肺炎、正常などのラベルを付けていく作業がground truthです。ほとんどの場合、できるだけ生データに近い状態のモノに対してground truthは作成されていると思います。先程の胸部レントゲンの話であれば、元データ(DICOM画像や書き出したそのままのサイズのpng画像)をみて、ここが肺癌だなとか、ここが肺炎だなとか教師データ作ると思います。しかし、ここでpreprocessingの話を書いてしまったら、あたかもpre-processingした後の画像に対して教師データを作成するような印象を与えてしまいかねないと思います。仕方なく従ってももちろん良いと思いますが、文章の流れ的にはここではpreprocesingについて書かずに、augmentationを記載する部分であるTraining sectionで書いてしまうほうがよさそうです。
また、最後ですが、ソフトウェアやライブラリも書くこととなっていますね。これに関しては、最近はhttps://tensorflow.org (accessed on May 5, 2020)などとURL表記とそのアクセス日時を書いて、それをcitationに入れるというのが主流になりつつあります。あまり本文中にURL書くのは好まれなくなりつつあります。
項目10. いくつかの研究では、研究者は前処理ステップとして、生の抽出データのサブセットを選択する。例えば、画像の一部を切り取る、または報告書の一部を抽出するなどの処理を行う。このプロセスが自動化されている場合は、使用したツールとパラメータを記述し、手動で行われている場合は、担当者のトレーニング方法と使用した基準を明記する。臨床的または科学的な問題解決という文脈の中で、この手動ステップがどのように対応されるかを正当化する。
Item 10. In some studies, investigators select subsets of the raw extracted data as a preprocessing step, for instance, selecting a subset of the images, cropping down to a portion of an image, or extracting a portion of a report. If this process is automated, describe the tools and parameters used; if done manually, specify the training of the personnel and the criteria they used. Justify how this manual step would be accommodated in the context of the clinical or scientific problem to be solved.
前処理で生データからさらにサブセットを作成する等の場合は、詳記する必要がありそうです。一枚の画像から細かいパッチに分けるなどのときが該当しそうですね。すなわち、項目9の内容にはない部分で学習までに中間処理(augmentation除く)がある場合にはここに記載する必要があります。それが手動で行われているときは大変ですね、、、担当者のトレーニング方法や基準を明記する必要があるようで、細かく書く必要があります。ただ、deep learning研究者の殆どがそんな事するときは自動でやりそうですので、自動の方法を書くことになることが多そうです。
項目 11. 予測変数と結果変数を定義する。放射線医学界や米国国立衛生研究所が管理するデータなど、必要に応じて共通のデータ要素にマッピングする。
Item 11. Define the predictor and outcome variables. Map them to common data elements, if applicable, such as those maintained by the radiology community or the U.S. National Institutes of Health.
予測及び結果変数の定義です。すなわち予測変数としては基本は画像でしょう。その他、画像以外の変数も同時に扱っている場合は、年齢や性別なども予測変数にはいる可能性があります。結果変数は全結合層の最後の部分ですね。binary cross entrophyなら全結合層1だし、categorical cross entrophyなら「最後の全結合層=分類数」になります。
項目12. 米国(HIPAA)、欧州(GDPR)、またはその他の関連法を満たすために、データの識別を解除した方法と、保護された健康情報をどのように削除したかを記述する。顔のプロファイルは本人確認を可能にすることができるため、そのような情報が削除されたか、または本人確認ができないようにした手段を記述する。
Item 12. Describe the methods by which data have been de-identified and how protected health information has been removed to meet U.S. (HIPAA), European (GDPR), or other relevant laws. Because facial profiles can allow identification, specify the means by which such information has been removed or made unidentifiable.
ここは新しいですね。プラバシーの法律が変わりました。とりあえず、 NEJMのdeep learningではdeidentifiedは強調されていますが、特に倫理委員会の文章以上のことは記載されていませんでした。もう少しいろいろな論文が出てくるのを待ってみます。
項目13. 欠損データを近似値や予測値に置き換えるなど、欠損データがどのように処理されたかを明確に記述する。推定されたデータがもたらす可能性のあるバイアスを記述する。
Item 13. State clearly how missing data were handled, such as replacing them with approximate or predicted values. Describe the biases that the imputed data might introduce.
あれ?と思いました。項目9項目とオーバーラップしているようにみえます。項目9に”Specify how the following issues were handled: … missing data…”とありますからね。もしかして、文脈的には項目9ではtrainingの話で、ここはpredict時の話でしょうか。ただ、predict時のmissing dataというものがピンと来ません。ということでこの項目は無視させてもらいます。
Ground Truth
項目 14. 根拠となるアノテーションに対して詳細で具体的な基準を定め、理想的には共通のデータ要素を参照にすること。「肝臓病変の大きさ」のような曖昧な記述は避け、「厚さ2.5mmの軸方向造影CT画像で測定した、病変部を完全に含むミリメートル単位での最大の直線的な測定値」のようなより正確な定義を使用する。主観的な評定方式(軽度/中等度/重度など)を説明するために、アノテータに例題のアトラスを提供し、その情報をレビュー時に利用できるようにする。
Item 14. Include detailed, specific definitions of the ground truth annotations, ideally referencing common data elements. Avoid vague descriptions such as “size of liver lesion;” use more precise definitions, such as “greatest linear measurement in millimeters passing entirely through the lesion as measured on axial contrast-enhanced CT images of 2.5-mm thickness.” Provide an atlas of examples to annotators to illustrate subjective grading schemes (eg, mild/moderate/severe), and make that information available for review.
これも面白いですね。前半の話はそれはそうだろうと思いますが、最後ですね。「アノテータに例題としてのアトラスを提供し、しかもその情報をレビュー時に利用できるようにする」ということは、流石にこの情報はmain bodyには載らないと思いますので、supplementel materialsに入ることになりそうです。なお、このアノテータの話は項目16でも出てきます。そちらでまとめて書くほうが良さそうです。
項目 15. そのreference standardを選んだした根拠と、そのreference standardの潜在的な誤差、バイアス、限界について記述しなさい。
Item 15. Describe the rationale for the choice of the reference standard and the potential errors, biases, and limitations of that reference standard.
上記項目14で定めたground truthの基準のlimitationを述べる部分です。methodに入れるんですね。まとめてDiscussionのセクションにおけるlimitationでも良さそうですが、ここに統一する方向ですね。
項目 16. 人間のアノテータの数とその資格を明記する。アノテータに与えられた指示とトレーニングを記述し、可能であれば補足としてトレーニング資料を含める。アノテーションが独立して行われたかどうか、また、アノテータ間の不一致はどのようにして解消されたかを記述してください。
Item 16. Specify the number of human annotators and their qualifications. Describe the instructions and training given to annotators; include training materials as a supplement, if possible. Describe whether annotations were done independently and how any discrepancies among annotators were resolved.
前半は良いでしょう。放射線系ではよくあるパターンですね。マンモグラフィ歴5年です、とかboard-certificated radiologistとかそういうやつですね。ここからが謎です。アノテータへの指示とトレーニング方法を記述します。そしてそれをsupplementalに入れる。これって項目14と一部被ります。そちらでも「アノテータに例題のアトラスを提供し、その情報をレビュー時に利用できるようにする。」と書かれています。ただ、項目14でいうよりこの項目16で言う方がまとまりがあり良い気がします。その他のアノテーションが独立して行われたとか、アノテータの間の不一致などはあまり悩まないと思うのですが、これはLancet系のJournalでのrevisionの話ですが、アノテータ間の不一致率をResultsにいれろと言われたことがあります。それこそ研究終了後にそのデータが無ければ詰みますので、最初からResults載せる必要は今でも内容に思いますが、データとしては持っておいた方が良い部分のようです。
項目 17. 手動、半自動、または自動アノテーションに使用したソフトウェアをバージョン番号を含めて明記してください。自然言語処理またはリカレントニューラルネットワークを使用して、フリーテキストの画像報告書または電子カルテから画像ラベルを抽出したかどうか、またどのようにして画像ラベルを抽出したかを記述する。
Item 17. Specify the software used for manual, semiautomated, or automated annotation, including the version number. Describe if and how imaging labels were extracted from free-text imaging reports or electronic health records using natural language processing or recurrent neural networks.
アノテーションソフトを記述するようです。それにしても細かくソフトウェアまで聞いてくるChecklistですね。言われるがまま書きましょう。そして、自然言語処理した場合は、言語処理の方法も記載する必要があるそうです。もしがっつりやってても、詳記するとかなり脇道に逸れまくれそうです。シンプルに電子カルテで病名検索しただったり、病理診断結果の診断名を利用した、くらいで済ませたいところです。または、詳記する場合はsupplementalに入れるべきかもしれません。
項目 18. 間および内部のばらつきを測定する方法、およびこのばらつきを軽減または緩和し、矛盾を解決するために取られた手順を記述する。
Item 18. Describe the methods to measure inter- and intrarater variability, and any steps taken to reduce or mitigate this variability and/or resolve discrepancies.
Ground truthをつける際の話ですので、例えば、detectionのアルゴリズムを作成する事を考えます。そのdetectionの教師データのために、マンモグラフィから悪性所見に対してbounding boxをつけるとします。それを2人の読影者が作成するときに、その2人の間で意見が違ったときにどうするかなどについて言及します。また、先述ですが不一致の数についても求められることがあるので、一応そんなデータもとっていた方がベターです。
Data Partitions
項目 19. サンプルサイズとその決定方法を記述しなさい。必要に応じて従来の検出力計算法を用いて、より大きな母集団での一般化を可能にするために必要なサンプルサイズを推定し、効果を示すためにはどのくらいの症例数が必要かを説明してください。
Item 19. Describe the sample size and how it was determined. Use traditional power calculation methods, if applicable, to estimate the required sample size to allow for generalizability in a larger population and how many cases are needed to show an effect.
結局は、データ分割のセクションです。サンプルサイズ計算がいきなり出てきました。deep learinig ×医療画像研究でサンプルサイズ計算しているのを見たことがありません。そもそもモデル作成前に検出力分からないし。やるなら作成できるアルゴリズムの検出力8割くらいと想定して、、、みたいな世界かな。なので、項目7のところで述べたように、もしtestデータを目的とするコホートに合わせて用意するのであれば、ここでそのtestデータを用意した根拠として書くのが良いと思います。
実際のところは、できるだけ多くのデータを集めた、というのがサンプルサイズの決定方法になっていることがほとんどと思います。
項目20. データがどのように分割されたかの割合を示し、その選択を正当化してください。各分割データのデータの間に系統的な違いがあるかどうかを示し、ある場合はその理由を示してください。
Item 20. Specify how the data were assigned into training, validation (“tuning”), and testing partitions; indicate the proportion of data in each partition and justify that selection. Indicate if there are any systematic differences between the data in each partition, and if so, why.
各分割データの割合を示します。多いのはtraining, validation testing = 8:1:1でしょう。これにreasonableな理由付けは難しそうですが、そうすることにケチをつけるpeer reviewerはいないように思います。伝統的にされている方法ですので。
項目21. 分割データがバラバラになっているレベルを記述する。つまり、分割データが患者ベースに分割されているのか、シーケンスベースに分割されているのか、画像ベースに分割されているのかを記載する。
Item 21. Describe the level at which the partitions are disjoint. Sets of medical images generally should be disjoint at the patient level or higher so that images of the same patient do not appear in each partition.
どのレベルでデータを分割したかを記載します。患者の重複がないように患者単位分割したのか、シーケンス単位なのか、画像単位なのかみたいなことを記載します。
Model
項目 22. 入力、出力、すべての中間層を含むモデルの完全かつ詳細な構造を、他の研究者が正確にネットワークを再構成できるように十分に詳細に記述すること。ニューラルネットワークモデルの場合は、プーリング、正規化、正則化、活性化のすべての詳細を層の記述に含めること。モデルの入力は、前処理されたデータの形式と一致していなければならない。モデルの出力は、述べられた臨床問題の要件に対応していなければならず、教師付き学習の場合は、基底真実のアノテーションの形式と一致していなければならない。以前に公表されたモデルアーキテクチャを採用している場合は、前記の基準を満たす参照文献を引用し、モデルに加えられたすべての変更を完全に記述する。場合によっては、モデルの構造を補足データとしてコードで提供した方が便利な場合もある。
Item 22. Provide a complete and detailed structure of the model, including inputs, outputs, and all intermediate layers, in sufficient detail that another investigator could exactly reconstruct the network. For neural network models, include all details of pooling, normalization, regularization, and activation in the layer descriptions. Model inputs must match the form of the preprocessed data. Model outputs must correspond to the requirements of the stated clinical problem, and for supervised learning should match the form of the ground truth annotations. If a previously published model architecture is employed, cite a reference that meets the preceding standards and fully describe every modification made to the model. In some cases, it may be more convenient to provide the structure of the model in code as supplemental data.
いやいやいやいや、モデル全部詳記は不可能でしょ!?既存のResNetとかを使っている場合は、代えた部分のみ詳記してくださいとのことですが、これでもかなりきつい場合が多そうです。最終文に「モデルの構造を補足データとしてコードで提供した方が便利な場合もある」と書かれていますが、むしろそうする以外にはない感じがします。なかなか厳しいchecklistです。codeついてない医学論文は排除するつもりでしょうか。
項目 23. すべてのソフトウェアのライブラリ、フレームワーク、パッケージの名前とバージョン番号を明記する。計算性能のベンチマークを行うことが作業の中心でない限り、ハードウェアの詳細な記述は避ける。
Item 23. Specify the names and version numbers of all software libraries, frameworks, and packages. Avoid detailed description of hardware unless benchmarking computational performance is a focus of the work.
ここは説明不要ですね。この通りにしましょう。citation用に引用方法が明記されていないものは、citationとしてURLを記載することが好まれます。ただ、細かく書きすぎてあまりに多い場合、citationがURLだけで10個とかになりかねませんので、重要なもののみpick upするか(tensorflowとkerasなら、kerasはtensorflowのデフォルトになったので書かないとか)、それ以外はsupplemental materialsに移すしかなさそうです。
後、ハードウェアの記載が必要なくなったのはありがたいです。ここもいつもどうしようか悩む部分の1つでした。
項目 24. モデルのパラメータがどのように初期化されたかを示す。ランダムに初期化されたパラメータに対して、ランダムな値の分布を記述する。パラメータの初期化に転化学習が採用されている場合は、開始重みの元を明記する。ランダム初期化と伝達学習の組み合わせがある場合、モデルのどの部分がどの戦略で初期化されたかを明確にする。
Item 24. Indicate how the parameters of the model were initialized. Describe the distribution from which random values were drawn for randomly initialized parameters. Specify the source of the starting weights if transfer learning is employed to initialize parameters. When there is a combination of random initialization and transfer learning, make it clear which portions of the model were initialized with which strategies.
細かいです。モデルのパラメータの初期値のことですね。大きく分けてimagenetの重みを最初使っている場合(transfer learningしなくても)と、ランダムな初期値を使用している場合に分かれると思います。初期値のランダム値のを記載するって、そんなデータ意識しないと残さないです、普通。もはや「imagenetの初期値を利用した」って全部書くほうがいいかもしれません(楽なので)。
Training
項目25. 他の研究者がトレーニングプロセスを正確に再現できるように、すべてのトレーニング手順とハイパーパラメ ータを完全に記述すること。通常、トレーニングを完全に文書化するためには、次の項目が必要である。トレーニングデータをどのように拡張したかを記述する(例:画像の場合、変換の種類と範囲)。各モデルのトレーニングの収束をどのように監視したか、トレーニングを停止する基準は何だったかを記述する。各ハイパーパラメータに使用した値を示し、どのハイパーパラメータをモデル間で、どの範囲で、どのような探索戦略を用いて変化させたかを示す。ニューラルネットワークの場合、ハイパーパラメータの説明には、少なくとも学習率スケジュール、最適化アルゴリズム、ミニバッチサイズ、ドロップアウト率(あれば)、正則化パラメータ(あれば)が含まれている必要がある。どのような目的関数を採用したのか、なぜそれを選択したのか、そしてそれが臨床的または科学的なユースケースに必要とされる性能とどの程度一致しているのかを議論する。最高の性能を持つモデルを選択するために使用される基準を定義する。転化学習でよくあるように、モデルのパラメータがfreezeされていたり、変更が制限されていたりする場合は、どのパラメータが関与しているか、どのような方法で制限されているか、制限が適用される訓練の部分を明確に示す。標準的なフレームワークを使用している場合、特にニューラルネットワークモデルの場合は、これらの詳細を簡潔な訓練スクリプトの形でコードに記述した方がより簡潔になる可能性がある。
Item 25. Completely describe all of the training procedures and hyperparameters in sufficient detail that another investigator could exactly duplicate the training process. Typically, to fully document training, a manuscript would: Describe how training data were augmented (eg, for images the types and ranges of transformations). State how convergence of training of each model was monitored and what the criteria for stopping training were. Indicate the values that were used for every hyperparameter, which of these were varied between models, over what range, and using what search strategy. For neural networks, descriptions of hyperparameters should include at least learning rate schedule, optimization algorithm, minibatch size, dropout rates (if any), and regularization parameters (if any). Discuss what objective function was employed, why it was selected, and to what extent it matches the performance required for the clinical or scientific use case. Define criteria used to select the best-performing model. If some model parameters are frozen or restricted from modification, as is often the case in transfer learning, clearly indicate which parameters are involved, the method by which they are restricted, and the portion of the training for which the restriction applies. It may be more concise to describe these details in code in the form of a succinct training script, particularly for neural network models when using a standard framework.
ここは、記載の項目を一つ一つチェックしていくしかありませんし、最後の一文にあるように、特にneural network modelの場合、training scriptをGitHubなどで参照できるようにしている方がよさそうです。
「どのような目的関数を採用したのか、なぜそれを選択したのか、そしてそれが臨床的または科学的なユースケースに必要とされる性能とどの程度一致しているのかを議論」については面白いと感じました。ここで目的関数に関しては議論してもよいよということですね。もちろんDiscussionのセクションでしてもよいとは思うのですが、ここでする方が文章的にキレイに流れると考えたからでしょう。確かに、例えばマンモグラフィから乳癌とその他でわける二値分類では、通常ground truthは病理データになるので、白黒はっきりしています。しかし、我々医師はスクリーニングでは通常カテゴリー分類(ⅠからⅤ)で診断することがほとんどですから、そこには違いがあるわけです。そのあたりについてユースケースを想定しながら、議論する必要があるわけですね。先程の例では「2値分類した後に、その悪性らしさを0-1の間の値で出力できるので、そのそれぞれの値を参考にできるようにすることで、通常行われる悪性の可能性毎に分けられたカテゴリー分類よりもさらに多くの情報を提供できる」の用な感じでしょうか。
項目26. 分割テストデータセットに対する評価のために、訓練されたすべてのモデルの中から最も性能の良いモデルを選択するために使用された方法と性能のパラメータを記述しなさい。複数のモデルが選択されている場合は、その理由を説明すること。
Item 26. Describe the method and performance parameters used to select the best-performing model among all the models trained for evaluation against the held-out test set. If more than one model is selected, justify why this is appropriate.
ここでは試行錯誤の末に、研究中で最高精度のモデル(及びその重みファイル)が選ばれるに至った流れを記載する必要があります。つまり、testデータでの評価段階の話ではなくtraining, validationでのモデル構築時の話です。通常は、validation-lossが最も低くなったものを選んだということになります。
項目 27. 最終的なアルゴリズムがモデルのアンサンブルを含む場合、アンサンブルを構成する各モデルを、先行する推奨事項に従って完全に詳細に記述する。構成モデルの出力がどのように重み付けされているか、結合されているかを示す。
Item 27. If the final algorithm involves an ensemble of models, describe each model comprising the ensemble in complete detail in accordance with the preceding recommendations. Indicate how the outputs of the component models are weighted and/or combined.
アンサンブルコーナーができるとは思ってませんでした。これもどこまで書くかは難しいですが、簡単で良いと思います。私がアンサンブルを使った研究をしたときは、使ったアンサンブル法の参考文献をcitationに入れて、数行説明したにとどめました。個人的には、なんぼアンサンブルして精度2,3%上げても載るjournalに変化がないこと多いので、アンサンブルしてないです。もちろん、後1%上がれば世界最高精度(state-of-the-art)!みたいな状況なら頑張るのもよいとは思いますが。
Evaluation
項目 28. モデルの性能を測定するために使用した指標を記述し、それが臨床的または科学的な問題にとって最も重要な性能特性にどのように対応しているかを示しなさい。提示されたモデルを過去に発表されたモデルと比較しなさい。
Item 28. Describe the metric(s) used to measure the model’s performance and indicate how they address the performance characteristics most important to the clinical or scientific problem. Compare the presented model to previously published models.
ここは、自分が採用したmetricsの説明と自分の研究での問題解決とどの様に関連するかを記載します。メトリックはまず2値分類であればROCを書き、AUCの算出をして、そのROCから閾値を決めて、sensitivity, specificity, accuracy, positive predictive value, negative predictive valueを記載すことになりそうです。このCLAIMの基礎をなす1つがSTARD checklistですが、そこにはsensitivity, specificityだけとかは駄目で、だすなら上述の5種類をまとめて出しましょう的なことが書かれていますので、そうするほうが良いと思います(特に手間もないはずですし)。3値以上の分類でもsensitivity, specificity, accuracy, positive predictive value, negative predictive valueが中心になりますが、(多分類なので)少し変える必要があるかもしれません。また、他クラスなら、confusion matrixを用意することも必要です(ここでは明記されていませんが、後に明記されるのでここで用意することを書いておいたほうがよいです)。
またここで、モデルの先行研究との比較を行います。ここについても、Discussionコーナーで書くのではないのですね。Methodsの一部であることを忘れずに、主観的評価を排除して、淡々とモデルの構造の比較のみに徹するべきですね。
項目 29. 標準偏差、信頼区間など、パフォーマンス・メトリクスの値の不確実性を示す。メトリクスを比較するために適切な統計的有意性の検定を計算する。統計ソフトを指定する。
Item 29. Indicate the uncertainty of the performance metrics’ values, such as with standard deviation and/or confidence intervals. Compute appropriate tests of statistical significance to compare metrics. Specify the statistical software.
このあたりは説明不要でしょう。いずれの論文でも必要になる基本的なことです。
項目30. 様々な仮定や初期条件に対するモデルのロバスト性や感度を分析する。
Item 30. Analyze the robustness or sensitivity of the model to various assumptions or initial conditions.
この項目は不明です。
項目 31. 適用される場合、モデルの結果を説明または解釈するための方法を記述し、それらを生成するために使用されたパラメータを提供しなさい。そのような方法があれば、今回の研究でどのように検証されたかを記述しなさい。
Item 31. If applied, describe the methods that allow one to explain or interpret the model’s results and provide the parameters used to generate them. Describe how any such methods were validated in the current study.
これは、いわゆるGrad-CAMなどを想定しているのでしょう。いわゆるexplanable AIといいますか、modelの結果を説明したり解釈するための方法について、それがある場合は記載を要求されています。しかもまたパラメータまで要求されていますので、これもやはりcodeとして提供するほうがよさそうです。
項目 32. 完成したアルゴリズムの性能を評価するために使用したデータを記述しなさい。これらのデータがトレーニングデータとは異なるデータソースから引き出されていない場合は、その制限について記述し、正当化すること。トレーニングセットと評価セットの間にアノテーションやデータの構造に違いがある場合は、その違いを説明し、その違いに対応するために取られたアプローチを記述し、正当化してください。
Item 32. Describe the data used to evaluate performance of the completed algorithm. When these data are not drawn from a different data source than the training data, note and justify this limitation. If there are differences in structure of annotations or data between the training set and evaluation set, explain the differences, and describe and justify the approach taken to accommodate the differences.
ここは文字通りですね。暗に、異なるデータソースからテストデータを集めたほうが良いですよということを示しています。しかし未だ使えるオープンデータは少ないですし、研究環境が相当に整っていないと到達しにくいレベルですね。ここでもリミテーションみたいなことを述べることになりそうです。
The Results Section
実験の結果を十分に詳細に提示すること。結果の説明が語数や他のジャーナルの要求を超える場合は、原稿の補足としてデータを提供することができる。
Present the outcomes of the experiment in sufficient detail. If the description of the results would exceed the word count or other journal requirements, the data can be offered in a supplement to the manuscript.
Methodsのところでも書きましたが、Resultsも全データを載せるのは不可能と思います。そのときにはsupplemental materialsやレジストリ登録(ClinicalTrials.govやWHO ICTRP)にResultsの一部を置いて、字数をコントロールしましょう。最近私は、多くの場合、double spaceで10 pointで書く場合、word 1ページくらいしか文書としてResultsを書かずに、Figure, Table, Supplemental, Registryなどを参照してもらうような構成にすることが多いです。
Data
項目 33. 患者または検査または情報の断片を含める基準と除外する基準を指定し、各基準を満たした症例数を明確にしてください。初期の患者数と何らかの理由で除外された患者数を示すフローチャートやダイアグラムを結果に含めることを強く推奨する。データセットの技術的特徴の要約を記述する。例えば、画像の場合:モダリティベンダー/モデル、取得パラメータ、再フォーマットパラメータ、報告書の場合:診療設定、報告書作成者の数とトレーニング、構造化された報告書の程度などである。
Item 33. Specify the criteria to include and exclude patients or examinations or pieces of information and document the numbers of cases that met each criterion. We strongly recommend including a flowchart/diagram in your results to show initial patient population and those excluded for any reason. Describe the summary of the technical characteristics of the dataset. For example, for images: modality vendors/models, acquisition parameters, reformat parameters; for reports: practice setting, number and training of report authors, extent of structured reporting
Eligibility criteria(適格基準)の部分です。フローチャートを作成することを勧められています。これは、CLAIMの前身の1つであるSTARD checklistの影響です。そして興味深いのは、画像の場合にベンダーや機器の特定、その画像の撮影時のパラメタまで求められています。これはDICOMデータからなら抽出できそうですが、pngとかに処理後・匿名化後などでDICOMとの紐付けが手間がかかる可能性があり、研究終了後に取得するのはかなか気合が必要になります。レポートの場合は、臨床のセッティングやレポーターの数及び経験年数などが必要になります。これも一手間ありますね。
項目 34. 各分割データ内の症例の人口統計学的特徴と臨床的特徴を明記すること。すべての分割データのパフォーマンスメトリクスを明記すること。
Item 34. Demographic and clinical characteristics of cases in each partition should be specified. State the performance metrics on all data partitions.
ここからは、demographicsについてはtraining, validation, testのいずれも必要で、それぞれについてのperformance metricsを明記することが言われています。
Model Performance
項目 35. 最終的なモデルのテストデータセットでのパフォーマンスを報告する。組織病理学的に疾患を特定したり、不一致を解決するための明示的な方法を持つ医学専門家のパネルなど、現在の基準に対してAIモデルの性能をベンチマークする。
Item 35. Report the final model’s performance on the test partition. Benchmark the performance of the AI model against current standards, such as histopathologic identification of disease or a panel of medical experts with an explicit method to resolve disagreements.
テストデータ(independent data)で最終モデルのパフォーマンスを評価します。そして、興味深いことにはここで、”current standards“の性能をベンチマークしておくことが記載されています。つまり、先行する機械学習の研究があればそれを記載したり、乳癌検出AIなら、専門医の乳癌検出力を記載したりすることになると思います。私はこれらはDiscussionでやっていました。あくまで、ここはResultsなので、淡々とした記載にとどめておくべき(比較とかはしてはだめ)と思います。私は、文脈的ににキレイならそうしようと思いますが、文脈を壊してしまう可能性があれば、相変わらずDiscussionでしようと思います。
項目 36. 例えば分類タスクであれば、95%信頼区間などの診断精度の推定値とその精度を含める。ROCやcalibration curveなどの適切な方法論を適用する。信頼区間を直接計算できない場合は、ブートストラップ法でのノンパラメトリック推定値を報告する。どの変数が応答変数の予測可能であることが示されたかを記述する。予測モデルが最も効果的かつ最も非効果的だった集団を特定してください。
Item 36. For classification tasks, include estimates of diagnostic accuracy and their precision, such as 95% confidence intervals. Apply appropriate methodology such as receiver operating characteristic analysis and/or calibration curves. When the direct calculation of confidence intervals is not possible, report nonparametric estimates from bootstrap samples. State which variables were shown to be predictive of the response variable. Identify the subpopulation(s) for which the prediction model worked most and least effectively.
ここまだ馴染み深いですね。この各メトリックスに対しての95%信頼区間の算出などはこのCLAIMの前身となるSTARD checklistの名残です。興味深いのはbootstrap法について明記されていることです。bootstrap法はどんな場合にも用いれる95%信頼区間の出し方ですが、対象とする数が多くないと95%信頼区間が狭くなりません。そのため、deep learningなどとは相性がよい計算法です。その他に決まった95%信頼区間の算出法が確立されていない場合に用いるとよいでしょう。NEJMのdeep learning研究でもbootstrap法でされていますので、安心して使いましょう。
項目 37. 不正確な結果を理解するのに役立つ情報を提供してください。タスクで2つ以上のカテゴリへの分類が必要な場合は、予測されたカテゴリと実際のカテゴリの合計値を示すconfusio matrixを提供してください。読者がアルゴリズムの長所と限界をよりよく理解できるように、誤って分類されたケースの例を提示することを検討してください。
Item 37. Provide information to help understand incorrect results. If the task entails classification into two or more categories, provide a confusion matrix that shows tallies for predicted versus actual categories. Consider presenting examples of incorrectly classified cases to help readers better understand the strengths and limitations of the algorithm.
confusion matrixの提示を求めていますね。これは過去ありませんでした。この程度であれば、研究終了後からでも出せそうです。また、最後の文書はRadiologyらしいといいますか、誤って分類されたケースの例を提示することを検討することとなっています。
The Discussion Section
このセクションでは、概要、限界、意味合い、将来の方向性の4つの情報を提供しています。
This section provides four pieces of information: summary, limitations, implications, and future directions.
シンプルでいいですね。4つのサブセクションで構成されるということです。もちろん、どこかのサブセクションを2段落で書くことも良いと思います。
項目38. 結果を簡潔に要約し、文脈の中に配置し、現在の研究がどのように知識を前進させているのか、また技術の現状を説明しなさい。研究の方法、材料、バイアス、統計的不確実性、予期せぬ結果、一般化可能性など、研究の限界を特定する。
Item 38. Summarize the results succinctly and place them into context; explain how the current work advances our knowledge and the state of the art. Identify the study’s limitations, including those involving the study’s methods, materials, biases, statistical uncertainty, unexpected results, and generalizability.
個人的にはスッキリしました。最初の段落にまとめコーナーをつくるのか、いきなりDiscussionに入るのかは研究者は悩んだことがあることと思います。そこをクリアカットにまずまとめ!と言ってくれると、余計なことで悩まなくて住みますからありがたいです。今回の研究における問題提起をどのように解決したのかを記載します。
次にリミテーションです。上記に書いているとおりの項目を検討するとよいです。また、もし書くことがなければdeep learningでは定番とも言える、「データ量が不十分(not sufficient)の可能性がある」などはいつでも使えますね。
項目 39. AI モデルの使用目的や考えられる臨床的役割など、実践への影響を記述しなさい。この研究が現場に与える可能性のある主な影響を記述しなさい。議論の目的は、研究成果を基にした次のステップを想像することである。モデルの実践への翻訳の成功を妨げるような問題があれば、それについて議論しなさい。
Item 39. Describe the implications for practice, including the intended use and possible clinical role of the AI model. Describe the key impact the work may have on the field. Envision the next steps that one might take to build upon the results. Discuss any issues that would impede successful translation of the model into practice.
“implications, and future directions“の部分です。ここはもう好きに書くしかないですね。おそらく作成の段階でこのあたりは妄想していると思いますので、適当に書いてください。
Other Information
項目 40. ICMJEの臨床試験登録に関する声明に従うこと。ICMJEは、すべての医学雑誌編集者に対し、出版を検討する条件として、最初の患者登録時またはそれ以前に、臨床試験を公的試験登録簿に登録することを義務付けることを推奨している。ClinicalTrials.govやWHO ICTRPなどの臨床試験登録に試験プロトコールを登録することで、重複する試験や重複する試験を回避することができ、興味のある人は試験コーディネーターに連絡を取ることができる。
Item 40. Comply with the clinical trial registration statement from the International Committee of Medical Journal Editors (ICMJE). ICMJE recommends that all medical journal editors require registration of clinical trials in a public trials registry at or before the time of first patient enrollment as a condition of consideration for publication. Registration of the study protocol in a clinical trial registry, such as ClinicalTrials.gov or WHO Primary Registries, helps avoid overlapping or redundant studies and allows interested parties to contact the study coordinators.
ICMJEの声明に従うのは研究者の基本です。ただ、clinical trialと違って、介入を行わないことも多いのがdeep learningの試験です。つまり、ほとんどの場合が後ろ向きに完了する。せいぜい、やっても後ろ向きに集めてきたデータを用いて、医師+AI試験で精度が向上するかを検討するような、観察研究です。特に、患者に新たな介入を行うわけではありません。そのため、基本的にはレジストリ登録はいりません。が、後ろ向き試験であってもレジストリ登録することは悪いことでは有りません。上述した医師+AI試験で精度が向上するかを検討するような観察研究を例にすると、そのstudy protocolや結果をレジストリ登録しておけば、そこをsupplemental materialsのような感覚で用いることができます。
項目 41. もし、雑誌の規定の制限言語数超過する場合、どこからstudy protocolアクセスできるかを記載する。この情報は、読者が研究の妥当性を評価するのに役立ち、研究を複製したい研究者の助けにもなる。研究の複製を可能にするために、アルゴリズムとソフトウェアを十分に詳細に記述すること。著者は、モデル化、データ解析に使用したすべてのコードを、一般にアクセス可能なリポジトリに預けるべきである。
Item 41. State where readers can access the full study protocol if it exceeds the journal’s word limit; this information can help readers evaluate the validity of the study and can help researchers who want to replicate the study. Describe the algorithms and software in sufficient detail to allow replication of the study. Authors should deposit all computer code used for modeling and/or data analysis into a publicly accessible repository.
繰り返し書かれていることですが、study protocolは(ClinicalTrials.govやWHO ICTRP)に、codeもGitHubなどにuploadすることを勧められています。手間は増えますが、これらからのstandardにしたいという強い希望が感じ取られます。
項目 42. 研究を実施する上での資金源やその他の支援源、資金提供者の正確な役割を明記してください。研究の各段階で著者が独立していたかどうかを示す。
Item 42. Specify the sources of funding and other support and the exact role of the funders in performing the study. Indicate whether the authors had independence in each phase of the study.
これは、ほとんど説明不要ですかね。何もなければなしですし、資金提供有りかつ資金提供者は研究に関わっていない場合、こんな感じが多いのではないでしょうか。”The funder had no role in the study design, data collection, data analysis, data interpretation, or writing of the report. The corresponding author had full access to all data in the study and final responsibility for the decision to submit the report for publication.”