Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Computer und Gesellschaft

ChatGPT für medizinische Zulassungsprüfungen verbessern

Forscher verbessern die ChatGPT-Leistung für die chinesische medizinische Lizenzprüfung.

― 5 min Lesedauer


ChatGPT besteht mitChatGPT besteht mitBravour die medizinischePrüfung.menschliche Prüflinge.KI-unterstützte Leistung übertrifft
Inhaltsverzeichnis

Die Chinesische medizinische Lizenzprüfung (CNMLE) ist ein wichtiger Test für alle, die in China Medizin praktizieren wollen. Sie prüft, ob die Kandidaten das notwendige Wissen haben, um medizinische Fachkräfte zu sein. Kürzlich haben Forscher untersucht, ob man fortschrittliche Computerprogramme, sogenannte Generative Pre-Training Modelle, wie ChatGPT, nutzen kann, um bei dieser Prüfung zu helfen.

ChatGPT ist super darin, Texte zu verstehen und zu erstellen, hat aber manchmal Schwierigkeiten mit spezifischem medizinischen Wissen. Das schränkt seine Nützlichkeit im Gesundheitswesen ein. Um die Leistung zu verbessern, haben die Forscher einen Ansatz vorgeschlagen, der medizinisches Wissen mit einer Lerntechnik namens Few-shot Learning kombiniert. So kann ChatGPT aus wenigen Beispielen lernen und besser bei medizinischen Fragen abschneiden.

ChatGPT bei der CNMLE testen

Die Forscher haben ChatGPT bei der CNMLE getestet, um zu sehen, wie gut es abschneidet. Sie fanden heraus, dass die Standardversion von ChatGPT nur 51 von 100 Punkten bei der Prüfung erreicht hat, was unter dem Bestehen liegt. Dieses Ergebnis zeigt, dass ChatGPT zwar im Allgemeinen gut ist, aber Verbesserungen braucht, um spezifische medizinische Fragen zu handhaben.

Um ChatGPT zu verbessern, haben die Forscher medizinisches Wissen in sein System integriert. Sie haben ein System entwickelt, das relevante medizinische Informationen bereitstellt, wenn ChatGPT mit einer Frage aus der CNMLE konfrontiert wird. Ausserdem haben sie eine kleine Anzahl von Beispielen und Antworten bereitgestellt, um dem Programm zu helfen, besser zu reagieren.

Verbesserung der Leistung von ChatGPT

Um die Leistung von ChatGPT bei der CNMLE zu steigern, haben die Forscher zwei Hauptstrategien eingeführt: Wissensverbesserung und Few-shot Verbesserung.

Wissensverbesserung

Diese Strategie bestand darin, eine medizinische Wissensdatenbank mit Lehrbüchern und anderen anerkannten Quellen aufzubauen. Die Forscher haben den Text in kleinere Stücke zerlegt, damit ChatGPT beim Stellen einer Frage schnell die relevantesten Informationen abrufen kann. Für jede Frage haben sie diese mit jeder Antwortmöglichkeit kombiniert, um relevantes medizinisches Wissen zu holen. Dadurch hatte ChatGPT beim Beantworten von Fragen einen besseren Kontext.

Few-shot Verbesserung

Die Few-shot Verbesserung bestand darin, eine Fragenbank mit zuvor gestellten CNMLE-Fragen zu erstellen. Diese Bank enthielt eine grosse Anzahl medizinischer Fragen, auf die ChatGPT zurückgreifen konnte. Durch die Kombination von Frage und Antwortmöglichkeiten konnten die Forscher ähnliche Beispiele aus dieser Bank finden, um ChatGPT zu helfen, neue Fragen zu beantworten. Dieser Ansatz ermöglichte es ChatGPT, aus nur wenigen Beispielen zu lernen, was viel schneller ist als das Modell von Grund auf neu zu trainieren.

Experimentergebnisse

Die Forscher führten dann verschiedene Experimente durch, um die Wirksamkeit ihrer Verbesserungen zu testen. Sie verwendeten die neue Methode namens Knowledge and Few-shot Enhanced In-Context Learning (KFE) und stellten fest, dass sie die Leistung von ChatGPT bei der CNMLE erheblich verbesserte.

Mit dem verbesserten Modell erzielte ChatGPT 70 von 100 Punkten in der Prüfung und übertraf somit die Bestehensgrenze. Es schnitt auch besser ab als durchschnittliche menschliche Prüflinge, die etwa 61 Punkte erreichten. Dieses Ergebnis zeigt, dass ChatGPT durch die Integration medizinischen Wissens und die Anwendung von Few-shot Learning als zuverlässiger Assistent für medizinische Fragen fungieren kann.

Verschiedene Ansätze vergleichen

Die Forscher verglichen mehrere Ansätze, um herauszufinden, welcher am besten funktionierte. Sie verwendeten das Grundmodell von ChatGPT, direkte Anweisungen, Wissensverbesserung und Few-shot Verbesserung. Jede Methode brachte unterschiedliche Ergebnisse, und es wurde deutlich, dass die Verbesserungen einen erheblichen Unterschied machten.

Das KFE-Modell qualifizierte sich nicht nur für die CNMLE, sondern übertraf auch das Standardmodell mit sowohl Wissens- als auch Few-shot Verbesserungen. Die Studie zeigte, dass beide Verbesserungen eine entscheidende Rolle bei der Leistungssteigerung spielten.

Weiterführende Untersuchungen

Die Forscher führten weitere Studien durch, um tiefere Einblicke in die Funktionsweise dieser Verbesserungen zu gewinnen. Sie untersuchten die Effektivität verschiedener Strategien für das Few-shot Learning und analysierten, wie die Länge der generierten Inferenzdetails die Leistung beeinflusste.

Interessanterweise fanden sie heraus, dass kürzere Inferenzschritte vorteilhafter waren als längere. In medizinischen Prüfungen ist Genauigkeit entscheidend, und längere Erklärungen könnten zu Fehlern führen.

Die Studie betrachtete auch, wie die Anzahl der Few-shot Beispiele die Leistung verbesserte. Die Forscher kamen zu dem Schluss, dass das Hinzufügen von Beispielen zwar die Ergebnisse verbessern kann, jedoch nach einem bestimmten Punkt abnehmende Erträge bringt.

Bedeutung der medizinischen Wissensbasis

Die Forscher betonten die Wichtigkeit einer zuverlässigen medizinischen Wissensbasis im System. Sie verglichen ihren KFE-Ansatz mit einer Methode, die versuchte, Kontext zu generieren, ohne externe medizinische Informationen zu nutzen, und fanden letzteres viel weniger effektiv. Dies unterstrich, wie entscheidend es für ChatGPT ist, auf qualitativ hochwertigen medizinischen Inhalt für genaue Antworten zurückzugreifen.

Fazit

Zusammenfassend zeigt diese Forschung zur China National Medical Licensing Examination, dass fortschrittliche Modelle wie ChatGPT angepasst werden können, um in spezifischen Bereichen wie dem Gesundheitswesen besser abzuschneiden. Durch die Integration fokussierten medizinischen Wissens und die Nutzung effizienter Lernstrategien qualifizierte sich das Modell nicht nur für die Prüfung, sondern übertraf auch die menschlichen Durchschnittswerte.

Die Ergebnisse deuten darauf hin, dass KI-Tools mit kontinuierlichen Verbesserungen wertvolle Ressourcen im Gesundheitswesen werden können, die möglicherweise sowohl Fachkräfte als auch Patienten unterstützen. Auch wenn Herausforderungen bestehen bleiben, insbesondere in Bezug auf Genauigkeit und Zuverlässigkeit in kritischen Situationen wie medizinischen Prüfungen, sind die Ergebnisse vielversprechend für die Zukunft der KI in der Medizin.

Originalquelle

Titel: Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries

Zusammenfassung: $\textbf{Objectives}$: Large Language Models (LLMs) such as ChatGPT and Med-PaLM have excelled in various medical question-answering tasks. However, these English-centric models encounter challenges in non-English clinical settings, primarily due to limited clinical knowledge in respective languages, a consequence of imbalanced training corpora. We systematically evaluate LLMs in the Chinese medical context and develop a novel in-context learning framework to enhance their performance. $\textbf{Materials and Methods}$: The latest China National Medical Licensing Examination (CNMLE-2022) served as the benchmark. We collected 53 medical books and 381,149 medical questions to construct the medical knowledge base and question bank. The proposed Knowledge and Few-shot Enhancement In-context Learning (KFE) framework leverages the in-context learning ability of LLMs to integrate diverse external clinical knowledge sources. We evaluated KFE with ChatGPT(GPT3.5), GPT4, Baichuan2(BC2)-7B, and BC2-13B in CNMLE-2022 and investigated the effectiveness of different pathways for incorporating LLMs with medical knowledge from 7 perspectives. $\textbf{Results}$: Directly applying ChatGPT failed to qualify for the CNMLE-2022 at a score of 51. Cooperated with the KFE, the LLMs with varying sizes yielded consistent and significant improvements. The ChatGPT's performance surged to 70.04 and GPT-4 achieved the highest score of 82.59. This surpasses the qualification threshold (60) and exceeds the average human score of 68.70. It also enabled a smaller BC2-13B to pass the examination, showcasing the great potential in low-resource settings. $\textbf{Conclusion}$: By synergizing medical knowledge through in-context learning, LLM can extend clinical insight beyond language barriers, significantly reducing language-related disparities of LLM applications and ensuring global benefit in healthcare.

Autoren: Jiageng Wu, Xian Wu, Zhaopeng Qiu, Minghui Li, Yingying Zhang, Yefeng Zheng, Changzheng Yuan, Jie Yang

Letzte Aktualisierung: 2024-01-29 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.10163

Quell-PDF: https://arxiv.org/pdf/2305.10163

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel