Штучний інтелект успішно складає стоматологічні іспити у Великій Британії: наслідки для освіти та оцінювання BDS

Мабуть, найкориснішим та найпоширенішим застосуванням штучного інтелекту (ШІ) у житті пересічної людини є модель великої мови (LLM) – тип моделі машинного навчання, на яку ми покладаємося для розмовних відповідей на широкий спектр питань, від життєвих порад до простої перевірки фактів. Нове дослідження у Великій Британії оцінило ефективність трьох популярних LLM – Gemini, ChatGPT та Grok – в оцінюваннях програм бакалавра стоматологічної хірургії (BDS) та гігієни та терапії зубів (DHT). Дослідження підкреслює, як LLM можуть підтримувати стоматологічну освіту, але також виявляє ключові обмеження, особливо у створенні контенту для оцінювання студентів.

Дослідження показали, що LLM здатні складати іспити в медичній галузі, хоча чіткий аналіз їхньої ролі в стоматологічній освіті, а також порівняння різних платформ, були відсутні. Нове дослідження спробувало усунути це порушення та показало, що всі три програми LLM змогли успішно пройти всі оцінювання з 260 питань з вибором однієї правильної відповіді, 80 робіт з короткими відповідями та трьох структурованих усних іспитів, взятих з навчальних програм BDS та DHT. Результати на питаннях з вибором однієї правильної відповіді були однаковими в усіх моделях, і суттєвих відмінностей не виявлено. Однак у роботах з короткими відповідями ChatGPT та Grok значно перевершили Gemini в когорті DHT.

Це має важливі клінічні та освітні наслідки. Здатність LLM відповідати на письмові питання протягом усіх років програм BDS та DHT свідчить про те, що ці інструменти можуть використовуватися студентами для підтримки повторення матеріалу, а викладачами для оцінки прогресу учнів. Результати також підтверджують результати попередніх досліджень, які показали, що LLM є дуже цінним інструментом у стоматологічній освіті, попри ризики кібербезпеки, які вони можуть створювати.

Однак, коли їх попросили створити оригінальні екзаменаційні питання та схеми оцінювання, всі LLM виявили помітні недоліки. Питання включали надмірно складні або розпливчасті схеми оцінювання, неправильне використання клінічної термінології, подвійні заперечення в основах питань та питання, які не відповідали очікуваним результатам навчання. Критично, більшість згенерованих питань досягали лише нижчих рівнів таксономії Блума та піраміди Міллера, зосереджуючись на фактичному запам'ятовуванні, а не на клінічному застосуванні чи міркуванні.

Для стоматологічної освіти це свідчить про те, що, хоча програми LLM можуть допомогти у формувальному навчанні та оцінюванні з низькими ставками, вони ще не можуть надійно замінити людський внесок у розробку високоякісних, підсумкових інструментів оцінювання. Це особливо важливо в програмі BDS, де оцінювання повинні підтримувати перехід від новачка до компетентного клініциста в рамках структурованої навчальної програми.

Дослідження робить висновок, що такі програми LLM, як ChatGPT та Grok, мають цінність у підтримці освіти BDS, особливо у відповідях на запитання та створенні чернеток контенту. Однак, людський нагляд залишається важливим для забезпечення клінічної точності, відповідності стандартам Генеральної стоматологічної ради та змістовної оцінки прикладних знань. Оскільки інструменти штучного інтелекту продовжують розвиватися, їх інтеграція в стоматологічну освіту має бути продуманою, заснованою на доказах та орієнтованою на викладачів.

Дослідження під назвою «Ефективність моделей великих мов (ChatGPT4‑0, Grok2 та Gemini) у стоматології Великої Британії, а також оцінках стоматологічної гігієни та терапії» було опубліковано онлайн 20 червня 2025 року в Британському стоматологічному журналі перед включенням до окремого випуску.

Автор: Фрейзер Макдональд
Джерело: Dental Tribune International