یک مطالعه جدید نشان می دهد که هوش مصنوعی ممکن است بتواند با پر کردن مدارک معمولی به پزشکان کمک کند، اما به این زودی ها در اورژانس مفید نخواهد بود.
محققان گزارش می دهند که برنامه ChatGPT OpenAI نتایج متناقضی را هنگام ارائه موارد شبیه سازی شده از بیماران مبتلا به درد قفسه سینه ارائه می دهد. هوش مصنوعی سطوح مختلف ارزیابی خطر قلبی را برای همان دادههای بیمار برگرداند – نه چیزی که پزشکان میخواهند هنگام پاسخ به یک اورژانس پزشکی ببینند.
دکتر توماس هستون، استادیار دانشکده پزشکی السون اس. فلوید دانشگاه ایالتی واشنگتن، گفت: «ChatGPT به شیوه ای ثابت عمل نمی کرد.
هستون در یک انتشار خبری دانشگاه گفت: «با توجه به دادههای مشابه، ChatGPT امتیاز کم خطر، سپس دفعه بعد یک ریسک متوسط، و گاهی اوقات تا حد ریسک بالا میدهد.»
بر اساس یافتههایی که اخیراً در ژورنال PLOS One منتشر شد، هوش مصنوعی همچنین نتوانست به خوبی روشهای سنتی را که پزشکان برای خطر قلبی بیمار استفاده میکنند، انجام دهد.
برای این مطالعه، محققان ChatGPT هزاران مورد شبیه سازی شده از بیماران مبتلا به درد قلب را تغذیه کردند. تحقیقات قبلی نشان داده بود که برنامه هوش مصنوعی میتواند امتحانات پزشکی را پشت سر بگذارد، بنابراین امیدواریم که در پاسخ به فوریتهای پزشکی از آن استفاده شود.
درد قفسه سینه یک شکایت رایج در اورژانس است و پزشکان باید به سرعت فوریت وضعیت بیمار را ارزیابی کنند.
هستون گفت که موارد بسیار جدی را می توان به راحتی از روی علائم شناسایی کرد، اما موارد کم خطر می تواند پیچیده تر باشد. تصمیم گیری در مورد اینکه آیا فرد باید برای مشاهده در بیمارستان نگهداری شود یا به خانه فرستاده شود، می تواند دشوار باشد.
هستون توضیح داد که امروزه پزشکان اغلب از دو معیار برای ارزیابی خطر قلبی استفاده می کنند که TIMI و HEART نامیده می شوند. این چک لیست ها به عنوان ماشین حسابی عمل می کنند که از علائم، سابقه سلامت و سن برای تعیین بیماری یک بیمار قلبی استفاده می کنند.
در مقابل، هوش مصنوعی مانند ChatGPT می تواند میلیاردها متغیر را به سرعت ارزیابی کند، ظاهراً به این معنی است که ممکن است بتواند یک موقعیت پزشکی پیچیده را سریعتر و دقیق تر تجزیه و تحلیل کند.
محققان سه مجموعه از 10000 مورد شبیه سازی شده تصادفی ایجاد کردند. مجموعه اول شامل هفت متغیر مورد استفاده برای مقیاس TIMI، دومی پنج متغیر مورد استفاده در HEART، و مجموعه سوم دارای مجموعه پیچیده تری از 44 قرائت تصادفی سلامت بود.
هنگامی که دو مجموعه داده اول تغذیه شد، ChatGPT با امتیازهای ثابت TIMI و HEART تقریباً نیمی از زمان، به ترتیب 45 و 48 درصد موافقت کرد.
در آخرین مجموعه داده، محققان همان موارد را چهار بار انجام دادند و دریافتند که ChatGPT اغلب حتی نمیتوانست با خودش موافق باشد. هوش مصنوعی در 44 درصد مواقع ارزیابیهای متفاوتی را برای موارد مشابه ارائه داد.
این مشکل احتمالاً به دلیل تصادفی بودن نسخه فعلی نرم افزار ChatGPT است که به آن کمک می کند تا پاسخ های خود را برای شبیه سازی زبان طبیعی تغییر دهد. چنین تصادفی در مراقبت های بهداشتی مفید نیست، جایی که تصمیمات درمانی نیاز به یک پاسخ واحد و ثابت دارد.
هستون گفت: “ما متوجه شدیم که تنوع زیادی وجود دارد و این تغییر در رویکرد می تواند خطرناک باشد.” این میتواند ابزار مفیدی باشد، اما من فکر میکنم که فناوری بسیار سریعتر از درک ما از آن پیش میرود، بنابراین بسیار مهم است که تحقیقات زیادی انجام دهیم، بهویژه در این موقعیتهای بالینی پر خطر.»
علیرغم این مطالعه، هستون گفت که هوش مصنوعی این پتانسیل را دارد که واقعاً در اورژانس مفید باشد. هستون گفت، برای مثال، کل پرونده پزشکی یک فرد میتواند وارد برنامه شود و میتواند مرتبطترین حقایق را در مورد یک بیمار به سرعت در شرایط اضطراری ارائه دهد.
پزشکان همچنین میتوانند از برنامه بخواهند تا چندین تشخیص احتمالی را در موارد دشوار و پیچیده ارائه دهد.
هستون گفت: «ChatGPT میتواند در ایجاد تشخیص افتراقی عالی باشد و این احتمالاً یکی از بزرگترین نقاط قوت آن است. «اگر کاملاً نمیدانید که در مورد یک بیمار چه میگذرد، میتوانید از او بخواهید که پنج تشخیص اصلی و استدلال پشت هر یک را ارائه دهد. بنابراین میتواند به شما کمک کند تا در مورد یک مشکل فکر کنید، اما در دادن پاسخ خوب نیست.»