یک گام بزرگ به طرف هوش مصنوعی عمومی

گروه هوش مصنوعی: شرکت OpenAI با انتشار یک بنچمارک جدید به نام GDPval، گام مهمی در ارزیابی توانایی های هوش مصنوعی در دنیای واقعی برداشته است. نتایج اولیه این آزمون نشان داده است که مدلهای پیشرفته ای مانند GPT-5 در دامنه وسیعی از وظایف شغلی، عملکردی بسیار شبیه به انسان دارد.

تینا مزدکی_شرکت OpenAI روز پنجشنبه یک بنچمارک (معیار سنجش) جدید منتشر نمود که عملکرد مدلهای هوش مصنوعی خویش را در مقایسه با متخصصان انسانی در طیف وسیعی از صنایع و مشاغل آزمایش می کند. این آزمون که GDPval نام دارد، تلاش می کند نشان دهد که تا چه حد عملکرد سیستم های OpenAI در کارهای دارای ارزش اقتصادی به پای انسان رسیده است.
OpenAI می گوید عملکرد مدل GPT-5 و مدل Claude Opus 4.1 آنتروپیک به عملکرد متخصصان صنعتی نزدیک شده است. این به آن معنا نیست که مدلهای OpenAI مقرر است فوراً جایگزین انسان ها در مشاغلشان شوند. علیرغم پیش بینی برخی افراد بر مبنای این که هوش مصنوعی مشاغل انسان ها را تنها در چند سال آینده از آن خود خواهد کرد، OpenAI می گوید بر مبنای GDPval هم اکنون تعداد بسیار محدودی از وظایف انسان را پوشش می دهد. با این وجود، این یکی از تازه ترین روش هایی است که شرکت برای سنجش پیشرفت هوش مصنوعی به کار می گیرد.
آزمون GDPval بر مبنای ۹ صنعتی که بیشترین سهم را در تولید ناخالص داخلی آمریکا دارند، همچون حوزه هایی مانند بهداشت و درمان، مالی، تولیدی و دولتی، طراحی شده است. این بنچمارک عملکرد یک مدل هوش مصنوعی را در ۴۴ شغل در بین آن صنایع، از مهندسان نرم افزار گرفته تا پرستاران و روزنامه نگاران، ارزیابی می نماید.
برای نخستین نسخه این آزمون (GDPval-v0)، OpenAI از متخصصان باتجربه خواست تا گزارش های تولید شده توسط هوش مصنوعی را با گزارش های تهیه شده توسط سایر متخصصان انسانی مقایسه کرده و بهترین را انتخاب کنند. به عنوان مثال، در یک نمونه از آنها خواسته شد تا چشم انداز رقابتی در صنعت «تحویل به مشتری نهایی» (last-mile delivery) را ترسیم کرده و آنرا با گزارش های تولید شده توسط هوش مصنوعی مقایسه کنند. OpenAI میانگین «نرخ موفقیت» یک مدل هوش مصنوعی در مقابل گزارش های انسانی را در تمام ۴۴ شغل محاسبه می کند.
این شرکت می گوید مدل GPT-5-high، که نسخه ای تقویت شده از GPT-5 با قدرت محاسباتی اضافی است، در ۴۰.۶ درصد مواقع بهتر یا هم سطح با متخصصان بوده است.
OpenAI همینطور مدل Claude Opus 4.1 از شرکت آنتروپیک را آزمایش کرد که در ۴۹ درصد از کارها، بهتر یا هم سطح با متخصصان ارزیابی شد. OpenAI باور دارد که امتیاز بالای Claude بیشتر به علت تمایل آن به ساخت گرافیک های جذاب بوده است تا عملکرد خالص. البته باید درنظر داشت که اغلب متخصصان، بیش از یک گزارش تحقیقاتی به کارفرمایان خود تحویل می دهند و این در واقع تمام آن چیزی است که GDPval-v0 آزمایش می کند. OpenAI در این بارع می گوید می خواهد در آینده آزمون های جامع تری بوجود آورد که بتوانند صنایع بیشتر و جریان های کاری تعاملی را در بر بگیرند.
با وجود این، این شرکت پیشرفت در GDPval را قابل توجه می داند. دکتر آرون چاترجی، اقتصاددان ارشد OpenAI می گوید نتایج GDPval نشان داده است افراد شاغل در این عرصه ها حالا می توانند از مدلهای هوش مصنوعی، کمک بگیرند تا بهتر زمان خویش را مدیریت کنند.
تجال پاتواردهان، مدیر ارزیابی های OpenAI می گوید که سرعت پیشرفت در GDPval امیدوارکننده است. مدل GPT-4o که تقریبا ۱۵ ماه پیش انتشار یافت، در در این آزمون امتیاز ۱۳.۷٪ را کسب کرده بود. اما حالا امتیاز GPT-5 تقریبا سه برابر شده است و انتظار می رود که این روند همچنان ادامه پیدا کند.
سیلیکون ولی از قشر بزرگی از بنچمارک ها برای اندازه گیری پیشرفت مدلهای هوش مصنوعی و ارزیابی پیشرفته بودن یک مدل خاص استفاده می نماید. همچون محبوب ترین آنها میتوان به AIME 2025 (آزمون مسایل ریاضی رقابتی) و GPQA Diamond (آزمون سؤالات علمی در سطح دکترا) اشاره نمود. با این وجود، چندین مدل هوش مصنوعی در بعضی از این بنچمارک ها درحال نزدیک شدن به نقطه اشباع هستند و خیلی از محققان هوش مصنوعی بر ضرورت آزمون های بهتری که بتوانند مهارت هوش مصنوعی را در وظایف دنیای واقعی بسنجند، تاکید کرده اند.
بنچمارک هایی مانند GDPval می توانند اهمیت رو به ازدیادی پیدا کنند، چونکه OpenAI استدلال می کند که مدلهای هوش مصنوعی اش برای طیف وسیعی از صنایع پرارزش هستند. اما OpenAI به جهت اینکه بتواند به صورت قطعی بگوید که مدل هایش می توانند از انسان ها بهتر عمل کنند، امکان دارد به نسخه جامع تری از این آزمون نیاز داشته باشد.
منبع: techcrunch
بطور خلاصه این آزمون که GDPval نام دارد، تلاش می کند نشان دهد که تا چه حد عملکرد سیستم های OpenAI در کارهای دارای ارزش اقتصادی به پای انسان رسیده است. باوجود پیش بینی برخی افراد مبنی بر اینکه هوش مصنوعی مشاغل انسان ها را تنها در چند سال آینده از آن خود خواهد کرد، OpenAI می گوید مبنی بر GDPval حالا تعداد بسیار محدودی از وظایف انسان را پوشش می دهد. ولی حال امتیاز GPT-5 تقریباً سه برابر شده است و انتظار می رود که این روند بازهم ادامه پیدا کند.

1404/07/05

12:00:47

5.0 / 5

358

تگها: آزمایش , تحقیقات , تولید , سیستم

مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۳ بعلاوه ۳

نظر دادن

یک گام بزرگ به طرف هوش مصنوعی عمومی

پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

گروه هوش مصنوعی