مدل Claude Opus ۴،۸

Opus ۴.۸ در کنار چندین ویژگی جدید عرضه می شود. کاربران در claude.ai اکنون بر میزان مصرف توکنی که Claude برای یک وظیفه صرف می کند، کنترل دارند. پلتفرم Claude Code دارای یک ویژگی جدید تحت عنوان «جریان های کاری پویا» (dynamic workflows) است که به آن اجازه می دهد تا به حل مسائل در مقیاس بسیار بزرگ بپردازد. همچنین، حالت سریع (fast mode) برای Opus ۴.۸ که می تواند با سرعت ۲.۵ برابر کار کند، اکنون سه برابر ارزان تر از مدل های قبلی است.

به گزارش گروه هوش مصنوعی به نقل از خبر آنلاین و برپایه گزارش هوشیو، جدول زیر نشان داده است که Opus ۴.۸ در آزمون های کدنویسی، مهارت های عامل محور، استدلال و وظایف عملی کارهای دانش محور، در مقایسه با نسخه پیشین خود و سایر مدلها چه طور عمل می کند.

آزمایش کنندگان اولیه دریافته اند که Claude Opus ۴.۸ در هنگام انجام وظایف عامل محور، قابل اعتمادتر بوده و در قضاوت های خود دقیق تر عمل می کند. یکی از برجسته ترین بهبودها در Opus ۴.۸ صداقت آن است. اما یک مشکل عمومی در مدلهای هوش مصنوعی اینست که گاهی اوقات شتاب زده نتیجه گیری می کنند و با وجود شواهد اندک، با اطمینان مدعی پیشرفت در کار خود می شوند. آزمایش کنندگان اولیه گزارش می دهند که احتمال بیشتری وجود دارد تا Opus ۴.۸ عدم قطعیت های در ارتباط با کار خویش را نشانه گذاری (flag) کند و احتمال کمتری دارد که ادعاهای بدون پشتوانه مطرح کند. این مساله در ارزیابی های آنتروپیک نیز به اثبات رسیده است؛ ارزیابی هایی که نشان می دهند احتمال این که Opus ۴.۸ اجازه دهد نقص های موجود در کد نوشته شده اش بدون توجه و تذکر باقی بمانند، حدود چهار برابر کمتر از نسخه پیشین آن است.
Opus ۴.۸ در معیارهای آنتروپیک برای سنجش خاصیت های جامعه پسندانه (prosocial traits)، مانند پشتیبانی از استقلال کاربر و عمل کردن در امتداد بهترین منافع وی، به رکوردهای جدیدی دست یافته است. این ارزیابی همین طور نشان داد که نرخ رفتار ناهم راستا (misaligned behavior)؛ مانند فریب کاری یا همکاری در سوءاستفاده در Opus ۴.۸ به صورت قابل توجهی پایین تر از نسخه پیشین آن و تقریبا مشابه با Mythos است.

آنتروپیک علاوه بر Opus ۴.۸، بروزرسانی های زیر را نیز ارایه کرده است:
جریان های کاری پویا. این امکان جدبد که در فاز پیش نمایش پژوهشی (research preview) قرار دارد، به Claude اجازه می دهد تا وظایف بزرگ تری را در Claude Code بر عهده بگیرد. Claude می تواند کار را برنامه ریزی کرده و سپس صدها زیرعامل (subagent) موازی را در یک نشست (session) واحد اجرا نماید و با Opus ۴.۸، این عامل ها می توانند برای مدت طولانی تری نیز اجرا شوند. سپس، قبل از گزارش دهی مجدد به کاربر، خروجی های خویش را اعتبارسنجی می کند. بعنوان مثال، Claude Code بهمراه Opus ۴.۸ حال می تواند جابه جایی هایی در مقیاس پایگاه کد را در بین صدها هزار خط کد از مرحله آغاز تا ادغام انجام دهد، درحالی که مجموعه تست (test suite) موجود را بعنوان معیار پذیرش خود درنظر می گیرد. کنترل مصرف توکن در claude.ai و Cowork. یک کنترل کننده جدید در کنار بخش انتخابگر مدل به کاربران اجازه می دهد تا میزان تلاشی را که Claude برای یک پاسخ صرف می کند، انتخاب کنند. در تنظیمات تلاش بالاتر، Claude برای ارایه پاسخ های بهتر، بیشتر و عمیق تر فکر خواهدنمود. در تنظیمات تلاش پایین تر، Claude سریع تر پاسخ می دهد و محدودیت های نرخ کاربر را با سرعت کمتری مصرف می کند. کاربران حال از این حق انتخاب برخوردار می باشند. کنترل تلاش در تمامی طرح ها کاربری دردسترس است. رابط برنامه نویسی پیام ها (Messages API) حال ورودی های سیستم (system entries) را در داخل آرایه پیام ها می پذیرد. توسعه دهندگان می توانند دستورالعمل های Claude را در میانه کار و بدون ازبین بردن حافظه پنهان پرامپت یا هدایت این بروزرسانی از راه نوبت کاربر (user turn)، بروزرسانی کنند. این توانایی می تواند در یک چارچوب آزمایشی مشخص برای بروزرسانی مجوزها، بودجه های توکن یا زمینه محیطی هم زمان با اجرای یک عامل مورداستفاده قرار گیرد. تلاش: میزان مصرف توکن تنظیمات پیش فرض Opus ۴.۸ بر روی high effort قرار دارد که طبق ارزیابی آنتروپیک، بهترین تعادل کلی را بین کیفیت و تجربه کاربری برقرار می کند. در وظایف کدنویسی، این سطح از تلاش، تعداد توکن هایی مشابه با پیش فرض Opus ۴.۷ مصرف می کند، اما عملکرد بهتری را عرضه می کند. کاربران می توانند گزینه های extra یا xhigh در Claude Code یا max را انتخاب کنند تا مدل برای دستیافتن به نتایج بهتر، توکن های بیشتری را مصرف کند. آنتروپیک استفاده از گزینه extra را برای وظایف دشوار و جریان های کاری ناهمگام (asynchronous workflows) با اجرای طولانی سفارش می کند. محدودیت های نرخ در Claude Code نیز بالا رفته که با مصرف بالاترِ توکن در سطوحِ تلاشِ بالاتر سازگار شود؛ کاربران می توانند هر گزینه ای را که برای پروژه خاص آنها منطقی به نظر می آید، انتخاب کنند.
دسترسی Opus ۴.۸ از هم اینک در سرتاسر اکوسیستم Claude دردسترس است. قیمت گذاری جهت استفاده معمولی نسبت به نسخه قبلی بدون تغییر باقیمانده است: ۵ دلار به ازای هر یک میلیون توکن ورودی و ۲۵ دلار به ازای هر یک میلیون توکن خروجی. قیمت گذاری برای حالت سریع برابر با ۱۰ دلار به ازای هر یک میلیون توکن ورودی و ۵۰ دلار به ازای هر یک میلیون توکن خروجی است. توسعه دهندگان نیز می توانند از راه Claude API از مدل Opus ۴.۸ بهره گیرند.

به طور خلاصه اما یک مشکل عمومی در مدل های هوش مصنوعی این است که گاهی اوقات شتاب زده نتیجه گیری می کنند و با وجود شواهد اندک، با اطمینان مدعی پیشرفت در کار خود می شوند. قیمت گذاری برای استفاده معمولی نسبت به نسخه قبلی بدون تغییر باقی مانده است: ۵ دلار به ازای هر یک میلیون توکن ورودی و ۲۵ دلار به ازای هر یک میلیون توکن خروجی. قیمت گذاری برای حالت سریع برابر با ۱۰ دلار به ازای هر یک میلیون توکن ورودی و ۵۰ دلار به ازای هر یک میلیون توکن خروجی است.

منبع: iagrp.ir

1405/03/08

19:33:08

5.0 / 5

138

تگها: agent , آزمایش , پژوهش , حافظه

مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۹ بعلاوه ۳

نظر دادن

مدل Claude Opus ۴،۸

پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

گروه هوش مصنوعی