هوش مصنوعی اطلاعات خودرا از این سایت ها می گیرد

به گزارش گروه هوش مصنوعی، یک بررسی تازه نشان میدهد که هوش مصنوعی از برخی وبسایت ها بعنوان منابع اصلی اطلاعات خود بیشترین استفاده را داشته است. این رتبه بندی می تواند نشان دهنده میزان اعتماد توسعه دهندگان هوش مصنوعی به منابع مختلف و همینطور تاثیر این وبسایت ها در شکل گیری به داده ها و پاسخ های تولیدشده توسط هوش مصنوعی باشد.

تینا مزدکی_براساس تحلیلی که توسط شرکت Semrush انجام شده است، مدلهای زبانی بزرگ (LLM) مانند ChatGPT بیشتر از همه، به وبسایت هایی مانند Reddit و Wikipedia برای دریافت اطلاعات و حقایق مراجعه می کنند. برای داده های جغرافیایی نیز، این مدلها معمولا از داده های Mapbox و OpenStreetMap استفاده می نمایند.
این بررسی، که در ژوئن ۲۰۲۵ و بر مبنای بیشتر از ۱۵۰ هزار اطلاعات استفاده شده توسط مدلهای زبانی بزرگ انجام شد، نشان داده است که چت بات ها تا چه اندازه به محتوای تولید شده توسط کاربران وابسته هستند. این مساله نگرانی هایی را درباره ی محدودیت های ابزارهای هوش مصنوعی امروزی به وجود آورده است. این رتبه بندی، ارائه شده در چارچوب یک اینفوگرافیک، نمای روشنی از منابع مورد اعتماد مدلهای هوش مصنوعی ارائه می کند و به کاربران و توسعه دهندگان کمک می نماید تا درک بهتری از عملکرد این فناوری ها پیدا کنند.
هوش مصنوعی اطلاعات خودرا از کجا می آورد؟ داده های استفاده شده در این اینفوگرافیک از شرکت Semrush به دست آمده است و نشان داده است که مدلهای هوش مصنوعی تا چه اندازه به دامنه های مختلف وب هنگام ارائه اطلاعات مراجعه می کنند. این آمار در ارتباط با ژوئن ۲۰۲۵ است و تصویر روشنی از منابع مورد استناد مدلهای زبانی بزرگ ارائه می کند.

برپایه تحلیل ژوئن ۲۰۲۵ از بیشتر از ۱۵۰ هزار اطلاعات استفاده شده توسط مدلهای زبانی، وبسایت های زیر به ترتیب بیشترین مراجعه را داشته اند:
Reddit.com – ۴۰.۱٪ Wikipedia.org – ۲۶.۳٪ YouTube.com – ۲۳.۵٪ Google.com – ۲۳.۳٪ Yelp.com – ۲۱.۰٪ Facebook.com – ۲۰.۰٪ Amazon.com – ۱۸.۷٪ Tripadvisor.com – ۱۲.۵٪ Mapbox.com – ۱۱.۳٪ OpenStreetMap.com – ۱۱.۳٪ Instagram.com – ۱۰.۹٪ Mapquest.com – ۹.۸٪ Walmart.com – ۹.۳٪ eBay.com – ۷.۷٪ LinkedIn.com – ۵.۹٪ Quora.com – ۴.۶٪ Homedepot.com – ۴.۶٪ Yahoo.com – ۴.۴٪ Target.com – ۴.۳٪ Pinterest.com – ۴.۲٪ استفاده از محتوای تولید شده توسط کاربران! وبسایت Reddit با ۴۰.۱٪ بیشترین میزان استناد و بعد از آن Wikipedia با ۲۶.۳٪ در رتبه دوم قرار دارند. این آمار نشان داده است که مدلهای زبانی بزرگ (LLM) اغلب به بحث های آزاد در فروم ها و محتوای تولید شده و نگهداری شده توسط جامعه کاربران تکیه می کنند.
این وبسایت ها منابع گسترده ای از دانش تولیدشده توسط کاربران ارائه می دهند، اما ماهیت باز و قابل ویرایش آنها نگرانی هایی درباره ی صحت و جانبداری اطلاعات بوجود می آورد. وابستگی بالای هوش مصنوعی به چنین منابعی می تواند منجر به تقویت روایت هایی شود که بیشترین دیده شدن یا محبوبیت را دارند اما صحت آنها تایید نشده است. بعنوان مثال، کاربران گزارش داده اند که ChatGPT گاهی پیشنهاد کرده است که برای تصفیه آب خود از وایتکس استفاده نمایند یا آنرا با سرکه مخلوط کنند، اقدامی که منجر به تولید گاز سمی کلر می شود.
همچنین باید بدانید که سه ریسک اصلی استفاده از محتوای تولید شده توسط کاربران عبارت است از:
اشاعه اطلاعات ناصحیح و شایعات: از آنجایی که محتوا همیشه توسط کارشناسان دامنه بررسی نمی گردد، هوش مصنوعی امکان دارد به شکل غیرعمد اطلاعات ناصحیح یا جانبدارانه را تکرار کند. تقویت حباب اطلاعاتی: داستانهای محبوب اما تایید نشده امکان دارد تکرار شوند و منابع دقیق تر و کمتر دیده شده را تحت تأثیر قرار دهند. عدم اعتبار: به ویژه در موضوعات حساس مانند سلامت، حقوق و مالیه، وبسایت های تولید محتوا توسط کاربران فاقد نظارت ویراستاری ضروری جهت ارائه راهنمائی معتبر هستند. منبع: visualcapitalist

1404/06/01

10:30:55

5.0 / 5

384

تگها: تولید , حقوق , سایت , شركت

مطلب را می پسندید؟

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان در مورد این مطلب

لطفا شما هم در مورد این مطلب نظر دهید

= ۴ بعلاوه ۲

نظر دادن

هوش مصنوعی اطلاعات خودرا از این سایت ها می گیرد

پربیننده ترین ها

پربحث ترین ها

جدیدترین ها

گروه هوش مصنوعی