هوش مصنوعی

آنتروپیک شرکت‌های هوش مصنوعی چینی از جمله دیپ‌سیک را به تلاش برای استخراج مدل متهم کرد

آنتروپیک اعلام کرد که سرمایه‌گذاری زیادی در دفاع‌هایی انجام می‌دهد که اجرای حملات استخراج مدل را سخت‌تر و شناسایی آن را آسان‌تر می‌کند.

آنتروپیک روز سه‌شنبه شرکت‌های هوش مصنوعی مستقر در چین، از جمله دیپ‌سیک، را به تلاش برای استخراج دانش از سیستم‌های هوش مصنوعی خود با استفاده از تکنیکی به نام استخراج مدل متهم کرد. این شرکت هوش مصنوعی مستقر در آمریکا گفت که فعالیتی سازگار با تلاش‌های گسترده استخراج مدل از سیستم‌هایش را شناسایی کرده است. آنتروپیک ادعا می‌کند که هدف این تلاش استفاده از خروجی‌های مدل‌هایش برای آموزش سیستم‌های هوش مصنوعی رقیب بوده و اعلام کرده است که اقداماتی برای مسدود کردن و جلوگیری از چنین فعالیتی انجام داده است.

استخراج مدل تکنیکی در یادگیری ماشین است که در آن یک مدل کوچکتر «دانش‌آموز» آموزش داده می‌شود تا خروجی‌های یک مدل بزرگتر «معلم» را تکرار کند. این روش معمولاً برای ایجاد نسخه‌های سبک‌تر از سیستم‌های قدرتمند که بتوانند به شکل بهینه‌تری اجرا شوند، استفاده می‌شود، شرکت در یک پست وبلاگی توضیح داد.

با این حال، بدون اجازه صریح، استخراج مدل می‌تواند به شکل استخراج مالکیت فکری تبدیل شود. در یک حمله استخراج مدل، یک طرف به طور مکرر از طریق رابط عمومی یا API یک مدل هوش مصنوعی اختصاصی پرس‌وجو می‌کند، حجم زیادی از پاسخ‌ها را جمع‌آوری می‌کند و سپس از آن داده‌ها برای آموزش مدل جدیدی استفاده می‌کند که رفتار سیستم اصلی را تقلید می‌کند، طبق گفته آنتروپیک.

شرکت هوش مصنوعی توضیح داد که چنین نوع فعالیتی می‌تواند به رقبا اجازه دهد تا از عملکرد، هماهنگی و محافظت‌های ایمنی مدل‌های پیشرفته بهره‌مند شوند بدون اینکه هزینه‌های مشابه تحقیق و آموزش را متحمل شوند.

آنتروپیک اعلام کرد که کمپین‌های صنعتی مقیاسی توسط سه آزمایشگاه هوش مصنوعی — دیپ‌سیک، مون‌شات و مینی‌مکس — کشف کرده است که به طور غیرقانونی تلاش کرده‌اند قابلیت‌های کلود را «سرقت» کنند. این شرکت هوش مصنوعی همچنین تجزیه و تحلیل‌های دقیقی از سه عملیات جداگانه که ادعا می‌کند شناسایی کرده، ارائه داد.

دیپ‌سیک متهم شد که بیش از ۱۵۰,۰۰۰ تبادل را هدف قرار داده است که قابلیت‌های استدلال کلود را در وظایف متنوعی شامل ارزیابی مبتنی بر معیارها هدف قرار داده است که کلود را به یک مدل پاداش برای یادگیری تقویتی تبدیل کرده است. آنتروپیک همچنین ادعا کرد که دیپ‌سیک جایگزین‌های ایمن از نظر سانسور برای پرسش‌های حساس سیاسی تولید کرده است، احتمالاً برای آموزش سیستم‌های خود به منظور اجتناب از موضوعات محدود شده.

بر اساس گفته‌های آنتروپیک، دیپ‌سیک از ترافیک همزمان در چندین حساب کاربری با الگوهای یکسان، روش‌های پرداخت مشترک و زمان‌بندی هماهنگ استفاده کرده است که نشان‌دهنده تعادل بار عمدی برای افزایش توان عملیاتی و فرار از شناسایی بوده است. با این حال، متادیتای درخواست شده به آن‌ها اجازه داد این فعالیت‌ها را به پژوهشگران مشخصی در آزمایشگاه ردیابی کنند.

این شرکت همچنین متهم کرده است که Moonshot AI بیش از ۳.۴ میلیون تبادل متمرکز بر استدلال عاملیت‌محور، کدنویسی، استفاده از ابزار، توسعه عامل‌های استفاده‌کننده از کامپیوتر و وظایف بینایی کامپیوتری انجام داده است. Anthropic ادعا می‌کند که Moonshot صدها حساب جعلی را در مسیرهای دسترسی متعدد به کار گرفته تا هماهنگی را مخفی کند.

در نهایت، ادعا شده است که MiniMax بیش از ۱۳ میلیون تبادل متمرکز بر کدنویسی عاملیت‌محور و هماهنگی ابزار انجام داده است. بر اساس گفته‌های Anthropic، انتساب با استفاده از فراداده درخواست و شاخص‌های زیرساختی انجام شده است. این شرکت هوش مصنوعی ادعا کرده است که این کمپین را در حالی که هنوز فعال بود، پیش از انتشار مدل در حال آموزش MiniMax شناسایی کرده است.

برای جلوگیری از حملات آینده، Anthropic گفته است که سرمایه‌گذاری زیادی در دفاع‌هایی انجام می‌دهد که اجرای حملات تقطیر را سخت‌تر و شناسایی آن‌ها را آسان‌تر می‌کند. ادعا شده است که چندین سیستم شناسایی، از جمله طبقه‌بندها و ابزارهای اثرانگشت رفتاری، برای علامت‌گذاری الگوهای سازگار با تقطیر در ترافیک API ساخته شده است.

این شرکت همچنین شاخص‌های فنی را با سایر آزمایشگاه‌های هوش مصنوعی، ارائه‌دهندگان ابر و مراجع ذی‌ربط به اشتراک می‌گذارد تا مسئله تقطیر را برجسته کند. همچنین کنترل‌های دسترسی را تقویت کرده است، به‌ویژه در اطراف حساب‌های آموزشی، برنامه‌های تحقیقاتی امنیتی و مسیرهای استارتاپی که گفته می‌شود اغلب برای ایجاد حساب‌های جعلی سوءاستفاده می‌شوند.

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا