آنتروپیک شرکتهای هوش مصنوعی چینی از جمله دیپسیک را به تلاش برای استخراج مدل متهم کرد
آنتروپیک اعلام کرد که سرمایهگذاری زیادی در دفاعهایی انجام میدهد که اجرای حملات استخراج مدل را سختتر و شناسایی آن را آسانتر میکند.

آنتروپیک روز سهشنبه شرکتهای هوش مصنوعی مستقر در چین، از جمله دیپسیک، را به تلاش برای استخراج دانش از سیستمهای هوش مصنوعی خود با استفاده از تکنیکی به نام استخراج مدل متهم کرد. این شرکت هوش مصنوعی مستقر در آمریکا گفت که فعالیتی سازگار با تلاشهای گسترده استخراج مدل از سیستمهایش را شناسایی کرده است. آنتروپیک ادعا میکند که هدف این تلاش استفاده از خروجیهای مدلهایش برای آموزش سیستمهای هوش مصنوعی رقیب بوده و اعلام کرده است که اقداماتی برای مسدود کردن و جلوگیری از چنین فعالیتی انجام داده است.
استخراج مدل تکنیکی در یادگیری ماشین است که در آن یک مدل کوچکتر «دانشآموز» آموزش داده میشود تا خروجیهای یک مدل بزرگتر «معلم» را تکرار کند. این روش معمولاً برای ایجاد نسخههای سبکتر از سیستمهای قدرتمند که بتوانند به شکل بهینهتری اجرا شوند، استفاده میشود، شرکت در یک پست وبلاگی توضیح داد.
با این حال، بدون اجازه صریح، استخراج مدل میتواند به شکل استخراج مالکیت فکری تبدیل شود. در یک حمله استخراج مدل، یک طرف به طور مکرر از طریق رابط عمومی یا API یک مدل هوش مصنوعی اختصاصی پرسوجو میکند، حجم زیادی از پاسخها را جمعآوری میکند و سپس از آن دادهها برای آموزش مدل جدیدی استفاده میکند که رفتار سیستم اصلی را تقلید میکند، طبق گفته آنتروپیک.
شرکت هوش مصنوعی توضیح داد که چنین نوع فعالیتی میتواند به رقبا اجازه دهد تا از عملکرد، هماهنگی و محافظتهای ایمنی مدلهای پیشرفته بهرهمند شوند بدون اینکه هزینههای مشابه تحقیق و آموزش را متحمل شوند.
آنتروپیک اعلام کرد که کمپینهای صنعتی مقیاسی توسط سه آزمایشگاه هوش مصنوعی — دیپسیک، مونشات و مینیمکس — کشف کرده است که به طور غیرقانونی تلاش کردهاند قابلیتهای کلود را «سرقت» کنند. این شرکت هوش مصنوعی همچنین تجزیه و تحلیلهای دقیقی از سه عملیات جداگانه که ادعا میکند شناسایی کرده، ارائه داد.
دیپسیک متهم شد که بیش از ۱۵۰,۰۰۰ تبادل را هدف قرار داده است که قابلیتهای استدلال کلود را در وظایف متنوعی شامل ارزیابی مبتنی بر معیارها هدف قرار داده است که کلود را به یک مدل پاداش برای یادگیری تقویتی تبدیل کرده است. آنتروپیک همچنین ادعا کرد که دیپسیک جایگزینهای ایمن از نظر سانسور برای پرسشهای حساس سیاسی تولید کرده است، احتمالاً برای آموزش سیستمهای خود به منظور اجتناب از موضوعات محدود شده.
بر اساس گفتههای آنتروپیک، دیپسیک از ترافیک همزمان در چندین حساب کاربری با الگوهای یکسان، روشهای پرداخت مشترک و زمانبندی هماهنگ استفاده کرده است که نشاندهنده تعادل بار عمدی برای افزایش توان عملیاتی و فرار از شناسایی بوده است. با این حال، متادیتای درخواست شده به آنها اجازه داد این فعالیتها را به پژوهشگران مشخصی در آزمایشگاه ردیابی کنند.
این شرکت همچنین متهم کرده است که Moonshot AI بیش از ۳.۴ میلیون تبادل متمرکز بر استدلال عاملیتمحور، کدنویسی، استفاده از ابزار، توسعه عاملهای استفادهکننده از کامپیوتر و وظایف بینایی کامپیوتری انجام داده است. Anthropic ادعا میکند که Moonshot صدها حساب جعلی را در مسیرهای دسترسی متعدد به کار گرفته تا هماهنگی را مخفی کند.
در نهایت، ادعا شده است که MiniMax بیش از ۱۳ میلیون تبادل متمرکز بر کدنویسی عاملیتمحور و هماهنگی ابزار انجام داده است. بر اساس گفتههای Anthropic، انتساب با استفاده از فراداده درخواست و شاخصهای زیرساختی انجام شده است. این شرکت هوش مصنوعی ادعا کرده است که این کمپین را در حالی که هنوز فعال بود، پیش از انتشار مدل در حال آموزش MiniMax شناسایی کرده است.
برای جلوگیری از حملات آینده، Anthropic گفته است که سرمایهگذاری زیادی در دفاعهایی انجام میدهد که اجرای حملات تقطیر را سختتر و شناسایی آنها را آسانتر میکند. ادعا شده است که چندین سیستم شناسایی، از جمله طبقهبندها و ابزارهای اثرانگشت رفتاری، برای علامتگذاری الگوهای سازگار با تقطیر در ترافیک API ساخته شده است.
این شرکت همچنین شاخصهای فنی را با سایر آزمایشگاههای هوش مصنوعی، ارائهدهندگان ابر و مراجع ذیربط به اشتراک میگذارد تا مسئله تقطیر را برجسته کند. همچنین کنترلهای دسترسی را تقویت کرده است، بهویژه در اطراف حسابهای آموزشی، برنامههای تحقیقاتی امنیتی و مسیرهای استارتاپی که گفته میشود اغلب برای ایجاد حسابهای جعلی سوءاستفاده میشوند.



