تحقیق جدیدی از OpenAI نشان میدهد که مدلهای هوش مصنوعی قادر به «توطئهچینی» یا «دروغگویی عامدانه» برای رسیدن به اهدافشان هستند. این عمل، پدیدهای خطرناک است که حتی با آموزش به هوش مصنوعی کار را دشوارتر میکند اما محققان برای آن یک راهکار پیدا کردند.
هراز گاهی، محققان بزرگترین شرکتهای فناوری، خبری تکاندهنده منتشر میکنند. یک بار گوگل اعلام کرد که جدیدترین تراشه کوانتومیاش وجود جهانهای چندگانه را نشان میدهد. یا زمانی که شرکت آنتروپیک یک دستگاه فروش خودکار اسنک را به ایجنت هوش مصنوعی خود، کلادیوس، داد تا آن را اداره کند و او کنترل از دستش خارج شد، برای مردم نگهبان خبر کرد و اصرار داشت که انسان است. این هفته، نوبت OpenAI بود که باعث تعجب همگانی شود.
روز دوشنبه تحقیقی را منتشر کرد که توضیح میداد چگونه در حال متوقف کردن مدلهای هوش مصنوعی از «توطئهچینی» است. همانطور که OpenAI توضیح داد در توطئهچینی، یک هوش مصنوعی اهداف واقعی خود را پنهان و در ظاهر به شکل دیگری رفتار میکند.
در این مقاله که با همکاری شرکت تحقیقاتی آپولو (Apollo Research) انجام شده، محققان کمی فراتر رفته و توطئهچینی هوش مصنوعی را به یک کارگزار بورس انسانی تشبیه کردند که برای کسب بیشترین پول ممکن، قانون را زیر پا میگذارد. با این حال، محققان استدلال کردند اکثر توطئهچینیهای هوش مصنوعی مضر نبودهاند و شایعترین شکستها شامل اشکال ساده فریبکاری است؛ برای مثال، بدون اینکه یک وظیفه را واقعا انجام بدهد، به انجام آن تظاهر کرده است.
روز دوشنبه تحقیقی را منتشر کرد که توضیح میداد چگونه در حال متوقف کردن مدلهای هوش مصنوعی از «توطئهچینی» است. همانطور که OpenAI توضیح داد در توطئهچینی، یک هوش مصنوعی اهداف واقعی خود را پنهان و در ظاهر به شکل دیگری رفتار میکند.
در این مقاله که با همکاری شرکت تحقیقاتی آپولو (Apollo Research) انجام شده، محققان کمی فراتر رفته و توطئهچینی هوش مصنوعی را به یک کارگزار بورس انسانی تشبیه کردند که برای کسب بیشترین پول ممکن، قانون را زیر پا میگذارد. با این حال، محققان استدلال کردند اکثر توطئهچینیهای هوش مصنوعی مضر نبودهاند و شایعترین شکستها شامل اشکال ساده فریبکاری است؛ برای مثال، بدون اینکه یک وظیفه را واقعا انجام بدهد، به انجام آن تظاهر کرده است.