قمت باستنساخ صوتي باستخدام الذكاء الاصطناعي وكانت النتائج مرعبة.. DailyMail.com يجرب تطبيقًا يقلد خطاب الرئيس جو بايدن لخداع الناخبين في نيو هامبشاير

لقد استحوذت على كل شيء بدءًا من الطريقة التي أميل بها إلى “أم” و”آه” بين الكلمات وحتى الطريقة التي أرفع بها صوتي عند طرح سؤال.

تلقى سكان نيو هامبشاير مكالمة غريبة تطلب منهم تخطي الانتخابات التمهيدية، وبينما بدا الأمر مثل جو بايدن على الطرف الآخر، إلا أنه كان بمثابة استنساخ لصوته بواسطة الذكاء الاصطناعي.

استخدم محتال مجهول تطبيق Eleven Labs لتقليد صوت بايدن في الهجوم الشهر الماضي – لقد اختبرت التطبيق لمعرفة مدى مصداقية الصوت المستنسخ بواسطة الذكاء الاصطناعي.

لقد خدع الصوت الناتج عن الذكاء الاصطناعي أحد الأصدقاء ليعتقد أن الرسالة كانت مني حقًا.

رد صديقي على الرسالة: “لماذا أرسلت لي رسالة صوتية”. “عادةً ما تقوم بإرسال بريد إلكتروني فقط – ولكن من الجيد أن نسمع منك!”

واعترف والدي أيضًا أن الصوت المزيف كان سيخدعه، وعندما سمعت زوجتي رسالة قصيرة قالت: “يا إلهي، أريد أن أرميها من فوق الجسر”.

لقد سمعت عن مثل هذه التطبيقات من قبل، ولكن ربما افترضت بسذاجة أن النسخ المستنسخة ستكون دائمًا بها هدايا وإشارات منبهة – بينما مع هذا الصوت أنا متأكد بنسبة 100 بالمائة من أنني أستطيع خداع الجميع من العائلة المقربة إلى الأصدقاء إلى الزملاء.

يتطلب استخدام تطبيق Eleven Labs تسجيلًا صوتيًا لصوتك لمدة 10 دقائق، ولكن كلما زاد تغذية الذكاء الاصطناعي، أصبح أكثر دقة.

أظهرت النتائج كل شيء يتعلق بنبرتي واستخدامي للكلمات: كيف أميل إلى قول “مممم” و”آه” بين الكلمات وكيف أقوم بزيادة نبرة صوتي عند طرح الأسئلة.

لقد استحوذت على كل شيء بدءًا من الطريقة التي أميل بها إلى

لقد استحوذت على كل شيء بدءًا من الطريقة التي أميل بها إلى “أم” و”آه” بين الكلمات وحتى الطريقة التي أرفع بها صوتي عند طرح سؤال.

استخدم الهجوم في نيو هامبشاير نفس التطبيق لإخبار السكان: “التصويت هذا الثلاثاء لن يؤدي إلا إلى تمكين الجمهوريين في سعيهم لانتخاب دونالد ترامب مرة أخرى”. صوتكم سيحدث فرقا في تشرين الثاني (نوفمبر)، وليس يوم الثلاثاء هذا».

الأمر المخيف هو أنه يمكن إنشاء التسجيلات في الوقت الفعلي، حتى أتمكن بسهولة من إجراء محادثة أو تنفيذ حملة رسائل مزيفة مثل ما حدث الشهر الماضي.

على سبيل المثال، يمكنني الاتصال بوالدي وأطلب منه تحويل أموال لي في حالة الطوارئ.

علاوة على ذلك، يمكن لأي شخص استخدام التطبيق ضدي لاستنساخ صوتي لارتكاب عمليات احتيال تحت هويتي.

بالنسبة لأي شخص لديه كمية كبيرة من التسجيلات الصوتية العامة مثل الممثلين والسياسيين مثل الرئيس بايدن، هناك بالفعل ما يكفي من البيانات الصوتية “في البرية” لإنشاء نسخة مقنعة بشكل مخيف.

يعد Eleven Labs مجرد واحد من العديد من التطبيقات التي يمكنها القيام بذلك (وتجدر الإشارة إلى أنه يحتوي على ميزة أمان ذكية قبل أن تتمكن من إنشاء أحد الأصوات “الاحترافية”، حيث يتعين عليك نطق بعض الكلمات على الشاشة، مثل كلمة التحقق لصوتك).

لكن عمليات الاحتيال، حيث يتم استخدام الأصوات المستنسخة لخداع الأشخاص، أصبحت “أكثر انتشارًا”، كما قال أدريانوس فارمنهوفن، خبير الأمن السيبراني في NordVPN.

وجدت الأبحاث التي أجرتها شركة McAfee للأمن السيبراني أن ما يقرب من ربع المشاركين قد تعرضوا لنوع من عمليات الاحتيال الصوتي باستخدام الذكاء الاصطناعي، أو يعرفون شخصًا تم استهدافه – مع خسارة 78 بالمائة أموالًا نتيجة لذلك.

في العام الماضي، اتصل حفيد الزوجين المسنين روث وجريج كارد، وأخبرهما أنه في السجن ويحتاج إلى المال، لكن الصوت كان مزيفًا بواسطة الذكاء الاصطناعي.

كما عرضت مايكروسوفت أيضًا نموذجًا للذكاء الاصطناعي لتحويل النص إلى كلام في نفس العام، والذي يمكنه تجميع صوت أي شخص من عينة صوتية مدتها ثلاث ثوانٍ.

وقال وارمنهوفن إن التكنولوجيا الكامنة وراء الأصوات “المستنسخة” تتحسن بسرعة وتنخفض أسعارها أيضًا، لذا فهي في متناول المزيد من المحتالين.

للوصول إلى أصوات Eleven Labs “المحترفة”، يتعين عليك دفع اشتراك شهري بقيمة 10 دولارات.

قد تتمتع تطبيقات الذكاء الاصطناعي الأخرى بوسائل حماية أقل، مما يسهل على المجرمين ارتكاب عمليات الاحتيال.

وقال فارمنهوفن: “إن تعرض المستخدم لهذا النوع من الاحتيال يعتمد في الواقع على عدد عينات الصوت التي يمكن للمجرمين استخدامها لاستنساخ الصوت”.

تتحسن التكنولوجيا المستخدمة في الأصوات

تتحسن التكنولوجيا المستخدمة في الأصوات “المستنسخة” بسرعة، كما تنخفض أسعارها أيضًا، لذا فهي في متناول المزيد من المحتالين. للوصول إلى أصوات Eleven Labs “المحترفة”، يتعين عليك دفع اشتراك شهري بقيمة 10 دولارات

“كلما زاد عددهم، كلما تمكنوا من استنساخ الصوت بشكل أكثر إقناعًا.” لذا فإن السياسيين والشخصيات العامة والمشاهير معرضون للخطر للغاية حيث يمكن للمجرمين استخدام التسجيلات من الأحداث والمقابلات الإعلامية والخطب وما إلى ذلك.

وحذرت أيضًا من أن الأشخاص الذين يقومون بتحميل مقاطع فيديو خاصة بهم على شبكات التواصل الاجتماعي مثل Instagram وTikTok قد يتعرضون للخطر أيضًا.

“هناك أيضًا كمية هائلة من محتوى الفيديو الذي يقوم المستخدمون بتحميله طوعًا على وسائل التواصل الاجتماعي. وتابع فارمنهوفن: “لذا كلما زاد عدد مقاطع الفيديو المتاحة للجمهور على وسائل التواصل الاجتماعي، أصبح المستخدم أكثر عرضة للخطر”.

“كن حذرًا بشأن ما تنشره على وسائل التواصل الاجتماعي. تعد وسائل التواصل الاجتماعي أكبر مصدر متاح للجمهور للعينات الصوتية لمجرمي الإنترنت.

يجب أن تشعر بالقلق إزاء ما تنشره على وسائل التواصل الاجتماعي وكيف يمكن أن يؤثر على أمانك.

وقالت أيضًا إن المحتالين قد يحاولون أيضًا استنساخ صوتك عن طريق إجراء محادثات هاتفية معك لجمع البيانات الصوتية لاستنساخها.

“لا يهدف المحتالون دائمًا إلى ابتزاز الأموال والبيانات من خلال المكالمة الأولى. وأوضح فارمنهوفن أن جمع عينات صوتية كافية لاستنساخ الصوت قد يكون أيضًا هدف المكالمة.

“بمجرد أن تدرك أنك تجري مكالمة مع المحتال، أغلق الخط ولا تمنحه فرصة لتسجيل صوتك. كلما تحدثت أكثر أثناء المكالمة، كلما زاد عدد عينات المجرمين الصوتيين لديك وكلما زادت جودة النسخ التي سينتجونها.