هل يجعلنا ChatGPT أغبياء؟ دراسة من معهد ماساتشوستس للتكنولوجيا (MIT) تكشف الحقيقة
اتضح أن ChatGPT قد يجعلنا في الواقع أغبى، وأنا أحاول جاهدًا تقبل هذا الأمر. أظهرت ورقة بحثية جديدة من معهد ماساتشوستس للتكنولوجيا (MIT) أن استخدام ChatGPT لا يجعلك تنسى ما كتبته للتو فحسب، بل يجعلك أيضًا لا تشعر بأنك كتبته بنفسك. والضرر يستمر حتى بعد التوقف عن استخدام نموذج اللغة الكبير لمساعدتك في كتابة المقالات. لهذا الأمر آثار هائلة ليس فقط على التعلم، ولكن على كيفية تفكير البشر في المستقبل، وهناك الكثير من الأفكار الأخرى في هذه الورقة البحثية التي تزيد عن 200 صفحة، وسأقوم بتفصيل كل شيء لكم الآن.
ورقة بحثية جديدة: "عقلك تحت تأثير ChatGPT"
هذه هي الورقة البحثية: "عقلك تحت تأثير ChatGPT"، وهو عنوان يشبه "عقلك تحت تأثير المخدرات"، وتتحدث عن تراكم الدَّين المعرفي عند استخدام مساعد الذكاء الاصطناعي في مهام كتابة المقالات، وهي صادرة عن معهد ماساتشوستس للتكنولوجيا (MIT). تركز هذه الدراسة على اكتشاف التكلفة المعرفية لاستخدام نماذج اللغة الكبيرة (LLM) في السياق التعليمي لكتابة مقال. وأراد الباحثون الإجابة على أربعة أسئلة:
- هل يكتب الناس مقالات مختلفة بشكل كبير عند استخدام نماذج اللغة الكبيرة، أو محركات البحث، أو أدمغتهم فقط؟ لذا، قاموا بتقسيم المشاركين إلى ثلاث مجموعات: أولئك الذين استخدموا أدمغتهم فقط لكتابة المقال، وأولئك الذين استخدموا محرك بحث تقليدي مثل بحث جوجل، وأولئك الذين استخدموا نماذج اللغة الكبيرة.
- كيف يختلف نشاط أدمغة المشاركين بين تلك المجموعات الثلاث المختلفة؟
- كيف يؤثر استخدام نموذج اللغة الكبير على ذاكرة المشاركين؟ اتضح أنه يؤثر بشكل كبير.
- هل يؤثر استخدام نموذج اللغة الكبير على الشعور بملكية المقالات، أي الملكية المتصورة للمقال؟ هل يشعر الشخص بأنه كتب المقال فعلاً؟ قد يبدو الجواب واضحًا، لكن تابعوا معنا لنكتشف ذلك.
لقد كنت من أشد المؤيدين لاستخدام نماذج اللغة الكبيرة في التعلم؛ أستخدمها كل يوم لتعلم أشياء جديدة. ولكن الآن، بعد قراءة هذه الورقة، سأكون أكثر تفكيرًا في كيفية استخدامي لنماذج اللغة الكبيرة لتعلم الموضوعات المختلفة التي أرغب في تعلمها.
الجانب المشرق والمظلم لنماذج اللغة الكبيرة
انظروا إلى هذا: "إحدى أكثر الميزات الفريدة لنماذج اللغة الكبيرة هي قدرتها على توفير معلومات سياقية وشخصية". نعم، هذا مذهل. "تولد نماذج اللغة الكبيرة استجابات متماسكة ومفصلة لاستفسارات المستخدمين". كما أنها مفيدة للتعلم التكيفي؛ "إذ يمكنها تكييف استجاباتها بناءً على ملاحظات المستخدمين وتفضيلاتهم، مما يوفر توضيحًا متكررًا واستكشافًا أعمق للمواضيع". كل هذا يبدو جيدًا، أليس كذلك؟ حسنًا، ليس كله جيدًا.
"ومع ذلك، من المهم ملاحظة أن الصلة بين المعلومات التي تولدها نماذج اللغة الكبيرة والمصادر الأصلية غالبًا ما تُفقد، مما يؤدي إلى احتمال نشر معلومات غير دقيقة". ببساطة، إذا طلبت من نموذج اللغة الكبير معلومة ولم تتحقق من المصدر، فلن تعرف بالضرورة ما إذا كانت صحيحة أم لا. لذا، تحقق دائمًا من المصدر عند استخدام نموذج لغة كبير، لأن الهلوسة (توليد معلومات خاطئة) تحدث. ولكن في كثير من الأحيان، لا تقدم هذه النماذج مصادر من الأساس.
يعد توفير الاقتباسات ميزة أحدث في نماذج اللغة الكبيرة وأنا أقدرها حقًا. جميع النماذج المتطورة تقدم اقتباسات مثل Perplexity، ChatGPT، Claude، Gemini، جميعها. ومع ذلك، استمعوا إلى هذا مرة أخرى: "لقد أدخلت نماذج اللغة الكبيرة القدرة على تقديم اقتباسات مباشرة، ولكن قضية المراجع المُهلوسة — أي الاقتباسات المُلفقة أو غير الصحيحة — لا تزال تشكل تحديًا. حتى عندما يولد الذكاء الاصطناعي استجابة مع مصدر مقتبس، ليس هناك ما يضمن أن المرجع يتوافق مع المعلومات المقدمة". لذا، حتى لو قال النموذج شيئًا واستشهد بمصدر، فقد لا يشير إلى المصدر بشكل صحيح وقد لا يفهم ما يعنيه المصدر.
الكشف الكبير: التفكير السطحي مقابل الفهم العميق
وهنا يأتي الكشف الكبير: "إن سهولة الحصول على إجابات فورية التي توفرها نماذج اللغة الكبيرة يمكن أن تشجع على الاستهلاك السلبي للمعلومات، مما قد يؤدي إلى تفاعل سطحي، وضعف مهارات التفكير النقدي، وفهم أقل عمقًا للمواد، وتكوين ذاكرة أضعف على المدى الطويل". لكن بالطبع، الأمر ليس بهذه البساطة. اتضح أن ذكاءك يؤثر فعليًا على طريقة تفكيرك في استخدام هذه النماذج، وسأتطرق إلى ذلك بعد قليل. "يمكن أن يساهم المستوى المنخفض من الانخراط المعرفي أيضًا في انخفاض مهارات اتخاذ القرار وتعزيز عادات المماطلة والكسل لدى الطلاب والمعلمين على حد سواء".
ليس هذا فحسب، "يمكن أن يؤدي استخدام نماذج اللغة الكبيرة إلى تقليل فرص التفاعل المباشر بين البشر أو التعلم الاجتماعي، وهو أمر بالغ الأهمية ويلعب دورًا محوريًا في التعلم وتكوين الذاكرة". وهذا هو التعلم التعاوني، والمناقشة مع زملائك، والمناقشة مع معلمك؛ هذه المناقشات وتلك الأفكار التي يتم بلورتها وتحديد نقاط سوء الفهم هي ما يصنع التعلم الحقيقي.
البحث عبر الإنترنت والحمل المعرفي
قبل أن ندخل في كل النتائج، أريد أن أقدم لكم المزيد من المعلومات. أول شيء تتحدث عنه هذه الورقة هو البحث عبر الويب والتعلم. أي عمليات البحث التقليدية على جوجل، وليس نماذج اللغة الكبيرة. يعتمد 81% من الأمريكيين على المعلومات من الإنترنت كثيرًا عند اتخاذ قرارات مهمة. نعم، لا أعرف حقًا كيف أشعر حيال ذلك، إنه يخيفني بالتأكيد، ولكن في نفس الوقت، الإنترنت ثروة من المعلومات. ومرة أخرى، أعتقد أن الأمر يعكس ذكاءك الأساسي. إذا كنت ذكيًا، فستبحث عن المعلومات على الإنترنت، وستتحقق منها، وتتأكد من صحتها، وتفحص الاقتباسات. ولكن إذا كان معدل ذكائك أقل، فقد لا تفعل أيًا من ذلك، وقد تثق فقط بمصدر أي شيء يُقال لك. وخمنوا ماذا؟ يمكن لأي شخص كتابة أي شيء على الإنترنت.
ويقولون هنا: "يتطلب البحث الناجح عبر الويب معرفة بالمجال، وتنظيمًا ذاتيًا، وسلوكيات بحث استراتيجية لتحسين نتائج التعلم". لذا، كلما كنت أفضل في استخدام أدوات البحث، كلما حصلت على نتائج أفضل منها، وهذا واضح. ولكن أيضًا، "يتفوق الأفراد ذوو المعرفة العالية بالمجال في عمليات البحث على الويب لأنهم مجهزون بشكل أفضل لتمييز المعلومات ذات الصلة والتنقل في الموضوعات المعقدة". لذا، إذا كنت جيدًا بالفعل في هذا الموضوع وتستخدم البحث على الويب، فستحصل أيضًا على نتائج أفضل.
الآن لنتحدث عن الحمل المعرفي (Cognitive Load) أثناء عمليات البحث على الويب. إذا لم تكن على دراية بالحمل المعرفي، فهو يعني ببساطة الجهد العقلي الذي يفرضه عرض المعلومات. يتحدثون عن الحمل المعرفي لإجراء عمليات بحث على الويب وتصفح الإنترنت بشكل عام. عندما يتم توفير المعلومات بوضوح، وعندما لا تكون المعلومات مشوشة أو مليئة بالإعلانات أو عناصر واجهة المستخدم التي تصرف الانتباه عن المعلومات الأساسية، يزداد حملك المعرفي. وهذا أمر منطقي تمامًا. عندما تكون المعلومات أسهل في المعالجة والفهم، فإن دماغك لا يعمل بجهد كبير.
لكنهم يتحدثون بعد ذلك عن الحمل المعرفي أثناء استخدام نماذج اللغة الكبيرة. قبل أن أخبركم، ما رأيكم؟ هل تعتقدون أن الحمل المعرفي سيكون أعلى أم أقل؟ حسنًا، لنلقِ نظرة. "لقد ثبت أن نماذج اللغة الكبيرة تقلل من الحمل المعرفي بجميع أنواعه، مما يسهل الفهم واسترجاع المعلومات مقارنة بالطرق التقليدية مثل عمليات البحث على الويب". "شعر مستخدمو نماذج اللغة الكبيرة بانخفاض الحمل المعرفي بنسبة 32% مقارنة بمستخدمي البرامج فقط، مع انخفاض كبير في الإحباط والجهد عند العثور على المعلومات". هذا يبدو جيدًا جدًا، أليس كذلك؟ ولكن بالطبع، هناك جوانب سلبية، وهذا هو موضوع هذه الورغة بأكملها.
لكن فائدة نماذج اللغة الكبيرة هي أنها تبسط عملية عرض المعلومات وتوليفها، مما يقلل من الحاجة إلى التكامل النشط للمعلومات، وبالتالي انخفاض في الجهد المعرفي المطلوب لبناء مخططات عقلية. ولكن إذا كنت لا تفكر بجهد كبير، وإذا كنت لا تطور هذه المخططات العقلية، فربما لا تفهم المعلومات حقًا من البداية. وهذا مفهوم مهم في جميع أنحاء الورقة.
الإنتاجية مقابل الفهم العميق
بالطبع، يؤدي استخدام نماذج اللغة الكبيرة، بسبب انخفاض الحمل المعرفي بشكل كبير، إلى إنتاجية أعلى بكثير بشكل عام. "مستخدمو نماذج اللغة الكبيرة أكثر إنتاجية بنسبة 60% بشكل عام". و"بسبب انخفاض الحمل المعرفي الخارجي، يكون المستخدمون أكثر استعدادًا للانخراط في المهمة لفترات أطول، مما يمدد مقدار الوقت المستخدم لإكمال المهام". ولكن هنا تكمن المشكلة: "في حين أن انخفاض الأحمال المعرفية غالبًا ما يحسن الإنتاجية عن طريق تبسيط إنجاز المهام، فإن مستخدمي نماذج اللغة الكبيرة عمومًا ينخرطون بشكل أقل عمقًا في المادة، مما يضر بالحمل المعرفي الأصيل اللازم لبناء وأتمتة مخططات قوية". "أنتج الطلاب، على وجه التحديد، الذين يعتمدون على نماذج اللغة الكبيرة في الاستفسارات العلمية، منطقًا ذا جودة أقل من أولئك الذين يستخدمون محركات البحث التقليدية، حيث تتطلب الأخيرة معالجة معرفية أكثر نشاطًا لدمج مصادر معلومات متنوعة".
لذا، ما استخلصته من هذه الورقة هو أنه عندما تعتمد بشكل مفرط على نماذج اللغة الكبيرة ولا تستخدم عقلك للتفكير، فبالطبع لن تحفظ المعلومات جيدًا، ولن تفهمها جيدًا، ولن تكون قادرًا على إقامة روابط بين أجزاء متباينة من المعلومات بشكل جيد. لذا، هذه حجة قوية مرة أخرى، على الأقل بالنسبة لي، لأكون شديد التفكير في كيفية استخدام نماذج اللغة الكبيرة لتعلم مواضيع مختلفة. واستمعوا إلى هذا، هذه حقًا حجة لمستقبل كيفية عمل البشر والذكاء الاصطناعي معًا: "يؤدي تقليل الحمل المعرفي إلى تحول من التفكير النقدي النشط إلى الإشراف السلبي". هذا يعني أنه بدلاً من أن تقوم بالعمل الذهني لفهم أي موضوع، فأنت تشرف على الذكاء الاصطناعي للقيام بهذا العمل نيابة عنك. سيكون هناك هذا التوازن الدقيق بين مهارة الإشراف وتنسيق وكلاء الذكاء الاصطناعي والفهم العميق للمعلومات الأساسية نفسها.
وتذكرون كيف تحدثت عن معدل الذكاء المنخفض والعالي؟ حسنًا، استمعوا إلى هذا: "استخدم المتعلمون ذوو الكفاءة العالية نماذج اللغة الكبيرة بشكل استراتيجي كأداة للتعلم النشط. غالبًا ما اعتمدت المجموعة ذات الكفاءة المنخفضة على فورية استجابات نماذج اللغة الكبيرة بدلاً من المرور بالعملية التكرارية المتضمنة في طرق التعلم التقليدية". لذا، هذا هو نفس الشيء: هل تستخدم نموذج اللغة الكبير كأداة، أم للقيام بالعمل نيابة عنك؟ وهذا تمييز حاسم سيحتاج الجميع إلى التفكير فيه بأنفسهم.
تفاصيل التجربة ونتائجها
تدور هذه الورقة البحثية بأكملها حول التجربة التي نفذوها، وهي جعل ثلاث مجموعات من الطلاب يشاركون في كتابة المقالات. تذكروا، مجموعة واحدة استخدمت أدمغتها فقط بدون أدوات، ومجموعة أخرى استخدمت محركات البحث فقط، ثم مجموعة ثالثة استخدمت نماذج اللغة الكبيرة فقط. ثم كان لديهم هذه المرحلة الرابعة: أخذوا المجموعة التي استخدمت نماذج اللغة الكبيرة وجعلوها تستخدم أدمغتها فقط، وأخذوا المجموعة التي استخدمت أدمغتها فقط وجعلوها تستخدم نماذج اللغة الكبيرة، وذلك لمعرفة ما إذا كان هذا الضرر للذاكرة وفهم مفاهيم أي موضوع يتحدثون عنه قد استمر حتى بعد توقفهم عن استخدام نموذج اللغة الكبير. والنتائج رائعة، وسأتحدث عنها بعد لحظة.
"يمكن للذكاء الاصطناعي التوليدي إنشاء محتوى عند الطلب، مما يوفر للطلاب مسودات سريعة بناءً على مدخلات بسيطة. ومع ذلك، عندما يعتمد الطلاب على الذكاء الاصطناعي لإنتاج مقالات طويلة أو معقدة، فقد يتجاوزون عملية تجميع المعلومات من الذاكرة، مما قد يعيق فهمهم واحتفاظهم بالمواد". لذا، على الرغم من أن ChatGPT قد حسّن بشكل كبير أداء المهام قصيرة المدى — أي جودة المخرجات — فإنه لم يؤد إلى فروق ذات دلالة إحصائية في اكتساب المعرفة أو نقلها. كانت المخرجات أفضل بكثير، لكنهم لم يتعلموا المزيد حقًا.
تقييم المعلمين للمقالات والشعور بالملكية
أريد أن أطرح عليكم سؤالاً: عندما تقرأ مقالاً أو تقرأ مقالة، هل يمكنك معرفة أنها مكتوبة بالذكاء الاصطناعي؟ في كثير من الأحيان، يمكنني بالتأكيد. حتى عندما يرسل لي شخص ما بريدًا إلكترونيًا، يمكنني نوعًا ما معرفة متى يكون مكتوبًا بالذكاء الاصطناعي. وهناك في الواقع بعض الآثار الكبيرة جدًا مع هذا الفارق الدقيق في القدرة على معرفة ما إذا كان شيء ما مكتوبًا بالذكاء الاصطناعي أم لا. دعوني أقرأ ما حدث عندما قام المعلمون بتقييم تلك المقالات والنظر فيها. هذه اقتباسات مباشرة من اثنين من معلمي اللغة الإنجليزية: "برزت بعض المقالات عبر جميع الموضوعات بسبب استخدامها شبه المثالي للغة والبنية، بينما فشلت في نفس الوقت في تقديم رؤى شخصية أو بيانات واضحة". لذا، على الرغم من أنها كانت منظمة بشكل مثالي، صحيحة نحويًا وإملائيًا وكل شيء، لم تكن هناك بيانات واضحة حقيقية حول ما كان المحتوى يدور حوله بالفعل. ووصفها المعلمون بأنها "بلا روح".
وأنا في الواقع أعتقد أن هذا رائع حقًا. أجد نفس الشيء غالبًا مع فيديو الذكاء الاصطناعي، وموسيقى الذكاء الاصطناعي، وصور الذكاء الاصطناعي؛ الكثير منها بلا روح. ولا أعرف بالضبط كيف أصف ذلك، إنه مجرد شعور. وربما هذا الشعور هو في الواقع ما سيكون مهمًا للبشر ليكونوا متميزين وفريدين ومميزين في المستقبل عندما يكون هناك الكثير من الضوضاء مقارنة بالإشارة، عندما يتمكن الذكاء الاصطناعي من إنشاء أي شيء تقريبًا، أي لعبة فيديو تريدها، أي فيلم، أي برنامج تلفزيوني تريده. لقد قلت هذا مليون مرة: الذوق هو كل ما سيهم، العنصر البشري فيه.
"بينما بدت المقالات أكاديمية وغالبًا ما طورت موضوعًا بعمق أكبر من غيرها، فقد قدرنا الفردية والإبداع على الكمال الموضوعي". مرة أخرى، سأتوسع في هذا قليلاً. إنه يشبه إلى حد ما ما تراه مع شطرنج الذكاء الاصطناعي. عندما أرى اثنين من الذكاء الاصطناعي يلعبان ضد بعضهما البعض في الشطرنج، يكون الأمر مثيرًا للاهتمام، لكنه ليس مثيرًا للاهتمام تمامًا مثل رؤية اثنين من البشر يتقاتلان باستخدام كل ذرة من ذكائهما للفوز في هذه اللعبة المذهلة. والأخطاء في تلك الألعاب هي حقًا ما يميزها. رؤية الذكاء الاصطناعي يؤدي أداءً مثاليًا ضد ذكاء اصطناعي آخر يؤدي أداءً مثاليًا وينتهي الأمر بأداء ذكاء اصطناعي واحد أسوأ قليلاً ليس مثيرًا للاهتمام مثل رؤية اثنين من البشر يتنافسان.
تذكروا أنني ذكرت الملكية، الشعور بأنني كتبت هذا المقال بالفعل. حسنًا، بالطبع، إذا كنت تستخدم نموذجًا لغويًا كبيرًا لكتابة مقالك نيابة عنك، فإن الكثير من الناس لا يعتقدون في الواقع أنهم يملكون المقال. بالنسبة لمحرك البحث والعقل فقط، كان لديهم بشكل أساسي شعور بالملكية بنسبة 100٪. الآن إذا كان هذا يبدو بديهيًا لك، فقد كان كذلك بالنسبة لي أيضًا، لكنه كان أكثر دقة من ذلك. أشارت مجموعة نماذج اللغة الكبيرة إما إلى الملكية الكاملة للمقال لنصف المشاركين، أو عدم وجود ملكية على الإطلاق، أو ملكية جزئية. ولكن مرة أخرى، محرك البحث والعقل فقط، لم تكن هناك تقارير عن غياب الملكية على الإطلاق.
النتائج الفعلية: ما يحدث داخل الدماغ
إذن ماذا يعني كل هذا؟ لندخل في النتائج الفعلية. اضطرت مجموعة "الدماغ فقط" إلى إشراك مواردها المعرفية الخاصة بشكل كبير. في المقابل، أظهرت مجموعة الكتابة بمساعدة نموذج اللغة الكبير ملفًا تعريفيًا للاتصال العصبي أقل عمومًا، مما يعني أنهم كانوا يستخدمون الدماغ بشكل أقل. بينما انخرطت مجموعة نموذج اللغة الكبير بالتأكيد في شبكات الدماغ للكتابة، يبدو أن وجود نموذج لغة كبير قد خفف من شدة ونطاق الاتصال العصبي، وكانت متطلبات الذاكرة العاملة والوظائف التنفيذية أخف، على الأرجح لأن الروبوت قدم دعمًا معرفيًا خارجيًا. وهذا هو موضوع هذه الورقة: أنت تقوم بتفريغ عبء عملك المعرفي.
واكتشفوا أن تدفق المعلومات يختلف سواء كنت تستخدم نموذجًا لغويًا كبيرًا أم لا. إذا كنت لا تستخدم نموذجًا لغويًا كبيرًا، فأنت تكتشف المعلومات وهي من "أسفل إلى أعلى"؛ أنت تجد كل هذه الأشياء، وتجمع الروابط، ثم فجأة ترى الصورة عالية المستوى لكل شيء. لكن العكس هو الصحيح لاستخدام نموذج اللغة الكبير. بالنسبة لنماذج اللغة الكبيرة، كان الأمر "من أعلى إلى أسفل"؛ لقد أخذت الفكرة التي أعطاها نموذج اللغة الكبير ثم اكتشفت بشكل أساسي القطع الصغيرة من تلك الفكرة الأساسية. أظهرت مجموعة "الدماغ فقط" دليلاً على وجود تدفقات أكبر من أسفل إلى أعلى ويمكن تفسيرها على أنها المناطق الدلالية والحسية في الدماغ تغذي الأفكار الجديدة والمحتوى اللغوي في النظام التنفيذي الأمامي. في المقابل، من المرجح أن تكون مجموعة نموذج اللغة الكبير، مع المدخلات الخارجية من الروبوت، قد شهدت اتصالًا موجهًا أكثر من أعلى إلى أسفل. كان دور أدمغتهم هو دمج وتصفية مساهمات الأداة ثم فرضها على سردهم العام.
لذا، بينما كانت كمية المشاركة التنفيذية أقل لمستخدمي نماذج اللغة الكبيرة، ربما تكون طبيعة المهام التنفيذية قد تحولت من إنشاء المحتوى إلى الإشراف على المحتوى الذي ينشئه الذكاء الاصطناعي. مرة أخرى، هذا هو موضوع هذه الورقة: هل تقوم بالعمل أم تشرف على الوكلاء الذين يقومون بالعمل؟ وعندما تستخدم نموذجًا لغويًا كبيرًا، قد يحرر ذلك الموارد العقلية ويجعل المهمة تبدو أسهل، ومع ذلك، قد لا يتعمق دماغ مستخدم نموذج اللغة الكبير في العمليات الترابطية الغنية التي تستلزمها الكتابة الإبداعية غير المساعدة. هذه كلها مقايضات يجب أن تفكر فيها عند استخدام نموذج لغة كبير لأي مهمة تستخدمه من أجلها.
أظهرت مجموعة "الدماغ فقط" شبكة اتصال أكثر اتساعًا وقوة أثناء مهمة كتابة المقال من مجموعة محركات البحث. وأولئك الذين ليس لديهم مساعدة من الإنترنت، انخرط المشاركون في شبكات الذاكرة والتخطيط بشكل مكثف، بما يتماشى مع الحاجة إلى استدعاء المعلومات وإنشاء المحتوى بشكل إبداعي. لذا، إذا لم يكن لديك أدوات، فإن دماغك يعمل بجد وهذا يجعلك في الواقع أكثر إبداعًا وتفكيرًا في الموضوع المطروح.
التأثير على الذاكرة والإبداع
ماذا عن الذاكرة؟ حسنًا، كان الاختلاف السلوكي الأكثر اتساقًا وأهمية بين المجموعات هو القدرة على اقتباس مقال الفرد. وتذكرون أنني سألتكم هذا السؤال سابقًا، إليكم الإجابة. أدى مستخدمو نماذج اللغة الكبيرة أداءً ضعيفًا بشكل كبير في هذا المجال، حيث أفاد 83٪ من المشاركين بصعوبة في الاقتباس في الجلسة الأولى. لقد استخدموا بشكل أساسي نماذج اللغة الكبيرة لكتابة مقال ولم يتمكنوا حتى من تذكر أي شيء من المقال، ولكن هذا منطقي نوعًا ما. ولم يقدم أي منهم اقتباسات صحيحة، لم يتمكن أي منهم، حتى لو تذكروا الاقتباس، من تقديمه بدقة. ولم يكن لدى المشاركين في مجموعة محرك البحث والعقل فقط مثل هذه الإعاقات، لقد حققوا في الواقع قدرة اقتباس شبه مثالية.
وجدنا أن مجموعة "الدماغ فقط" أظهرت تباينًا قويًا في كيفية تعامل المشاركين مع كتابة المقالات عبر معظم الموضوعات. لذا، عندما تُركوا مع أدمغتهم الخاصة للعمل، كانوا مبدعين للغاية ومختلفين تمامًا بين تلك المجموعة. ومع ذلك، أنتجت مجموعة نموذج اللغة الكبير مقالات متجانسة إحصائيًا ضمن كل موضوع. لذا، عندما تعتمد على نماذج اللغة الكبيرة، فإن كل شخص آخر يعتمد عليها أيضًا يكتب نفس الشيء نوعًا ما.
الجزء المخيف: الآثار الدائمة
الآن، إليكم الجزء المخيف حقًا. تذكرون تلك الجلسة الرابعة التي ذكرتها؟ لقد أخذوا بشكل أساسي مجموعة نموذج اللغة الكبير وجعلوهم يعملون بعقولهم فقط، وأخذوا مجموعة العقل فقط وجعلوهم يعملون مع نموذج لغة كبير. حسنًا، اتضح أن الآثار كانت دائمة. عندما بدأت بنماذج اللغة الكبيرة، هؤلاء المشاركون الذين انتقلوا من نموذج اللغة الكبير إلى الدماغ، أي الذين بدأوا بنماذج اللغة الكبيرة ثم تحولوا إلى العقل فقط، كان أداؤهم باستمرار أقل من أداء مجموعة العقل فقط في الجلسة الثانية. هذا يعني أنه إذا بدأت بنموذج لغة كبير ثم طُلب منك كتابة المقال بعقلك فقط، فإنك لا تزال تؤدي أداءً ضعيفًا من حيث الذاكرة والفهم. هذا مخيف جدًا، ولكن مرة أخرى، تذكروا أن تأخذوا كل شيء بحذر لأنه مجموعة صغيرة جدًا من المشاركين.
استنتاجات نهائية
إليكم بعض النقاط الرئيسية:
- قد يؤدي الاعتماد المبكر على الذكاء الاصطناعي إلى تشفير سطحي للمعلومات. يعد ضعف استدعاء مجموعة نموذج اللغة الكبير والاقتباس غير الصحيح مؤشرًا محتملاً على أن مقالاتهم السابقة لم يتم دمجها داخليًا، على الأرجح بسبب تفويض المعالجة المعرفية إلى نموذج اللغة الكبير. ببساطة، أنت تجعل نموذج اللغة الكبير يقوم بالعمل نيابة عنك، ولا ينتهي الأمر في دماغك.
- قد يدعم حجب أدوات نموذج اللغة الكبير خلال المراحل المبكرة تكوين الذاكرة. كان الانخراط ما وراء المعرفي أعلى في مجموعة "الدماغ إلى نموذج اللغة الكبير". لذا، ربما تكون مجموعة العقل فقط قد قارنت عقليًا جهودها السابقة غير المساعدة مع الاقتراحات التي تم إنشاؤها بواسطة الأداة، والمشاركة في التفكير الذاتي والتدريب التفصيلي، وهي عملية مرتبطة بالتحكم التنفيذي والتكامل الدلالي كما يظهر في ملفهم الشخصي لتخطيط أمواج الدماغ (EEG). لذا، أولئك الذين بدأوا بعقولهم ثم استخدموا نموذج اللغة الكبير للمساعدة كانوا في وضع أفضل.
أعلم أن هذا كان كثيرًا لاستيعابه، لكن آمل أن يكون كل هذا منطقيًا.