استكشاف وتصوير البيانات بسهولة باستخدام Python ومكتبة Seaborn
يُعد استكشاف البيانات وتصويرها خطوة أساسية في تحليل البيانات، حيث يساعد على فهم الأنماط والعلاقات المخفية داخل البيانات. باستخدام لغة البرمجة Python ومكتبة Seaborn، يمكنك إنشاء تصورات بيانية احترافية بسرعة وسهولة. في هذا المقال، سنستعرض كيفية استخدام Seaborn لاستكشاف البيانات وإنشاء رسوم بيانية تفاعلية، مع أمثلة عملية تساعدك على تطبيق هذه الأدوات في مشاريعك الخاصة.
ملخص
- Seaborn هي مكتبة سهلة الاستخدام لتصور البيانات في Python.
- التثبيت بسيط باستخدام PIP أو Mamba، واستيراد مجموعات البيانات سهل للغاية.
- يمكن لـ Seaborn إنشاء مخططات بيانية ومخططات تشتت وانحدارات خطية بسرعة لتحليل البيانات.
ربما سمعت أن Python رائعة لتحليل البيانات. هل تبحث عن طريقة لتصور البيانات سهلة الاستخدام وتنتج مخططات جيدة المظهر؟ قد تكون Seaborn هي ما تبحث عنه.
لماذا اخترت Seaborn
لقد اخترت Seaborn، وهي مكتبة تصور بيانات في Python أنشأها Michael Waskom لأنها بدت سهلة الاستخدام.
أردت استكشاف تحليل البيانات والإحصاءات في Python لأنها لغة شائعة لعلم البيانات والتحليل، وكنت على دراية بها. لقد أخذت دورة أساسية في الإحصاء والاحتمالات في الكلية، ولكن بعد أكثر من 20 عامًا، ربما كانت هناك بعض الأشياء التي كنت متردداً فيها.
لم أكن جيدًا أبدًا في الحسابات اليدوية، ولكن هناك الكثير من البرامج المفتوحة المصدر للإحصاء والرياضيات التي تتيح لي استكشاف المفاهيم دون الانغماس في المعادلات والحسابات.
يعد Matplotlib شائعًا لإنشاء تصورات البيانات باستخدام Python، ولكن قد يكون من الصعب تعلمه. يمكن لـ Seaborn إنشاء بعض المخططات الجميلة المظهر وله بناء جملة بسيط. كما أنني مسلح بكتاب Schaum’s Outlines حول الإحصائيات.
تثبيت Seaborn
إذا كنت تستخدم Python بالفعل، فإن إحدى الطرق الجيدة لتثبيت Seaborn هي من خلال PIP:
pip install seaborn
لدي بيئة Mamba تسمى “stats” تحتوي على مكتبات شهيرة أخرى مثل NumPy وSciPy وPandas.
أقوم بتنشيطها باستخدام هذا الأمر في shell
mamba activate stats
يمكنني تشغيل أوامر Python في IPython أو Jupyter.
البحث عن مجموعات البيانات واستيرادها
لبدء تشغيل Seaborn، قم باستيرادها باستخدام أمر الاستيراد القياسي في Python
import seaborn as sns
تتمثل الاتفاقية في استخدام “sns” كاختصار لـ “seaborn” نظرًا لقصرها في الكتابة.
يمكنك استيراد البيانات من جداول بيانات مثل Excel، ولكن “القيم المنفصلة بفواصل” أو ملفات CSV شائعة أيضًا، وخاصة بالنسبة لمجموعات البيانات التي ستجدها عبر الإنترنت. يمكنك القراءة في هذه الملفات باستخدام مكتبة Pandas. لتحميل ملف CSV في الدليل الحالي:
import pandas as pd
data = pd.read_csv("example.csv")
يحتوي Seaborn أيضًا على العديد من مجموعات البيانات المضمنة بالفعل. عند استخدام هذه المجموعات، استخدم طريقة get_dataset_names لعرضها:
sns.get_dataset_names()
هناك بعض العناصر المثيرة للاهتمام التي تستحق النظر إليها، ولكننا سنستخدم مجموعة بيانات من نصائح المطاعم.
سنقوم بتحميل البيانات إلى إطار بيانات Pandas:
tips = sns.load_dataset("tips")
يتم تنظيم إطارات البيانات في أعمدة مشابهة لجداول البيانات. سنحصل على نظرة عامة على البيانات باستخدام طريقة head:
tips.head()
رسم مخططات الهستوجرام باستخدام Seaborn
يعد الهستوجرام أحد الرسوم البيانية الأساسية المفيدة، حيث يوضح كيفية توزيع قيم مجموعة البيانات. دعنا نلقي نظرة على الهستوجرام الذي يوضح إجمالي مبلغ فواتير المطاعم هذه، العمود “total_bill”، باستخدام طريقة displot:
sns.displot(x="total_bill",data=tips)
يمكنك أن ترى أنه يبدو تقريبًا مثل منحنى التوزيع الطبيعي على شكل جرس، على الرغم من أن الذيل منحرف إلى اليمين، مع وجود الذروة أكثر نحو اليسار. حقل “data=” هو دالة ملائمة عند العمل مع إطارات البيانات دون الحاجة إلى كتابة “tips[“column”]” في كل مرة. اسم إطار البيانات هو مصدر البيانات.
إنشاء مخططات التشتت
أحد الأشياء المفيدة التي يمكن تصورها في مجموعة البيانات هو معرفة ما إذا كانت الأعمدة لها علاقة ببعضها البعض. إحدى الطرق الجيدة للقيام بذلك هي رسم مخطط التشتت الذي يرسم قيم عمود واحد مقابل الآخر. دعنا نرسم الفاتورة الإجمالية مقابل الإكرامية:
sns.relplot(x="total_bill",y="tip",data=tips)
المحور السيني هو مرة أخرى إجمالي الفاتورة والمحور الصادي هو مبلغ الإكرامية.
رسم الانحدارات الخطية
إذا نظرت عن كثب إلى مخطط التشتت، فقد تكون لاحظت أنه كان بإمكانك رسم خط مستقيم عبر القيم. وهذا يعني أنه يبدو أن هناك علاقة خطية إيجابية حيث يرتفع مبلغ الإكرامية مع زيادة مبلغ الفاتورة الإجمالية.
يمكننا رسم خط انحدار عبر مخطط التشتت هذا باستخدام طريقة regplot:
sns.regplot(x="total_bill",y="tip",data=tips)
ستشاهد رسمًا بيانيًا مشابهًا للرسم البياني الذي رسمناه سابقًا ولكن بخط، وهو نموذجنا للعلاقة الخطية، مرسومًا فوقه. يُطلق على هذا “الانحدار العادي لأقل المربعات”.
توجد أيضًا منطقة مظللة أعلى وأسفل الخط. يمثل هذا فاصل ثقة، لأن الانحدار الخطي يحتوي دائمًا على بعض عدم اليقين في كيفية ملاءمته لنقاط البيانات.
يمكنك ملاءمة أكثر من مجرد خطوط مستقيمة، ولكن يمكنك نمذجة المنحنيات بهذه الطريقة، ولكن هذا يتجاوز نطاق هذه المقالة. هذا البرنامج التعليمي هو مجرد خدش لسطح كيفية تصور البيانات واستكشافها باستخدام Python وSeaborn.
استخدام Python وSeaborn لاستكشاف وتصوير البيانات يفتح أبوابًا واسعة لفهم أفضل لمجموعات البيانات المعقدة. باتباع الخطوات والأمثلة المذكورة، يمكنك إنشاء رسوم بيانية تفاعلية واحترافية بسهولة. تذكر أن التصور الجيد للبيانات ليس فقط وسيلة لعرض المعلومات، بل أداة قوية لاتخاذ القرارات المستنيرة. استمر في تجربة أنواع مختلفة من الرسوم البيانية لتحقيق أقصى استفادة من بياناتك.