כיצד להוריד ולהתקין את Llama 2 באופן מקומי - |טכנולוגיה מוסברת|עשה זאת בעצמך|

קוראים כמוך עוזרים לתמוך ב-MUO. כאשר אתה מבצע רכישה באמצעות קישורים באתר שלנו, אנו עשויים להרוויח עמלת שותף. קרא עוד.

Meta הוציאה את Llama 2 בקיץ 2023. הגרסה החדשה של Llama מכווננת עם 40% יותר אסימונים מדגם ה-Llama המקורי, מכפילה את אורך ההקשר שלו ומתגברת משמעותית על דגמי קוד פתוח אחרים הזמינים. הדרך המהירה והקלה ביותר לגשת ל-Llama 2 היא באמצעות API דרך פלטפורמה מקוונת. עם זאת, אם אתה רוצה את החוויה הטובה ביותר, התקנה וטעינה של Llama 2 ישירות על המחשב שלך היא הטובה ביותר.

עם זאת בחשבון, יצרנו מדריך שלב אחר שלב כיצד להשתמש ב-Text-Generation-WebUI כדי לטעון Llama 2 LLM כמותי באופן מקומי במחשב שלך.

למה להתקין את Llama 2 באופן מקומי?

ישנן סיבות רבות מדוע אנשים בוחרים להפעיל את Lama 2 ישירות. חלקם עושים זאת למטרות פרטיות, חלקם להתאמה אישית ואחרים ליכולות לא מקוונות. אם אתה חוקר, מכוון או משלב את Llama 2 עבור הפרויקטים שלך, ייתכן שגישה ל-Llama 2 דרך API אינה בשבילך. המטרה בהפעלת LLM מקומית במחשב האישי שלך היא להפחית את ההסתמכות על כלי AI של צד שלישי ולהשתמש בבינה מלאכותית בכל זמן ובכל מקום, מבלי לדאוג להדלפת נתונים שעלולים להיות רגישים לחברות וארגונים אחרים.

עם זאת, בואו נתחיל עם המדריך שלב אחר שלב להתקנת Llama 2 באופן מקומי.

שלב 1: התקן את כלי הבנייה של Visual Studio 2019

כדי לפשט את הדברים, נשתמש במתקין בלחיצה אחת עבור Text-Generation-WebUI (התוכנית המשמשת לטעינת Llama 2 עם GUI). עם זאת, כדי שמתקין זה יעבוד, עליך להוריד את כלי הבנייה של Visual Studio 2019 ולהתקין את המשאבים הדרושים.

הורד: Visual Studio 2019 (חינם)

קדימה והורד את מהדורת הקהילה של התוכנה.
כעת התקן את Visual Studio 2019, ולאחר מכן פתח את התוכנה. לאחר הפתיחה, סמן את התיבה פיתוח שולחני עם C++ ולחץ על התקן.

כעת, לאחר שיש לך פיתוח שולחן עבודה עם C++ מותקן, הגיע הזמן להוריד את תוכנית ההתקנה של Text-Generation-WebUI בלחיצה אחת.

שלב 2: התקן Text-Generation-WebUI

מתקין ה-Text-Generation-WebUI בלחיצה אחת הוא סקריפט שיוצר אוטומטית את התיקיות הנדרשות ומגדיר את סביבת Conda ואת כל הדרישות הדרושות להפעלת מודל AI.

כדי להתקין את הסקריפט, הורד את תוכנית ההתקנה בלחיצה אחת על ידי לחיצה על קוד > הורד את ZIP.

הורד: מתקין יצירת טקסט-WebUI (חינם)

לאחר ההורדה, חלץ את קובץ ה-ZIP למיקום המועדף עליך, ואז פתח את התיקיה שחולצה.
בתוך התיקיה, גלול מטה וחפש את תוכנית ההפעלה המתאימה למערכת ההפעלה שלך. הפעל את התוכניות על ידי לחיצה כפולה על הסקריפט המתאים.
- אם אתה ב-Windows, בחר start_windows קובץ אצווה
- עבור MacOS, בחר start_macos סקריפט פגז
- עבור לינוקס, start_linux תסריט מעטפת.
האנטי-וירוס שלך עשוי ליצור התראה; זה בסדר. ההנחיה היא רק א אנטי וירוס שגוי חיובי להפעלת קובץ אצווה או סקריפט. לחץ על רוץ בכל זאת .
ייפתח מסוף ויתחיל את ההגדרה. בשלב מוקדם, ההגדרה תשהה ותשאל אותך באיזה GPU אתה משתמש. בחר את הסוג המתאים של GPU המותקן במחשב שלך ולחץ על אנטר. למי שאין כרטיס גרפי ייעודי, בחר אין (אני רוצה להריץ דגמים במצב CPU) . זכור שהפעלה במצב CPU היא הרבה יותר איטית בהשוואה להפעלת הדגם עם GPU ייעודי.
לאחר השלמת ההגדרה, כעת תוכל להפעיל את Text-Generation-WebUI באופן מקומי. אתה יכול לעשות זאת על ידי פתיחת דפדפן האינטרנט המועדף עליך והזנת כתובת ה-IP שסופקה בכתובת האתר.
ה-WebUI מוכן כעת לשימוש.

עם זאת, התוכנית היא רק מטעין מודל. בוא נוריד את Llama 2 עבור מטעין הדגמים שיושק.

שלב 3: הורד את דגם Llama 2

יש לא מעט דברים שצריך לקחת בחשבון כשמחליטים לאיזו איטרציה של Llama 2 אתה צריך. אלה כוללים פרמטרים, קוונטיזציה, אופטימיזציה של חומרה, גודל ושימוש. כל המידע הזה ימצא מסומן בשם הדגם.

פרמטרים: מספר הפרמטרים המשמשים לאימון המודל. פרמטרים גדולים יותר יוצרים דגמים בעלי יכולת גבוהה יותר אך במחיר של ביצועים.
נוֹהָג: יכול להיות סטנדרטי או צ'אט. מודל צ'אט מותאם לשמש כצ'אט בוט כמו ChatGPT, בעוד שהסטנדרט הוא מודל ברירת המחדל.
אופטימיזציה של חומרה: מתייחס לאיזו חומרה מריץ את הדגם בצורה הטובה ביותר. GPTQ אומר שהדגם מותאם לרוץ על GPU ייעודי, בעוד ש-GGML מותאם לרוץ על מעבד.
כימות: מציין את הדיוק של משקולות והפעלות בדגם. להסקת מסקנות, דיוק של q4 הוא אופטימלי.
גודל: מתייחס לגודל הדגם הספציפי.

שים לב שדגמים מסוימים עשויים להיות מסודרים אחרת ואולי אפילו לא יוצגו אותם סוגי מידע. עם זאת, סוג זה של מוסכמות שמות נפוצה למדי ב- מחבקת פנים ספריית מודלים, אז זה עדיין שווה הבנה.

כיצד להסיר את drm מ- epub

בדוגמה זו, ניתן לזהות את המודל כדגם Llama 2 בגודל בינוני שהוכשר על 13 מיליארד פרמטרים המותאמים להסקת צ'אט באמצעות מעבד ייעודי.

למי שפועל על GPU ייעודי, בחר א GPTQ דגם, בעוד עבור אלה המשתמשים במעבד, בחר GGML . אם אתה רוצה לשוחח בצ'אט עם הדגם כמו שאתה עושה עם ChatGPT, בחר לְשׂוֹחֵחַ , אבל אם אתה רוצה להתנסות במודל עם מלוא היכולות שלו, השתמש ב- תֶקֶן דֶגֶם. לגבי פרמטרים, דעו ששימוש במודלים גדולים יותר יספק תוצאות טובות יותר על חשבון הביצועים. אני אישית ממליץ לך להתחיל עם דגם 7B. לגבי קוונטיזציה, השתמשו ב-q4, כי זה מיועד רק להסקת מסקנות.

הורד: GGML (חינם)

הורד: GPTQ (חינם)

עכשיו כשאתה יודע איזה איטרציה של Llama 2 אתה צריך, קדימה והורד את הדגם שאתה רוצה.

במקרה שלי, מכיוון שאני מריץ את זה על אולטרה-בוק, אני אשתמש במודל GGML המכוון לצ'אט, call-2-7b-chat-ggmlv3.q4_K_S.bin.

לאחר סיום ההורדה, הכנס את הדגם טקסט-generation-webui-main > דגמים .

כעת, לאחר שהורדת את הדגם שלך והכנסת לתיקיית הדגם, הגיע הזמן להגדיר את מטעין הדגמים.

שלב 4: הגדר את התצורה של Text-Generation-WebUI

כעת, בואו נתחיל את שלב ההגדרה.

שוב, פתח את Text-Generation-WebUI על ידי הפעלת ה start_(מערכת ההפעלה שלך) קובץ (ראה את השלבים הקודמים למעלה).
בכרטיסיות הממוקמות מעל ה-GUI, לחץ דֶגֶם. לחץ על לחצן הרענון בתפריט הנפתח של הדגם ובחר את הדגם שלך.
כעת לחץ על התפריט הנפתח של מעמיס דגם ובחר AutoGPTQ עבור אלה המשתמשים במודל GTPQ ו ctransformers עבור אלה המשתמשים במודל GGML. לבסוף, לחץ על לִטעוֹן כדי לטעון את הדגם שלך.
כדי להשתמש במודל, פתח את לשונית צ'אט והתחל לבדוק את המודל.

מזל טוב, טענת בהצלחה את Llama2 במחשב המקומי שלך!

נסה לימודי תואר שני בלימודי תואר שני

עכשיו כשאתה יודע להריץ את Llama 2 ישירות במחשב שלך באמצעות Text-Generation-WebUI, אתה אמור להיות מסוגל להפעיל גם LLMs אחרים מלבד Llama. רק זכרו את מוסכמות השמות של דגמים ושרק גרסאות קוונטיות של דגמים (בדרך כלל דיוק q4) ניתנות לטעינה במחשבים רגילים. LLMs כמותיים רבים זמינים ב- HuggingFace. אם אתה רוצה לחקור דגמים אחרים, חפש את TheBloke בספריית הדגמים של HuggingFace, ואתה אמור למצוא דגמים רבים זמינים.