מ‑POC לייצור, חתום
הפער בין פרוטוטיפ AI עובד לבין פריסת ייצור רחב יותר ממה שרוב הצוותים מצפים, ורוב הסיכון שהדירקטוריון מודאג ממנו חי בפער הזה. Latency שמכפיל את עצמו בעומס אמיתי. עלויות שגדלות מהר יותר משימוש. סחיפה שאף אחד לא שם לב אליה במשך שבועות. פערי ביקורת שהרגולטור מוצא לפניכם. שום דבר מזה לא אקזוטי - זו היגיינה תפעולית בסיסית שיש לכל מערכת ייצור אחרת.
המהלך הוא מ"הצלחנו להריץ" ל"אנחנו יכולים להפעיל". תקציבי Latency ב‑CI. Eval Harness מחובר ל‑PR. Observability שמראה מעקב לכל בקשה, עלות לקריאה, וההחלטות בפועל של המודל - באותם הכלים שצוות הפלטפורמה שלכם כבר עובד בהם. רידקציה כך ש‑PII לא יגיע לעולם לספק מודלים. נתיבי fallback כך שהעסק שלכם נשאר באוויר כשמודל יורד. ביקורת חתומה על כל שינוי מצב.
זה החלק של העבודה שלא עושה הדגמה טובה. זה גם החלק שקובע אם התוכנית עדיין רצה בעוד שמונה‑עשר חודשים. אנחנו פורסים לתוך ה‑VPC שלכם, נשארים על Pager תשעים יום, ויוצאים כשהאופרטורים שלכם הם אלה שפותרים תקריות - באמצעות Runbook שהם עזרו לכתוב.

שלוש דרכים שזה מתבטא בייצור.
תקציב Latency
P50, P95, P99 בתוך ה‑eval harness. CI נכשל כשהמערכת איטית.
Eval Harness
סטים זהובים, שערי רגרסיה, מעקב סחיפה - מקושרים ל‑PR.
Observability וכוננות
מעקב לכל בקשה, עלות לקריאה, Runbooks, כוננות 90 יום.