בועז לביא מגיש פודקסט על קוד, שפות תכנות, באגים היסטוריים ולמידת מכונה. "תוכנה זוללת את העולם", קבע המהנדס והיזם האמריקאי מארק אנדריסן. ואין ספק שזה נכון. זהו פודקאסט למפתחים ולמפתחות, ולכל מי שרוצה לדעת ממה עשוי עולמנו המפוקסל, זה שנבלע בבטן האלגוריתם. עמית בן דור, מייסד הפודקאסט (לצד חן פלדמן) יתארח בפרקים נבחרים
…
continue reading
Conteúdo fornecido por רברס עם פלטפורמה. Todo o conteúdo do podcast, incluindo episódios, gráficos e descrições de podcast, é carregado e fornecido diretamente por רברס עם פלטפורמה ou por seu parceiro de plataforma de podcast. Se você acredita que alguém está usando seu trabalho protegido por direitos autorais sem sua permissão, siga o processo descrito aqui https://pt.player.fm/legal.
Player FM - Aplicativo de podcast
Fique off-line com o app Player FM !
Fique off-line com o app Player FM !
485 Ivrit
MP3•Home de episódios
Manage episode 453500608 series 2497397
Conteúdo fornecido por רברס עם פלטפורמה. Todo o conteúdo do podcast, incluindo episódios, gráficos e descrições de podcast, é carregado e fornecido diretamente por רברס עם פלטפורמה ou por seu parceiro de plataforma de podcast. Se você acredita que alguém está usando seu trabalho protegido por direitos autorais sem sua permissão, siga o processo descrito aqui https://pt.player.fm/legal.
פרק מספר 485 של רברס עם פלטפורמה, שהוקלט ב-27 בנובמבר 2024. אורי ורן מארחים באולפן בכרכור ביום גשום וקר אורח שהגיע עם שורטס וסנדלי-שורש: אולי פרק 500 יהיה כבר כולו מג’ונרט, אבל בינתיים, יאיר ליפשיץ בא לשיחה על (וב) Ivrit.ai.
(אורי) תגיד, רן - 485? אנחנו מתקרבים לפרק 500 . . . אולי נעשה עם משהו מיוחד לפרק 500?
(רן) אה, יש לי רעיון. שומע? אולי נעשה פרק שכולו מג'ונרט (Generated) ואנחנו לא נדבר, ובעצם יהיו Avatar-ים שידברו בשמנו . . . מה אתה אומר - יעבוד?
(אורי) האמת, טוב פרק אחד הפסקה - אבל נראה לך שזה אפשרי, בעברית?
(רן) האמת, שמעתי . . . אתה יודע, יש לא מעט כאלה שעושים את זה באנגלית, נגיד NotebookLM ואחרים, שיודעים לעשות את זה כבר מאוד יפה, באנגלית . . .
(אורי) מייתרים אותנו, רן. מייתרים אותנו . . .
(רן) אלא - שלנו יש את היתרון של עברית!
(אורי) כן . . .
(רן) אוקיי וזה היה הרמז - אם לא ניחשתם עד עתה . . .
אז אני מניח שללא מעט מכם יצא לכם להכיר מנועי-שפה ולהכיר בכלל תוכן וכלים, שיודעים לעבוד לא רע בשפות זרות - כנעניות וכו’.
01:47 יאיר
(רן) אז יאיר - שוב ברוך הבא, וסליחה על ה-Intro הארוך, אבל היום אנחנו הולכים לדבר על פרויקט קהילתי, שאתה בין המובילים שלו. פרויקט מאוד חשוב ומאוד מאוד מעניין שנקרא Ivrit. פשוט ככה, כמו ששומעים - ככה כותבים. [כמו שאיתמר בן אב”י התכוון לכתוב עברית]
הפרויקט הזה שם למטרה שלו לאסוף חומר בעברי , על מנת שהאלגוריתמים יוכלו להתאמן עליו - ועל זה תספר לנו בהמשך.
- (יאיר) מעולה. קודם כל - הכל נכון. אני חושב שברור מאליו ששום דבר ממה שעשינו לא עובד.
- נספר על זה עוד מעט . . .
- לגבי - עבדתי הרבה שנים באינטל, בהתחלה בתור מפתח, אחר כך בתור ראש-צוות.
- ב-2015 עברתי לסטארטאפ שנמצא כאן, בקיסריה.
- מתעסק בצ'יפים (Chips) - Leaba Semiconductor, עושים Chip-ים לרשתות.
- הגעתי שם לנהל את אחד מצוותי התוכנה.
- עבדתי שם חמש שנים וקצת, כלומר - הגעתי בתור אחד החבר’ה הראשונים, לעשות ארכיטקטורה של הצד של התוכנה [תזמון קוסמי לפרק הקודם - 484 Architect WTF with Shai Yallin and Ron Klein]
- תוכנה-לחומרה זה תמיד סוג קצת שונה ויש לו את את האתגרים שלו.
- כשעזבתי שם, כבר ניהלתי חלק די גדול מהארגון הזה - 40 ומשהו איש, ועוד חבר’ה בחו”ל.
- וזהו, בתחילת 2020 הייתה הקורונה - אשתי הייתה עוד בלימודים שלה, היה זמן מעולה להפסיק לעבוד בכלל . . .
- ישבתי עם הילדות בבית, וכל פעם ששמעתי אנשים מתלוננים על זה ש”היום מישהו צריך להישאר עם הילדים”, אמרתי “הכל טוב, אני גם ככה בבית, לא אכפת לי מכלום” . . . .
- וזהו - ומאז אני עושה בעיקר פרויקטים שלא למטרות רווח.
- כן עושה הנדסה, כן עובד בתור יועץ - אבל חלק די גדול מהזמן שלי הולך לכל מיני סוגים של Non-Profit.
- חלק מהם לא טכנולוגיים - Ivrit.ai זה כן פרויקט טכנולוגי, שאנחנו עובדים עליו מ . . . חושב שאמצע 2023, משהו כזה, שנה-וקצת.
- (יאיר) כשהתחלנו . . .
(רן) . . . יש הטוענים כך . . .
- (יאיר) כשהתחלנו - לפני שנה וקצת, נגיד סוף מאי 2023 - ChatGPT התחיל לתפוס תאוצה.
- שיחקתי איתו, אמרתי “וואו, זה עובד מדהים!”
- יש להם מנוע שנקרא Whisper, שעושה בעצם Speech-to-Text, גם עובד מדהים.
- [וגם מייצר את התמלול הראשוני לפרקים האלה, בערך מאז…]
- אשתי רופאה, אז אמרתי “טוב, איך נחבר את זה אליה?”
- שבעצם, ה-AI כבר ייתן המלצות, שהוא יעשה חלק מהעבודה . . .
- ודי מהר התברר שהפער הכי גדול הוא שהכל עובד אחלה - עד שאתה מגיע לעברית . . .
- זאת אומרת, גם לפני שנה וחצי, להגיד ל-GPT4 “אדוני, הנה Audio - תבין מה . . . “
- אבל ברגע שאתה רוצה - “רגע, אני רוצה להפעיל את זה בארץ!”
- ויש לנו אינטרס-מובנה שדברים יעבדו כמו שצריך
- אז הדברים עובדים פחות טוב . . .
- לפני שנה וחצי, התחושה שלנו הייתה-שמודלי שפה כמו ChatGPT יצליחו לסגור את הפער בעברית לבד.
- לעומת זאת, תמלול - כל הקטע של גם דיבור אל המודל וגם זה שהמודל ידבר אליך בחזרה
- גם ג’ינרוט (Generation )של קול וגם תמלול
- זו בעיה שהיא מאוד שונה . . .
- צריך דוברי-עברית כדי לעבוד עליה - אי אפשר לקחת עכשיו מהנדס באיזושהי גיאוגרפיה אחרת ולהגיד לו “טוב, בוא תעשה Scraping לכל האתרים בעברית” ולעבוד עליה.
- אם אתה לא דובר את השפה - לא תוכל לתייג עכשיו . . . לא תוכל לקחת, לדוגמא, את הפודקאסט שלנו ולתמלל אותו [שלום…]
(רן) כלומר, רגע למה צריך תמלול? [רגע, מה? . . . ] - זאת אומרת, למה לא פשוט את האודיו?
- (יאיר) האודיו זה בעצם ערוץ שמעביר הרבה מידע בזמן קצר [ד”ש למאזינינו ב x2.5].
- רוב האנשים מדברים הרבה יותר מהר ממה שהם מתקתקים.
- אז זה הרבה יותר יעיל - ויש המון אנשים שלא ישבו לתקתק במחשב . . .
- אפילו אני היום, כשאני עובד עם ChatGPT . . .
(רן) לא, לא, סליחה. השאלה שלי טכנית - למה אתה צריך את האודיו וגם את התמלול שלו? למה לא מספיק את האודיו, לצורך למידת-מכונה?
- (יאיר) אז יש סוגים, ש דרכים שונות ללמוד איך לעשות Speech-To-Text.
- אחת הדרכים האלה נקראת Unsupervised Learning - זאת אומרת, אני לוקח אודיו, בלי טקסט שמצורף אליו, ומנסה לבנות מעל זה מודל שיתמלל, או שיעשה רוב עבודת-התמלול.
- לדוגמא, אתה יכול - המנוע יכול - בצורה כזו לזהות סוגי-דיבור דומים, לעשות Clustering למילים . . .
- ובסוף, אתה לוקח עוד קצת תוכן - ואותו אתה מתמלל ידנית.
- אז בעצם אתה עובד בכמה שלבים
- יש לדוגמה מנוע של Facebook, של Meta, שנקרא Wav2vec - שזה מה שהוא עושה.
- המוצר שאנחנו מכירים - או המנוע שאנחנו מכירים שעובד הכי טוב - נקרא Whisper
- מנוע של OpenAI - באנגלית, עושה עבודה מדהימה.
- כשאני מדבר איתו, אני אפילו לא בודק האם הוא תמלל אותי נכון או לא - אני פשוט אומר לו “שלח את השאלה”, עובד מעולה.
- והוא עובד בצורה שנקראית Weakly Supervised.
- הם אומרים “תן לנו Data מתומלל” - כלומר, גם את האודיו וגם את התמלול - “אנחנו יודעים שחלק ממנו יהיה זבל - וזה בסדר” . . .
- נעשה מיצוע על מספיק Content, זה יהיה בסדר.
- אז אנחנו בעצם רצינו לייצר . . . אמרנו, אנחנו רוצים לפתור חלק אחד ספציפי - נייצר Data-set כזה, מתוך הבנה שלהרבה חברות אין מוטיבציה גדולה ללכת לטפל עכשיו בעברית.
- אבל אם “תדחף להם את ה-Data” - עם רישיון מתאים ובחינם - הם ייקחו אותו, לא אכפת להם . . .
- הם פשוט לא רוצים לבזבז על זה זמן או כסף בעצמם.
(רן) אז ההבדל בין, נגיד, מנועי-שפה לבין מנוע-תמלול כזה, זה שמנועי-שפה יכולים להתאמן בשיטה שהיא Self-Supervised - כלומר, להסתכל על הררים של טקסט ומדי פעם להחביא מילה ולנחש את המילה הבאה וכל זה, והם לא צריכים הרבה Data מתויג - הם צריכים Data “בסדר”. הם צריכים Data נקי, יחסית. זאת אומרת, אם תזרוק לו
ג'יבריש אז זה לא יעזור לו, אבל כל עוד ה-Data הוא באנגלית - וויקיפידיה וכאלה - הם סבבה עם זה.
אבל במנועי-תמלול, אתה אומר שצריך את ה... זאת אומרת, לפחות בשיטה שהזכרת, צריך את המיפוי הזה - בין
ה-Audio-stream לבין התמלול שלו - וככה אתה יכול לייצר בעצם למידה ברמה הכי גבוהה.
(אורי) תגיד, גרמנית וצרפתית וספרדית - עובדות טוב?
- (יאיר) עובדות טוב, כן.
- זאת אומרת, אני לא רוצה להגיד שהן עובדות ברמה של האנגלית . . .
- רק כדי לתת איזושהי תחושה למספרים - Whisper עצמו, כש-OpenAI שחררו אותו, הם שחררו גם מאמר ליד.
- והוא פתוח לגמרי, ה-License שלו פתוח לגמרי - אתה יכול לעשות לו מה שאתה רוצה.
- אז כש-OpenAI שחררו אותו, שחררו גם מאמר איתו - ויש שם טבלה, שאומרת כמה שעות-תוכן הכניסו מכל שפה.
- מאנגלית, אם אני זוכר נכון, הכניסו בערך 200 אלף שעות.
- אני חושב שגרמנית, ספרדית - היו באזור העשרת-אלפים, אולי קצת יותר או קצת פחותץ
- עברית - היו 680 . . . שאף אחד לא יודע מאיפה הן הגיעו.
- אז זה ה-Scope.
- בהתאם לזה, אנגלית עובדת מדהים ב-Whisper . . . אני חושב שהשפות האחרות, הנפוצות - גרמנית, ספרדית - עובדות טוב.
- לא מושלם, אבל עובדות טוב מאוד.
- ועברית . . . איך אומרים? Your mileage may vary - אז זה זה . . .
(אורי) אבל זה רק עניין של” חסר תוכן” . . .
- (יאיר) תלוי את מי אתה שואל . . . יש אנשים שאומרים “עברית היא שונה מכל מה שאנחנו ראינו בינתיים”.
- אבל התשובה היא שבעיקר חסר תוכן.
(אורי) אוקיי, זאת אומרת שאם אנחנו נגיע לעשרת-אלפים שעות . . .
- (יאיר) מתויגות היטב - אז כן.
(אורי) נהיה טובים “כמו הגרמנים”.
- (יאיר) יותר יפים - אבל כן.
(אורי) שזופים . . .
09:58 מנועים אחרים ומשמעות הפרויקט
(רן) דרך אגב, הזכרת הרבה את Whisper, אבל לפני אולי שנה, אולי קצת יותר, עשיתי כמה בדיקות - גם הייתי צריך לתמלל מסה של אודיו בעברית. הייתי צריך לתמלל את זה, ובדקתי את Whisper לעומת “החבר של גוגל”, שכחתי איך קוראים לו [?Gemini] . . . ודווקא ההוא - של גוגל - נתן תוצאות קצת יותר טובות.
יחד עם זאת, הרבה-הרבה מתחת לתוצאות באנגלית . . . זאת אומרת, באופן ברור. אני חושב שאולי גג הצלחתי להגיע לדיוק של 80% בעברית, בזמן שבאנגלית זה “נושק ל-90 הגבוהים”.
- (יאיר) ל-Whisper יש יתרונות אחרים - לדוגמא, הוא מפסק, שזה דבר נפלא. פסיקים, נקודות . . .
- אבל אני חושב שזה נכון. אנחנו, עד לפני כמה חודשים, ל-AWS יש את Amazon Transcribe, שעד לפני כמה חודשים הם נתנו לנו בראש.
- עדיין את Whisper הם אוכלים בלי מלח.
- ואותנו . . . .
- (רן) בעברית?
- (יאיר) . . . הם עשו עבודה משמעותית יותר טובה ממה שאנחנו עושים בעברית - אבל זה כבר לא המצב.
- אבל כן.
(רן) אז משמעות הפרויקט זה למעשה לאסוף תוכן-אודיו בעברית - את המיפוי שלו לטקסט בעברית - וגם לאמן את המנוע Transcription?
- (יאיר) כן. התחלנו מלאסוף את התוכן.
- הלך יותר מהר ממה שחשבנו, וכן - “עם האוכל, בא התאבון”.
- ראינו שזה עובד טוב, ואמרנו שגם לא נחכה - וגם לא ברור שיש מישהו לחכות לו . . .
- עכשיו אנחנו כבר בגרסא השלישית ששחררנו - שעליה כבר יש תוצאות יפות.
- זאת אומרת, היא On-par עם Amazon לגמרי - כשהיא בחינם.
- ואני משער שהגרסא הבאה תיהיה יותר טובה . . .
(אורי) סתם, מעניין אותי - יש קובץ קול ויש טקסט, יש תמלול וכו’. מי עושה את ה-Syncing? או שהוא יודע להבין את זה לבד?
- (יאיר) כשאתה אומר...
(אורי) יש אנשים שמדברים לאט, כמוני, על הפנים - ויש אנשים שמדברים יותר מהר. איך הוא מבין, כאילו, איפה אתה בטקסט?
- (יאיר) אז אתה שואל מבחינת השלב של ה-Inference או של האימון?
(אורי) של האימון, לצורך העניין.
- (יאיר) אז האימון ב-Whisper . . . עכשיו, חשוב להגיד - אני לא מהנדס AI.
- אני חושב שברוב הדברים אנחנו יכולים לעשות עבודה טובה עם ידע בינוני.
- הרי ככה, ברוב ההנדסה, אתה לוקח Component שאתה מבין חלק ממנו . . .
- פרקטית, Whisper עובד במקטעים של 30 שניות
- אתה אומר לו “אדוני, הנה קטע של עד 30 שניות - הנה הטקסט שלו.
- הוא לא שואל אותך מה תזמון בפנים.
(אורי) כן . . . זאת אומרת, זה לא שיכולים להיפתח פערים מאוד גדולים, עם קצבי-דיבור שונים.
- (יאיר) נכון.
- זה כן מייצר לך . . . זה כן מעניין, כשאתה מסתכל על איך נראה Inference, על חלונות של מעל 30 שניות ואיך שהם עושים את זה.
- ויש להם כל מיני אלגוריתמים רגילים, שעושים Stitching
- זאת אומרת, נריץ 30 שניות - אבל אז נזיז את החלון נגיד ב-15 שניות קדימה וננסה שוב.
- פרקטית, הוא עובד על 30 שניות.
13:08 מי עוד שם?
(רן) אני רוצה עוד מעט להיכנס לפרטים הטכניים, אבל בוא רגע נסיים את ה-Overview על פרויקט.
- (יאיר) כן. אז אנחנו התחלנו שלושה חבר'ה - אני; יניר מרמור - שהוא מסטרנט (M.Sc.) במכון ויצמן, במדעי המחשב; [ד”ר] כנרת משגב - שהיא מנהלת יחידה של חקר נתונים בהדסה, בבית החולים.
- ולפני כמה חודשים, הצטרף אלינו יועד סנפיר, שהוא גם מהנדס עם אינסוף ניסיון.
- ובין כולנו אנחנו מתכללים
- א' - הבאה של ה-Dataץ
- ב’ - כל מיני צדדים של Legal - יש עורך דין, זה עורך הדין אלי גריבאום,.
- שבגדול מתעסק ב-IP, ושעוזר לנו מאוד.
- למשל, עזר לנו מראש לבנות את ה-License שלנו, ככה שכל מי שתורם לנו Data - הוא חותם מראש על License מתאים וכו’, שנוכל לשחרר הכל.
- אבל זה בגדול “אנחנו”.
(רן) וכולכם בהתנדבות?
- (יאיר) נכון.
(רן) וחוץ מכם - יש עוד אנשים שנותנים פה ושם שעות ועוזרים?
- (יאיר) קודם כל, תמללנו עד היום, בכל מיני צורות כאלו של תמלול-המונים, מעל 300 שעות.
- בתור Reference, ה-Data-set הכי גדול שהיה לפנינו בעברית, היה של 20-30 שעות.
- הרבה מזה זה Data-sets של כל מיני אנשים שמקריאים - מקריאים את הברית החדשה או דברים כאלו . . .
- אז כאן, מאחורי זה, יש כמה מאות מתנדבים שישבו ותמללו משפט-משפט - אז זה המון-המון עבודה.
(רן) כן. אז קודם כל אני חושב שעפר [הי!], שעושה לנו הרבה מאוד עבודת תמלול, וגם חיבר בינינו למעשה, ישמח לשמוע את זה [אכן], ויכול להיות שגם תוכל להשתמש בתוכן שלנו, אז נשמח אם תעשה את זה.
(אורי) על 485 פרקים . . . יש לך שעות.
(רן) כן, ומאותו רגע אתה יכול להפיק בעצמך פודקסטים, להשתמש בקול שלי ושל אורי - וזהו . . .
כן, באמת - יש פה את גם האספקט הזה’ או שזה רק תמלול? כלומר, יש פה גם אספקט של Generation, בהמשך?
- (יאיר) יש . . . היו לנו כמה שיחות מעניינות על זה.
- יש גופים בארץ, שזה מעניין אותם לא רק לייצר את זה - כאילו, לא רק לעשות Text-to-Speech, אלא גם לעשות Text-to-Speech שיהיה “תקני”.
- זאת אומרת, שיעמוד באמת בכללים של השפה.
- זה משהו שרק עכשיו התחלנו להסתכל עליו יותר.
(אורי) יש לי הרגשה ש...
(רן) מאזיננו אבשלום . . .
- (יאיר) בלי שאני מגיב על זה ישירות, זה . . . אני חושב שזה דברים נפלאים.
- כי המטרה - מבחינתנו, אחת המטרות הגדולות שלנו מראש, הייתה להגיד “אף אחד לא יעשה את העבודה”.
- כאילו, לא יעשה את העבודה הזו בתשלום, כי הקהל הוא לא מספיק גדול.
- אבל אם עושים את זה טוב - גם Speech-to-Text וגם Text-To-Speech - אנחנו “נשפיע על התל”ג”.
- כי בסוף היום, אם אמא שלי צריכה להתקשר כדי להתנתק מ-HOT, למשל - [היפותטי לחלוטין, למה שמישהו ירצה לעשות דבר כזה?], אם היא הייתה מחוברת אליהם עדיין.
- והיית רוצה שכשהיא מתקשרת, מיד יענה מישהו בצד השני - גם אם הוא מחשב שכנראה ינתק אותה יותר מהר, אני מקווה - ובשביל זה, אתה צריך גם להבין מה היא אומרת, וגם לענות לה.
- ושני הכלים האלו, כמו המון פעמים בתוכנה - יש המון דברים שאם תקבל בחינם, אתה תשתמש מיד, ואם לא תקבל בחינם, אתה לא תשתמש בכלל.
- אז אנחנו...
(רן) כן, אני חשבתי שתיקח את זה בכיוון אחר: אמא שלך צריכה להתנתק, המשימה נופלת עליך - ולך אין כוח לעשות את זה, אז אתה תפעיל את הרובוט. . .
- (יאיר) אותי הם אוהבים יותר - כשאני מתקשר, מנתקים מיד.
16:47 אספקטים של חוקיות, סקלרט והתבורי’ס
(רן) אוקיי, אז דיברת קצת על אספקט של חוקיות וכל זה - אז לצורך העניין, אם אני תורם את הקול שלי, האם אחר כך גם תוכל להשתמש בקול שלי כדי “לייצר רובוט”, נקרא לזה? [ד”ש לפרוייקט רובו-שאול]
- (יאיר) אז כשניסחנו את הרישיון, היה חשוב לנו להגן, בעצם, על כל הצדדים, שזה אומר - א’ . . .
(אורי) רן, הקול שלך זה נחשב תרומת-איברים . . .
(רן) ברבים, כן.
- (יאיר) בעצם רצינו לוודא
- א' - שמי שלוקח את התוכן - והרבה פעמים הוא חברה לא-ישראלית וכל הדברים האלו לא מעניינים אותה - הוא צריך להרגיש מוגן לגמרי.
- ולכן מה שכתוב, זה היה צד אחד.
- הצד השני היה שבאמת מי שתורם את זה, לא ידאג שמחר אנחנו נעשה “פעלולים”.
- מה שקרה אפקטיבית כתוצאה מזה, זה שניסחנו רישיון שכתוב בו
- א' - מותר, עם ה-Data שאנחנו מנגישים, לאמן מודלי AI בצורה גורפת.
- מותר להשתמש בהם לכל שימוש חוקי.
- זאת אומרת, אם לקחת את ה-Data הזה, בנית מודל ועכשיו אתה רוצה למכור אותו - אם אני עשיתי את זה, אתה לא יכול לבוא ולהגיד לי “אבל זה היה ה-Data שלי!”.
- אלה החיים . . . ברור שם בוודאות שאתה לא תקבל שום פיצוי על זה.
- זה מצד אחד . . .
(אורי) בוא נדבר אחר כך על הזכויות של הקול של רן . . .
- (יאיר) הצד השני הוא שיש שם סעיף אחד שמוחרג, וזה כתוב: “Deep-Fake-ים אסור לעשות”.
- אנחנו לא רוצים מצב שמישהו יתרום, ובסוף יידפק מזה איכשהו.
- אז אפשר לעשות את זה - מי שרוצה בכל מקרה לעשות את זה בצורה לא-חוקית, לא היה צריך את הרישיון שלנו.
- אבל מי שעובר דרך הרישיון, אז זה מוחרג שם.
(רן) כן. היה סיפור די מפורסם בהוליווד, לפני כשנה, עם שחקנית - שכחתי את שמה - אבל שחקנית מפורסמת, שרצו להשתמש בקול שלה לצורך . . .
- (יאיר) Scarlett Johansson עם OpenAI . . .
(רן) . . . Scarlett Johansson, כן - שלצורך אני חושב פרסומת או איזשהו משהו . . . והיא לא הסכימה. ולמרות זאת הם עשו את זה, אם אני זוכר נכון - והיא תבעה אותם.
אז אני מקווה שאני זוכר את הסיפור יפה, אבל זה עניין, אוקיי? זה עניין. זאת אומרת, יש לה קול שמזוהה היטב איתה, ואם מישהו שומע את הקול שלה, זה מייצר איזשהו Creditability, והיא לא תיתן את זה בחינם, ובטח שלא למען מטרות שהיא לא מאמינה בהן.
אז כן, אז יש פה עניין עם Fake-ים - קראת לזה “Deep-Fake”, אבל שימוש של קול באופן עקרוני. אפשר לחשוב גם על יוצרי-פודקאסטים [מישהם ספציפיים?], ש”אוקיי, אז עכשיו כל מה שאני צריך זה לייצר איזשהו טקסט, ולתת לצורך העניין לאמסטרדמסקי או לתבורי להקריא את זה בשבילי!” - ואני לא צריך ממנו “טובות”, כי יש לי כבר את הקול שלו . . . אז יש פה איזשהו עניין.
(אורי) לאיזה תבורי אתה מתכוון?
(רן) אני לא אפרט . . . יש לפחות שלוש בחירות טובות.
אז אז כן, יש פה איזשהו עניין. ברמה הטכנולוגית זה מאוד מעניין, ברמה המשפטית זה כנראה מעניין לא פחות.
19:45 סקירת מצב עם סימני פיסוק
(רן) אוקיי, אז דיברת על איזשהו אוסף של שעות שאליהן הגעתם, אז תן לנו רגע איזושהי סקירת מצב: איפה אתם היום ומה המטרה שלכם?
- (יאיר) אז ככה: יש לנו כמה חזיתות.
- דבר אחד - אנחנו מאוד מתאמצים ליצור Benchmark ברור לתמלול בעברית.
- יש Benchmark-ים כלליים לתמלול - ה-Data-set-ים שיש בעברית הם נוראיים לזה.
- התחלנו ליצור Leader-Board ממש - יש לנו איזשהו עמוד שאתה יכול להיכנס אליו ולהגיד: “הנה סדרה של Benchmark-ים והנה איך כל מנוע עובד עליהם”.
- זה בעיקר נועד כדי שיבוא מישהו יותר חכם מאיתנו, יוציא מנוע יותר חכם - ובתקווה יגיע למקום הראשון.
(רן) זאת אומרת, Benchmark זה אוסף של Audios, התמלול הנכון שלהם ואיזושהי בדיקה של עד כמה התמלול שהפקת קרוב ל-”Golden”.
- (נכון) נכון, ובשביל זה לקחנו מתנדבים - כש”מתנדבים”, במקרה הזה, זו אחותי . . . .
(רן) . . . התנדבה בעל כורחה . . . .
- (יאיר) ואמרתי לה “הנה טקסטים מאוד ארוכים - בבקשה תמללי אותם “ברמת האות” - כמה זמן שזה ייקח, זה ייקח”.
(רן) דרך אגב, הזכרת מקודם “פיסוק” - אז את זה אתם גם עושים?
- (יאיר) Whisper עושה את זה “באופן טבעי”.
- אנחנו, בחלק מה-Data-set-ים שלנו יש את זה, ובחלק לא.
(רן) אבל זו מטרה אצלכם? או שאתם כרגע...
- (יאיר) זה לא מטרה - אבל בוא נגיד שלשמחתנו זה פשוט עובד. אנחנו . . .
- חלק מהפעילויות החדשות שאנחנו עושים יגרמו לזה לקרות באופן טבעי, אבל עד היום זו לא הייתה מטרה.
(רן) דרך אגב, על ניקוד יש מה לדבר, או שזה בכלל סרט אחר?
- (יאיר) זה סרט אחר.
- אם אתה מכיר את איך שהוא עובד לעומק, אז הוא די פתור כבר . . .
- קודם כל, יש כלים של נקדן.
- יש מקרים שבהם יש Ambiguity בטקסט והם לא תופסים - זה די פתור . . .
(רן) . . . כ-Post-processing. זאת אומרת, כשיש לך את הטקסט, אתה יכול להפעיל עליו נקדן. ברוב המקרים זה יעבוד ואתה לא צריך בהכרח מאודיו. למרות שלפעמים, האודיו יכול לרמוז לך . . .
- (יאיר) נכון, אבל לפעמים, בהרבה מהם הדובר ידבר בצורה שבה זה . . . שאם תנקד לפי איך שהוא דיבר, תעשה עבודה לא טובה.
(רן) כן, כן.
- (יאיר) יש לנו Data-set-ים - שזו בעצם המטרה הראשונה שהייתה לנו - כמה Data-set-ים גדולים, שמונגשים.
- אחד זה של אודיו לא מתויג - יש לנו שם כבר הרבה מעבר לעשרת-אלפים שעות.
- אני חושב שאנחנו כבר מעל חמש-עשרה, אבל לא רוצה לחתום על זה בלי שאני בודק שוב.
(רן) איזה סוגי אודיו יש? זאת אומרת - הקלטה אולפנית? מה אתם צריכים שם? איזו איכות?
- (יאיר) רוב מה שיש לנו זה פודקאסטים [קרדיטים].
- היינו שמחים להוסיף לזה תוכן כמו שיחות טלפון, שיחות של מוקדי שירות לקוחות, שיחות של רופאים, עורכי-דין וכו’.
- אין לנו המון מזה.
- אז זה מה שמאוד, היינו שמחים להוסיף.
(אורי) בטח גם יהיה קשה, מבחינת פרטיות, להביא את זה.
- (יאיר) נכון. יש דרכים לעקוף את זה לפעמים, שאנחנו התחלנו לעבוד עליהן - וזה בהקלטה.
- זאת אומרת, תראה: אני לא יכול עכשיו להקליט את השיחה שלי עם מטופל, אבל אני כן יכול לעשות סימולציה לשיחה כזו.
- ולפעמים, אתה אפילו יכול לכתוב את הטקסט של הסימולציה הזו מראש, ואז לא צריך לתמלל אחר כך . . . .
(רן) אבל יכול להיות שאתה . . . שמספיק להשתמש בפודקאסטים בתחום. כאילו, תיקח פודקאסט-”משפטי” - יכול להיות שיהיה לך את ה-Corpus של העולם המשפטיף מאשר...
- (יאיר) זה נכון, וזו שאלה של . . . בוא נגיד, באופן טבעי יחסית, כמות הפודקאסטים הכי גדולה שתמצא מחוברת לעולם הטכנולוגיה.
- ולכן, לא סתם כלים כמו ה-Whisper עושים עבודה . . .
- כאילו, אם אתה מנסה לדבר איתו על מושגים טכנולוגיים - הוא עושה עבודה מדהימה, הוא תמיד כמעט יפגע.
- גם מושגים שאני אומר “רגע, אפשר היה לתמלל את זה בהמון דרכים שונות” - אם זה מושג מהעולם “שלנו”, הוא יפגע בו, כמעט תמיד.
- אבל יש לנו בעצם . . . אז יש לנו המון המון Data שהנגשנו כבר, שהוא Data “גולמי”.
- וזה - יש אנשים שלקחו אותו והשתמשו אותו בו כבר לכל מיני דברים.
- יש לנו גרסה שנייה, שזה Data שחתכנו - בעצם, לקחנו את הגולמי, חתכנו אותו לסגמנטים (Segments) הרבה יותר קצרים, של עד 30 שניות, ונתנו לאנשים לתמלל.
- הנגשנו Data-set כזה - אני חושב שאתמול הנגשתי אחד כזה . . . .
- יש שם כבר מעל 300 שעות שמוכנות - ועם זה אפשר לאמן מודלים.
- אז זה דבר שני, ועכשיו…
23:56 פרויקט ההקלטות החדש
(רן) כמה זמן לוקח להפיק את אותן 300 שעות? אז אתה אומר “מקטעים של 30 שניות” - כל אחד צריך לתמלל בצורה די מדוקדקת. כמה עבודה זה?
- (יאיר) אז די-מדוקדקת . . . קורה שאתה טועה, זה בסדר.
- אנחנו מחשבים את זה בתור 1 ל-5, כן? 1 ל-4, 1 ל-5.
- זאת אומרת שעה של תוכן - ייקח לך 5 שעות של עבודה.
(אורי) שזה בעצם הצוואר בקבוק של כל הסיפור . . . [הי!]
- (יאיר) נכון, ובשביל זה התחלנו עכשיו עוד פרויקט, שכל מי שרוצה לעזור בו סופר-מוזמן.
- פרויקט של הקלטות - שאנחנו בעצם אומרים “תיכנס, תבחר איזה עמוד שאתה רוצה מוויקיפדיה - ותקליט”.
- אז אתה עם המקלדת - אתה מסמן בכל פעם שאתה עובר לפסקה הבאה, לוחץ רק “Next”
- ואז אנחנו בעצם מקבלים כאן תוכן שגם אנחנו יודעים מראש מה תמלול שלו, אז לא צריך להתאמץ.
- וגם הוא מתוזמן - אז אנחנו יכולים אחר כך לקחת “ולהדביק אותו”.
- אז זה די בהתחלה. יש לנו עכשיו, הוצאנו מזה בינתיים 12 שעות
- אבל גם זה הרבה יותר קל לעשות . . .
- גם זה קצת ממכר
- וגם כשאתה רוצה לסגור פערי-תוכן בתחום ספציפי - רפואה, משפטים, לא משנה מה - אתה יכול ללכת ולהקליט אותו ישירות.
- אז זה לא מושלם כמו לקחת שיחה חופשית - אבל זה עושה . . . אני חושב שזה יעשה את העבודה.
(אורי) בקרבות-הוויקיפדיה, יכולים כל הזמן לשנות לך את הזה, ואז התמלול לא יצא כמו ההקראה, אם היה רבע שעה בין אחד לשני . . .
- (יאיר) בתקווה אנחנו שומרים על Best Engineering Practices, ושומרים גם את הטקסט בצד.
(אורי) אוקיי. מה לגבי, אתה יודע, העברית היא שפה עתיקה, יחסית. השפה שלמשל תקרא בתנ״ך, או מקורות ישראל אחרים, היא שפה אחרת. זה מעניין?
- (יאיר) אני חושב שאצלנו ספציפית, זה לנו כרגע פחות קריטי.
- כי ברור שמה שהכי מעניין אותנו, זה שהעברית היומיומית שלנו תעבוד.
(אורי) המדוברת.
- (יאיר) נכון.
- אבל, יניר, שהוא פריק של כל הדברים האלו, מגיע אלינו מדי פעם עם . . .
- לדוגמא, עכשיו הוא הגיע עם דיון על ארמית . . . מסתבר שיש חוקרים בעולם, שזה מה שהם עושים.
- אז ארמית ספציפית - אין לנו הקלטות שלה, אבל, יש גם בעברית…
(אורי) אין פודקאסטים בארמית?
- (יאיר) יכול להיות שיש ואני לא מכיר . . .
(אורי) אכדית? שומרית?
(רן) צריך להקשיב לליל-הסדר קצת יותר, ותקבל שם לא מעט ארמית.
- (יאיר) למרות שאתה, בסיכוי מסוים, מתבדח לדעתי, יניר מכיר את התחומים האלו טוב.
- למרות זאת, יש...
(אורי) . . . . ומתומלל בכתב יתדות.
- (יאיר) אנחנו כן רואים גם אצלנו, שמגיעים סוגים שונים של עברית.
- לדוגמא, הרבה פעמים פונים אלינו עם תוכן שהוא תוכן חרדי, כן?
- רואים שמגיעים מכל מיני . . . או קווי טלפון, שאתה יכול להתקשר אליהם ולשמוע הרצאות, או הקלטות של רבנים.
- ואתה רואה מיד, שזה תוכן שונה, שהוא ניב שונה לגמרי של עברית.
- וחלק מהם - בוא נגיד שלא תמיד אנחנו יודעים איך להנגיש את זה, כי לא תמיד אנחנו יודעים אם המתמללים שלנו ידעו לתמלל את זה בסוף.
- אבל זה לגמרי קיים.
(רן) אוקיי. מעניין אתכם גם לשמוע דוברים שונים - למשל ילדים, או מבטאים שונים?
- (יאיר) זה ממש אחד המקומות שהכי חסרים.
(אורי) מבטאים יש הרבה . . .
- (יאיר) זה אחד המקומות שהכי חסרים לנו, ובצורה שהיא פוליטיקלי-קורקט לגמרי, אני אגיד ש...
- בוא נגיד, אני חושב שגברים אשכנזים - יש לנו הרבה.
- (רן) עשירים . . .
- (יאיר) נשים אשכנזיות יש פחות.
- דווקא הפרויקט של ההקלטות נועד לטפל בחלק מזה -
- ילדים, ובארץ שלנו: אתיופים, ערבים, עם כל . . . עם מנעד גדול, חרדים.
- כל הדברים האלו יש קצת יחסית ב-Data-Set-ים רגילים - וזה לא טוב.
- וכשאתה מקליט, זה לכאורה יותר קל להעשיר את ה-Data-Sets בזה.
(אורי) יוצאי ברית-המועצות יש לא מעט . . .
- (יאיר) נכון.
(רן) מעניין אם יש פה מקום, סתם ככה זורק רעיון, מקום לשיתוף פעולה משרד החינוך. נגיד, ילדים שלומדים לקרוא, גם יכולים להקריא - וככה אתה גם יכול להרוויח...
- (יאיר) אני חושב שהקושי שם ספציפית - וזו אחת הבעיות הגדולות עם לעבוד עם ילדים, ואפילו עם מבוגרים לפעמים - זה שאתה לא כל כך רוצה ללכת לנקות את ה-Data אחר כך . . .
- זאת אומרת, אם . . . אני מסוגל לדמיין יחסית בקלות, שאתה נותן לילד להקליט - ואז הוא מספר כמה בדיחות והולך לעשות משהו אחר.
- ואתה, אם אתה לא יודע כלום על האיכות של ה-Data שנכנס, זה קצת בעיה.
- אבל יש לנו כבר ילדים שהתחילו להקליט כל מיני סיפורים.
- יש כאן כל מיני בעיות . . .
- גם ילדים פחות יקליטו תוכן של וויקיפדיה - אתה צריך להביא ספרי ילדים.
- בשביל זה אתה צריך סופרים שיסכימו לתרום לך . . .
- יש לנו אחת שהסכימה, אבל זה לוקח זמן לארגן את הדברים האלה.
(רן) אוקיי.
28:47 עירוב של שפות, גדלים של מודלים וחומרה
(רן) סיפרתי שבעבר עשיתי איזשהו פרויקט של תמלול של תוכן בעברית, ומדי פעם השתרבבה לשם אנגלית, או צרפתית. זאת אומרת, יש לא מעט תכנים שיש להם עירוב של שפות.
האם מודלים יודעים להתמודד עם זה כמו שצריך? האם המודל שלכם אמור להתמודד עם זה?
- (יאיר) זה תלוי במודל.
- פרקטית, Whisper עושה עבודה די טובה שם, והמודל שלנו “אוכל את זה טוב”.
- לא מושלם, אבל ברוב המקרים הוא יודע לטפל בזה יפה.
(רן) שלכם?
- (יאיר) כן.
(רן) אבל איך? כל מה שהוא שמע זה רק עברית, אז איך הוא ידע?
- (יאיר) מבחינת Whisper, בסוף הוא מוציא Token-ים . . .
(רן) לא, שלכם. המודל שאותו אתם אימנתם.
- (יאיר) אנחנו וריאנט (Variant) של Whisper.
- לקחנו את Whisper ועשינו לו עוד Fine-tunning . . .
- זאת אומרת, בסוף היום, Whisper יודע להוציא Token-ים של כל השפות.
- אם אתה מראה לו ב-Data של האימון משפטים מעורבים - זה יעשה את העבודה.
- (יאיר) Whisper זה 1.5 מיליארד פרמטרים.
(רן) לא נורא . . .
- (יאיר) נכון, לא נורא.
- לצערנו, הוא לא רץ עדיין - הוא לא רץ על מחשב בלי GPU בצורה סבירה.
- מה שאומר שאם אין לך Mac אז נדפקת. אבל...
(רן) אם אין לך Mac, אז יתחממו לך הברכיים . . .
- (יאיר) אבל הגרסה הבאה שלו, שזה Whisper-Turbo
- שאנחנו עוד קצת נאבקים בלאמן אותה, אבל לשמחתי היום, בוא נגיד, בכל השנה הראשונה כמעט, כל דבר שרצינו לעשות אמר להוציא כסף מהכיס.
- רוצים לאמן מודל? 200 דולר. אלה החיים.
- ואם אתה לא יודע לאמן - אז כמה Cycel-ים כאלו של זה . . .
(אורי) 200 דולר הלכו על קירור . . .
- (יאיר) לשמחתי, אין לנו חומרה בבית, אבל עכשיו, נגיד היום ...
- (יאיר) נכון. נגיד היום, התקשר מישהו ואמר לנו “אני אשמח לתת לכם את הכסף, בואו תאמנו לנו מודל חדש”
- אבל לדוגמא, יש מודל עכשיו נפלא - בתקווה - שהוא איזשהו Variant של Whisper, זה Whisper-Turbo
- עובד הרבה יותר מהר, הוא מודל קטן בערך פי 2
- 700-750 מיליון פרמטרים, אני חושב.
- ואותו כבר אתה יכול להריץ על המחשב שלך, בקצב סביר.
- (רן) ב-CPU . . .
- (יאיר) כן. אז ברגע שנצליח לאמן אותו, אני מקווה ש...
(רן) כן, רק לפרופורציות - מודלי-שפה קטנים הם בדרך כלל 7 מיליארד, ופה אנחנו מדברים על 1.5 מיליארד, או 750 מיליון, שזה שבריר. ומודלי-השפה “האמיתיים”, הלא-קטנים, הם הרבה יותר גדולים - באיזור ה-40, 70 או 140 מיליארד.
- (יאיר) 400 . . .
(רן) 400, כן. אז סדר גודל הרבה יותר קטן - שזה נחמד.
ואתה אומר שה-Fine-Tunning הזה שאתם עושים עולה סדר-גודל של כמה מאות דולרים. כמה זמן לוקח, נגיד להריץ “מאפס”, על כל ה-Data שיש לכם?
- (יאיר) כן, אז בגדול זה לינארי בכמות של ה-Data.
- אני חושב שבפעם הקודמת, אימנו עם 180 שעות, משהו כזה.
- אך זה תלוי בחומרה, כי באמת, אתה יכול לעשות זה יותר מקבילי.
- אני חושב שזה לקח משהו כמו יומיים . . . יומיים - אבל של חומרה קצת יותר יקרה.
- זאת אומרת, אני חושב שלקחתי ארבעה GPU-ים, בו-זמנית, כדי...
(רן) כן, אוקיי.
(אורי) אגב, לערבית יש?
- (יאיר) Whisper יודע לעשות ערבית, אני חושב שלא מדהים.
- ואם היינו יודעים להשיג Data כזה, אנחנו גם מאוד רוצים. אם היינו יודעים להשיג יותר Data, היינו עושים את זה כנראה.
- בערבית, עד כמה שאני מצליח להבין - יניר הוא הבן אדם להסביר את זה בצד של השפה - אבל לערבית יש המון המון ניבים.
- וזה משהו שמשפיע.
- בעברית זה לא המצב.
- כאילו בערבית, כל מדינה כמעט שתלך - זה ישמע קצת שונה.
- (יאיר) הבעיה שאתה בצד השני - אתה רוצה לתמלל את זה, אתה רוצה שהם ידברו ותבין.
- אבל אולי אפשר להכין ממנו מנוע של Text-to-Speech באמת . . .
(אורי) כן, אבל אתה יודע - אפשר ליתר אותו . . . .
32:45 הפרדת דוברים
(רן) מה לגבי הפרדת-דוברים? איך עושים את זה? כלומר, יש כמה אנשים שמדברים - נגיד שיחה, אחד מדבר על השני, או...
(אורי) נגיד שאתה מקליד, מתייג פודקאסט . . .
(רן) חס וחלילה, כלומר, אנשים עולים אחד על השני . . .
(אורי) כן . . .
(רן) . . . . ומפריעים אחד על השני . . . .
[בשם צוות המתמללים וההנהלה, באמת המון תודה על זה]
- (יאיר) יש מספר דרכים, שזה נכנס מבחינתנו לאזורים של “אנחנו קצת מסתכלים עליהם, היינו רוצים להיכנס”
- אבל כולנו, כאילו, “חנוקים” מאינסוף דברים אחרים, כי הכל לוקח זמן.
- התחלנו להסתכל על זה קצת עכשיו.
- בגדול, יש חבילות שעושות את זה ברמות שונות של איכות.
- יש חבילה אחת שנקראת pyannote - די טובה.
- יש ל-nVIDIA משהו שנקרא NeMo - חבילה עם המון המון כלים.
- ויש להם Speaker Diarization בפנים, באיכות מסוימת.
(רן) לא צריך לדעת השפה? זאת אומרת, פשוט מסתכלים על מסיבת-קוקטייל ומפרידים את הדוברים?
- (יאיר) אז בהרבה מקרים, הם יודעים להסתדר יחסית בלי השפה.
- מה שיפה זה שלהרבה מהדברים האלו, אפשר לעשות Fine-Tuning.
- עכשיו נניח, שיש אנשים שיש להם פודקאסט קבוע [נניח].
- ונניח הם מקליטים עם Setup של מיקרופונים נפרדים [נניח]
- ואפשר לקבל גישה ל-Data הנפרד . . .
- אז א' - את התמלול מראש נכון לבצע על כל ערוץ בנפרד, ולחסוך את הדיון הזה.
- ואז אין בכלל עניין של הפרדת-דוברים - הדוברים מופרדים מראש.
(רן) כן, אבל זה באימון. אני מדבר על בזמן ה-Inference, אם יש לך מספר דוברים . . . .
- (יאיר) לא, אבל מה שאני אומר זה - בוא ניקח לדוגמה שיחת Zoom, כן?
- עשינו, אתה ואני - שיחת Zoom - והקלטנו אותה.
- אתה יכול לבקש מ-Zoom שייתן לך את ה-Data בערוצים נפרדים.
- (רן) נכון . . .
- (יאיר) . . . ואז אין שאלה - אתה תריץ Inference על כל אחד בנפרד, ותקבל את זה מתויג כמו שצריך.
- הרי כשאתה, לא יודע - חמש שנים אחורה, כשאתה עושה שיחה כזו ב-Zoom, ואתה רואה סימן של “זה הבן-אדם שמדבר”?
- זה נגזר מזה שהוא יודע מאיזה ערוץ זה מגיע.
- בגלל זה, אם יש חדר שכולם יושבים בו - אתה לא יודע מי זה.
- אז זה דבר אחד.
- אבל יש כלים שעושים דיאריזציה (Diarization) ברמה סבירה - זה פשוט לא מושלם, אנחנו לא שם.
(רן) כן. אבל יש חשיבות לשפה בעניין הזה, או שזה לגמרי אגנוסטי, וזה, כאילו, “ברמת הסיגנל”?
(אורי) נראה לי שזו בעיה שפתורה באנגלית - פתורה גם פה.
- (יאיר) אני חושב שהיא לא פתורה באנגלית . . . . אבל יש פתרונות סבירים.
- אני חושב שזה לא מושלם.
- אני חושב שה-Speech-To-Text עובד יותר טוב - והרבה פעמים זה בגלל שהוא מניח, חלקית, שזה דובר אחד . . .
(רן) כן.
35:11 הוראות שימוש ואיך אפשר לעזור
(רן) אוקיי, אנחנו כבר ממש לקראת הסיום. וזהו, רק רציתי, ככה, לחדד כמה נקודות.
- (יאיר) אם אתה רוצה להריץ לבד, אז או להיכנס ל-ivrit.ai או להיכנס ל-Hugging Face שלנו, ויש שם הוראות איך להריץ.
- יש לנו GitHub, שיש בו את 100% מהקוד שלנו, משוחרר בצורה חופשית כמובן.
- אם אתה רק רוצה לתמלל משהו קטן, אז עד שיגמרו לנו או הקרדיטים ב-AWS או הכסף ממקורות אחרים, יש לנו אתר ב-Home Page שלנו
- שאתה נכנס, יכול להעלות קובץ של עד שעתיים או משהו כזה.
- ואנחנו מריצים ומחזירים לך את זה פשוט מתומלל.
(רן) ואם אני רוצה לעזור לפרויקט - מה אני עושה? יכול להיות מפתח, יכול להיות קריין, יכול להיות אולי דברים אחרים שצריך? . . .
(אורי) מוציא את מספר כרטיס האשראי . . . .
- (יאיר) אז באמת - תמיכה במשאבי-מחשוב זה סופר-עוזר לנו.
- יש לנו Patreon, שאפשר לתמוך בו ב-ב-5 דולר לחודש, שזה מספיק לנו לכל מיני דברים חשובים, עדיין.
- לתמלל זה דבר נפלא. כן?
- זו עבודה - כמו הרבה מהדברים האחרים - יחסית כפוית-טובה, שמאוד עוזרת.
- והיום ספציפית - להקליט.
- כלומר, אם אתה מסוגל להגיע, ופשוט להקליט תוכן מוויקיפדיה, או להביא אנשים אחרים שיעשו את זה גם איתך, אז זו דרך בשבילנו לייצר המון תוכן.
(רן) כן, צריך איזה Mic? מה הדרישה שלכם?
- (יאיר) כל מיקרופון שיש לך . . .
- אם יש לך מחשב עם מיקרופון, או סמארטפון - זה יעבוד.
(אורי) אם יש מישהו עם משאבי-מחשוב פנויים?
- (יאיר) נשמח מאוד לקבל . . . כאילו, לקבל גישה.
(אורי) כמובן שצריך לעמוד באיזה-שהם, כאילו . . .
- (יאיר) GPU שיש לו 80Gb זיכרון עושה את העבודה.
- זה לא משהו בלתי אפשרי, זה לא סופר-סופר יקר,
- אבל אנחנו Obviously לא קונים אחד כזה הביתה . . . .
37:15 עד כאן
בהצלחה. להתראות.
- (יאיר) מה תודה? רגע, אין מתנות? אמרנו שיש מתנות . . . .
(רן) אה, זה בסוף הקלטה, אחרי שעוצרים.
(אורי) איזה GPU אמרת שאתה צריך . . .
האזנה נעימה ותודה רבה לעופר פורר על התמלול!
155 episódios
MP3•Home de episódios
Manage episode 453500608 series 2497397
Conteúdo fornecido por רברס עם פלטפורמה. Todo o conteúdo do podcast, incluindo episódios, gráficos e descrições de podcast, é carregado e fornecido diretamente por רברס עם פלטפורמה ou por seu parceiro de plataforma de podcast. Se você acredita que alguém está usando seu trabalho protegido por direitos autorais sem sua permissão, siga o processo descrito aqui https://pt.player.fm/legal.
פרק מספר 485 של רברס עם פלטפורמה, שהוקלט ב-27 בנובמבר 2024. אורי ורן מארחים באולפן בכרכור ביום גשום וקר אורח שהגיע עם שורטס וסנדלי-שורש: אולי פרק 500 יהיה כבר כולו מג’ונרט, אבל בינתיים, יאיר ליפשיץ בא לשיחה על (וב) Ivrit.ai.
(אורי) תגיד, רן - 485? אנחנו מתקרבים לפרק 500 . . . אולי נעשה עם משהו מיוחד לפרק 500?
(רן) אה, יש לי רעיון. שומע? אולי נעשה פרק שכולו מג'ונרט (Generated) ואנחנו לא נדבר, ובעצם יהיו Avatar-ים שידברו בשמנו . . . מה אתה אומר - יעבוד?
(אורי) האמת, טוב פרק אחד הפסקה - אבל נראה לך שזה אפשרי, בעברית?
(רן) האמת, שמעתי . . . אתה יודע, יש לא מעט כאלה שעושים את זה באנגלית, נגיד NotebookLM ואחרים, שיודעים לעשות את זה כבר מאוד יפה, באנגלית . . .
(אורי) מייתרים אותנו, רן. מייתרים אותנו . . .
(רן) אלא - שלנו יש את היתרון של עברית!
(אורי) כן . . .
(רן) אוקיי וזה היה הרמז - אם לא ניחשתם עד עתה . . .
אז אני מניח שללא מעט מכם יצא לכם להכיר מנועי-שפה ולהכיר בכלל תוכן וכלים, שיודעים לעבוד לא רע בשפות זרות - כנעניות וכו’.
01:47 יאיר
(רן) אז יאיר - שוב ברוך הבא, וסליחה על ה-Intro הארוך, אבל היום אנחנו הולכים לדבר על פרויקט קהילתי, שאתה בין המובילים שלו. פרויקט מאוד חשוב ומאוד מאוד מעניין שנקרא Ivrit. פשוט ככה, כמו ששומעים - ככה כותבים. [כמו שאיתמר בן אב”י התכוון לכתוב עברית]
הפרויקט הזה שם למטרה שלו לאסוף חומר בעברי , על מנת שהאלגוריתמים יוכלו להתאמן עליו - ועל זה תספר לנו בהמשך.
- (יאיר) מעולה. קודם כל - הכל נכון. אני חושב שברור מאליו ששום דבר ממה שעשינו לא עובד.
- נספר על זה עוד מעט . . .
- לגבי - עבדתי הרבה שנים באינטל, בהתחלה בתור מפתח, אחר כך בתור ראש-צוות.
- ב-2015 עברתי לסטארטאפ שנמצא כאן, בקיסריה.
- מתעסק בצ'יפים (Chips) - Leaba Semiconductor, עושים Chip-ים לרשתות.
- הגעתי שם לנהל את אחד מצוותי התוכנה.
- עבדתי שם חמש שנים וקצת, כלומר - הגעתי בתור אחד החבר’ה הראשונים, לעשות ארכיטקטורה של הצד של התוכנה [תזמון קוסמי לפרק הקודם - 484 Architect WTF with Shai Yallin and Ron Klein]
- תוכנה-לחומרה זה תמיד סוג קצת שונה ויש לו את את האתגרים שלו.
- כשעזבתי שם, כבר ניהלתי חלק די גדול מהארגון הזה - 40 ומשהו איש, ועוד חבר’ה בחו”ל.
- וזהו, בתחילת 2020 הייתה הקורונה - אשתי הייתה עוד בלימודים שלה, היה זמן מעולה להפסיק לעבוד בכלל . . .
- ישבתי עם הילדות בבית, וכל פעם ששמעתי אנשים מתלוננים על זה ש”היום מישהו צריך להישאר עם הילדים”, אמרתי “הכל טוב, אני גם ככה בבית, לא אכפת לי מכלום” . . . .
- וזהו - ומאז אני עושה בעיקר פרויקטים שלא למטרות רווח.
- כן עושה הנדסה, כן עובד בתור יועץ - אבל חלק די גדול מהזמן שלי הולך לכל מיני סוגים של Non-Profit.
- חלק מהם לא טכנולוגיים - Ivrit.ai זה כן פרויקט טכנולוגי, שאנחנו עובדים עליו מ . . . חושב שאמצע 2023, משהו כזה, שנה-וקצת.
- (יאיר) כשהתחלנו . . .
(רן) . . . יש הטוענים כך . . .
- (יאיר) כשהתחלנו - לפני שנה וקצת, נגיד סוף מאי 2023 - ChatGPT התחיל לתפוס תאוצה.
- שיחקתי איתו, אמרתי “וואו, זה עובד מדהים!”
- יש להם מנוע שנקרא Whisper, שעושה בעצם Speech-to-Text, גם עובד מדהים.
- [וגם מייצר את התמלול הראשוני לפרקים האלה, בערך מאז…]
- אשתי רופאה, אז אמרתי “טוב, איך נחבר את זה אליה?”
- שבעצם, ה-AI כבר ייתן המלצות, שהוא יעשה חלק מהעבודה . . .
- ודי מהר התברר שהפער הכי גדול הוא שהכל עובד אחלה - עד שאתה מגיע לעברית . . .
- זאת אומרת, גם לפני שנה וחצי, להגיד ל-GPT4 “אדוני, הנה Audio - תבין מה . . . “
- אבל ברגע שאתה רוצה - “רגע, אני רוצה להפעיל את זה בארץ!”
- ויש לנו אינטרס-מובנה שדברים יעבדו כמו שצריך
- אז הדברים עובדים פחות טוב . . .
- לפני שנה וחצי, התחושה שלנו הייתה-שמודלי שפה כמו ChatGPT יצליחו לסגור את הפער בעברית לבד.
- לעומת זאת, תמלול - כל הקטע של גם דיבור אל המודל וגם זה שהמודל ידבר אליך בחזרה
- גם ג’ינרוט (Generation )של קול וגם תמלול
- זו בעיה שהיא מאוד שונה . . .
- צריך דוברי-עברית כדי לעבוד עליה - אי אפשר לקחת עכשיו מהנדס באיזושהי גיאוגרפיה אחרת ולהגיד לו “טוב, בוא תעשה Scraping לכל האתרים בעברית” ולעבוד עליה.
- אם אתה לא דובר את השפה - לא תוכל לתייג עכשיו . . . לא תוכל לקחת, לדוגמא, את הפודקאסט שלנו ולתמלל אותו [שלום…]
(רן) כלומר, רגע למה צריך תמלול? [רגע, מה? . . . ] - זאת אומרת, למה לא פשוט את האודיו?
- (יאיר) האודיו זה בעצם ערוץ שמעביר הרבה מידע בזמן קצר [ד”ש למאזינינו ב x2.5].
- רוב האנשים מדברים הרבה יותר מהר ממה שהם מתקתקים.
- אז זה הרבה יותר יעיל - ויש המון אנשים שלא ישבו לתקתק במחשב . . .
- אפילו אני היום, כשאני עובד עם ChatGPT . . .
(רן) לא, לא, סליחה. השאלה שלי טכנית - למה אתה צריך את האודיו וגם את התמלול שלו? למה לא מספיק את האודיו, לצורך למידת-מכונה?
- (יאיר) אז יש סוגים, ש דרכים שונות ללמוד איך לעשות Speech-To-Text.
- אחת הדרכים האלה נקראת Unsupervised Learning - זאת אומרת, אני לוקח אודיו, בלי טקסט שמצורף אליו, ומנסה לבנות מעל זה מודל שיתמלל, או שיעשה רוב עבודת-התמלול.
- לדוגמא, אתה יכול - המנוע יכול - בצורה כזו לזהות סוגי-דיבור דומים, לעשות Clustering למילים . . .
- ובסוף, אתה לוקח עוד קצת תוכן - ואותו אתה מתמלל ידנית.
- אז בעצם אתה עובד בכמה שלבים
- יש לדוגמה מנוע של Facebook, של Meta, שנקרא Wav2vec - שזה מה שהוא עושה.
- המוצר שאנחנו מכירים - או המנוע שאנחנו מכירים שעובד הכי טוב - נקרא Whisper
- מנוע של OpenAI - באנגלית, עושה עבודה מדהימה.
- כשאני מדבר איתו, אני אפילו לא בודק האם הוא תמלל אותי נכון או לא - אני פשוט אומר לו “שלח את השאלה”, עובד מעולה.
- והוא עובד בצורה שנקראית Weakly Supervised.
- הם אומרים “תן לנו Data מתומלל” - כלומר, גם את האודיו וגם את התמלול - “אנחנו יודעים שחלק ממנו יהיה זבל - וזה בסדר” . . .
- נעשה מיצוע על מספיק Content, זה יהיה בסדר.
- אז אנחנו בעצם רצינו לייצר . . . אמרנו, אנחנו רוצים לפתור חלק אחד ספציפי - נייצר Data-set כזה, מתוך הבנה שלהרבה חברות אין מוטיבציה גדולה ללכת לטפל עכשיו בעברית.
- אבל אם “תדחף להם את ה-Data” - עם רישיון מתאים ובחינם - הם ייקחו אותו, לא אכפת להם . . .
- הם פשוט לא רוצים לבזבז על זה זמן או כסף בעצמם.
(רן) אז ההבדל בין, נגיד, מנועי-שפה לבין מנוע-תמלול כזה, זה שמנועי-שפה יכולים להתאמן בשיטה שהיא Self-Supervised - כלומר, להסתכל על הררים של טקסט ומדי פעם להחביא מילה ולנחש את המילה הבאה וכל זה, והם לא צריכים הרבה Data מתויג - הם צריכים Data “בסדר”. הם צריכים Data נקי, יחסית. זאת אומרת, אם תזרוק לו
ג'יבריש אז זה לא יעזור לו, אבל כל עוד ה-Data הוא באנגלית - וויקיפידיה וכאלה - הם סבבה עם זה.
אבל במנועי-תמלול, אתה אומר שצריך את ה... זאת אומרת, לפחות בשיטה שהזכרת, צריך את המיפוי הזה - בין
ה-Audio-stream לבין התמלול שלו - וככה אתה יכול לייצר בעצם למידה ברמה הכי גבוהה.
(אורי) תגיד, גרמנית וצרפתית וספרדית - עובדות טוב?
- (יאיר) עובדות טוב, כן.
- זאת אומרת, אני לא רוצה להגיד שהן עובדות ברמה של האנגלית . . .
- רק כדי לתת איזושהי תחושה למספרים - Whisper עצמו, כש-OpenAI שחררו אותו, הם שחררו גם מאמר ליד.
- והוא פתוח לגמרי, ה-License שלו פתוח לגמרי - אתה יכול לעשות לו מה שאתה רוצה.
- אז כש-OpenAI שחררו אותו, שחררו גם מאמר איתו - ויש שם טבלה, שאומרת כמה שעות-תוכן הכניסו מכל שפה.
- מאנגלית, אם אני זוכר נכון, הכניסו בערך 200 אלף שעות.
- אני חושב שגרמנית, ספרדית - היו באזור העשרת-אלפים, אולי קצת יותר או קצת פחותץ
- עברית - היו 680 . . . שאף אחד לא יודע מאיפה הן הגיעו.
- אז זה ה-Scope.
- בהתאם לזה, אנגלית עובדת מדהים ב-Whisper . . . אני חושב שהשפות האחרות, הנפוצות - גרמנית, ספרדית - עובדות טוב.
- לא מושלם, אבל עובדות טוב מאוד.
- ועברית . . . איך אומרים? Your mileage may vary - אז זה זה . . .
(אורי) אבל זה רק עניין של” חסר תוכן” . . .
- (יאיר) תלוי את מי אתה שואל . . . יש אנשים שאומרים “עברית היא שונה מכל מה שאנחנו ראינו בינתיים”.
- אבל התשובה היא שבעיקר חסר תוכן.
(אורי) אוקיי, זאת אומרת שאם אנחנו נגיע לעשרת-אלפים שעות . . .
- (יאיר) מתויגות היטב - אז כן.
(אורי) נהיה טובים “כמו הגרמנים”.
- (יאיר) יותר יפים - אבל כן.
(אורי) שזופים . . .
09:58 מנועים אחרים ומשמעות הפרויקט
(רן) דרך אגב, הזכרת הרבה את Whisper, אבל לפני אולי שנה, אולי קצת יותר, עשיתי כמה בדיקות - גם הייתי צריך לתמלל מסה של אודיו בעברית. הייתי צריך לתמלל את זה, ובדקתי את Whisper לעומת “החבר של גוגל”, שכחתי איך קוראים לו [?Gemini] . . . ודווקא ההוא - של גוגל - נתן תוצאות קצת יותר טובות.
יחד עם זאת, הרבה-הרבה מתחת לתוצאות באנגלית . . . זאת אומרת, באופן ברור. אני חושב שאולי גג הצלחתי להגיע לדיוק של 80% בעברית, בזמן שבאנגלית זה “נושק ל-90 הגבוהים”.
- (יאיר) ל-Whisper יש יתרונות אחרים - לדוגמא, הוא מפסק, שזה דבר נפלא. פסיקים, נקודות . . .
- אבל אני חושב שזה נכון. אנחנו, עד לפני כמה חודשים, ל-AWS יש את Amazon Transcribe, שעד לפני כמה חודשים הם נתנו לנו בראש.
- עדיין את Whisper הם אוכלים בלי מלח.
- ואותנו . . . .
- (רן) בעברית?
- (יאיר) . . . הם עשו עבודה משמעותית יותר טובה ממה שאנחנו עושים בעברית - אבל זה כבר לא המצב.
- אבל כן.
(רן) אז משמעות הפרויקט זה למעשה לאסוף תוכן-אודיו בעברית - את המיפוי שלו לטקסט בעברית - וגם לאמן את המנוע Transcription?
- (יאיר) כן. התחלנו מלאסוף את התוכן.
- הלך יותר מהר ממה שחשבנו, וכן - “עם האוכל, בא התאבון”.
- ראינו שזה עובד טוב, ואמרנו שגם לא נחכה - וגם לא ברור שיש מישהו לחכות לו . . .
- עכשיו אנחנו כבר בגרסא השלישית ששחררנו - שעליה כבר יש תוצאות יפות.
- זאת אומרת, היא On-par עם Amazon לגמרי - כשהיא בחינם.
- ואני משער שהגרסא הבאה תיהיה יותר טובה . . .
(אורי) סתם, מעניין אותי - יש קובץ קול ויש טקסט, יש תמלול וכו’. מי עושה את ה-Syncing? או שהוא יודע להבין את זה לבד?
- (יאיר) כשאתה אומר...
(אורי) יש אנשים שמדברים לאט, כמוני, על הפנים - ויש אנשים שמדברים יותר מהר. איך הוא מבין, כאילו, איפה אתה בטקסט?
- (יאיר) אז אתה שואל מבחינת השלב של ה-Inference או של האימון?
(אורי) של האימון, לצורך העניין.
- (יאיר) אז האימון ב-Whisper . . . עכשיו, חשוב להגיד - אני לא מהנדס AI.
- אני חושב שברוב הדברים אנחנו יכולים לעשות עבודה טובה עם ידע בינוני.
- הרי ככה, ברוב ההנדסה, אתה לוקח Component שאתה מבין חלק ממנו . . .
- פרקטית, Whisper עובד במקטעים של 30 שניות
- אתה אומר לו “אדוני, הנה קטע של עד 30 שניות - הנה הטקסט שלו.
- הוא לא שואל אותך מה תזמון בפנים.
(אורי) כן . . . זאת אומרת, זה לא שיכולים להיפתח פערים מאוד גדולים, עם קצבי-דיבור שונים.
- (יאיר) נכון.
- זה כן מייצר לך . . . זה כן מעניין, כשאתה מסתכל על איך נראה Inference, על חלונות של מעל 30 שניות ואיך שהם עושים את זה.
- ויש להם כל מיני אלגוריתמים רגילים, שעושים Stitching
- זאת אומרת, נריץ 30 שניות - אבל אז נזיז את החלון נגיד ב-15 שניות קדימה וננסה שוב.
- פרקטית, הוא עובד על 30 שניות.
13:08 מי עוד שם?
(רן) אני רוצה עוד מעט להיכנס לפרטים הטכניים, אבל בוא רגע נסיים את ה-Overview על פרויקט.
- (יאיר) כן. אז אנחנו התחלנו שלושה חבר'ה - אני; יניר מרמור - שהוא מסטרנט (M.Sc.) במכון ויצמן, במדעי המחשב; [ד”ר] כנרת משגב - שהיא מנהלת יחידה של חקר נתונים בהדסה, בבית החולים.
- ולפני כמה חודשים, הצטרף אלינו יועד סנפיר, שהוא גם מהנדס עם אינסוף ניסיון.
- ובין כולנו אנחנו מתכללים
- א' - הבאה של ה-Dataץ
- ב’ - כל מיני צדדים של Legal - יש עורך דין, זה עורך הדין אלי גריבאום,.
- שבגדול מתעסק ב-IP, ושעוזר לנו מאוד.
- למשל, עזר לנו מראש לבנות את ה-License שלנו, ככה שכל מי שתורם לנו Data - הוא חותם מראש על License מתאים וכו’, שנוכל לשחרר הכל.
- אבל זה בגדול “אנחנו”.
(רן) וכולכם בהתנדבות?
- (יאיר) נכון.
(רן) וחוץ מכם - יש עוד אנשים שנותנים פה ושם שעות ועוזרים?
- (יאיר) קודם כל, תמללנו עד היום, בכל מיני צורות כאלו של תמלול-המונים, מעל 300 שעות.
- בתור Reference, ה-Data-set הכי גדול שהיה לפנינו בעברית, היה של 20-30 שעות.
- הרבה מזה זה Data-sets של כל מיני אנשים שמקריאים - מקריאים את הברית החדשה או דברים כאלו . . .
- אז כאן, מאחורי זה, יש כמה מאות מתנדבים שישבו ותמללו משפט-משפט - אז זה המון-המון עבודה.
(רן) כן. אז קודם כל אני חושב שעפר [הי!], שעושה לנו הרבה מאוד עבודת תמלול, וגם חיבר בינינו למעשה, ישמח לשמוע את זה [אכן], ויכול להיות שגם תוכל להשתמש בתוכן שלנו, אז נשמח אם תעשה את זה.
(אורי) על 485 פרקים . . . יש לך שעות.
(רן) כן, ומאותו רגע אתה יכול להפיק בעצמך פודקסטים, להשתמש בקול שלי ושל אורי - וזהו . . .
כן, באמת - יש פה את גם האספקט הזה’ או שזה רק תמלול? כלומר, יש פה גם אספקט של Generation, בהמשך?
- (יאיר) יש . . . היו לנו כמה שיחות מעניינות על זה.
- יש גופים בארץ, שזה מעניין אותם לא רק לייצר את זה - כאילו, לא רק לעשות Text-to-Speech, אלא גם לעשות Text-to-Speech שיהיה “תקני”.
- זאת אומרת, שיעמוד באמת בכללים של השפה.
- זה משהו שרק עכשיו התחלנו להסתכל עליו יותר.
(אורי) יש לי הרגשה ש...
(רן) מאזיננו אבשלום . . .
- (יאיר) בלי שאני מגיב על זה ישירות, זה . . . אני חושב שזה דברים נפלאים.
- כי המטרה - מבחינתנו, אחת המטרות הגדולות שלנו מראש, הייתה להגיד “אף אחד לא יעשה את העבודה”.
- כאילו, לא יעשה את העבודה הזו בתשלום, כי הקהל הוא לא מספיק גדול.
- אבל אם עושים את זה טוב - גם Speech-to-Text וגם Text-To-Speech - אנחנו “נשפיע על התל”ג”.
- כי בסוף היום, אם אמא שלי צריכה להתקשר כדי להתנתק מ-HOT, למשל - [היפותטי לחלוטין, למה שמישהו ירצה לעשות דבר כזה?], אם היא הייתה מחוברת אליהם עדיין.
- והיית רוצה שכשהיא מתקשרת, מיד יענה מישהו בצד השני - גם אם הוא מחשב שכנראה ינתק אותה יותר מהר, אני מקווה - ובשביל זה, אתה צריך גם להבין מה היא אומרת, וגם לענות לה.
- ושני הכלים האלו, כמו המון פעמים בתוכנה - יש המון דברים שאם תקבל בחינם, אתה תשתמש מיד, ואם לא תקבל בחינם, אתה לא תשתמש בכלל.
- אז אנחנו...
(רן) כן, אני חשבתי שתיקח את זה בכיוון אחר: אמא שלך צריכה להתנתק, המשימה נופלת עליך - ולך אין כוח לעשות את זה, אז אתה תפעיל את הרובוט. . .
- (יאיר) אותי הם אוהבים יותר - כשאני מתקשר, מנתקים מיד.
16:47 אספקטים של חוקיות, סקלרט והתבורי’ס
(רן) אוקיי, אז דיברת קצת על אספקט של חוקיות וכל זה - אז לצורך העניין, אם אני תורם את הקול שלי, האם אחר כך גם תוכל להשתמש בקול שלי כדי “לייצר רובוט”, נקרא לזה? [ד”ש לפרוייקט רובו-שאול]
- (יאיר) אז כשניסחנו את הרישיון, היה חשוב לנו להגן, בעצם, על כל הצדדים, שזה אומר - א’ . . .
(אורי) רן, הקול שלך זה נחשב תרומת-איברים . . .
(רן) ברבים, כן.
- (יאיר) בעצם רצינו לוודא
- א' - שמי שלוקח את התוכן - והרבה פעמים הוא חברה לא-ישראלית וכל הדברים האלו לא מעניינים אותה - הוא צריך להרגיש מוגן לגמרי.
- ולכן מה שכתוב, זה היה צד אחד.
- הצד השני היה שבאמת מי שתורם את זה, לא ידאג שמחר אנחנו נעשה “פעלולים”.
- מה שקרה אפקטיבית כתוצאה מזה, זה שניסחנו רישיון שכתוב בו
- א' - מותר, עם ה-Data שאנחנו מנגישים, לאמן מודלי AI בצורה גורפת.
- מותר להשתמש בהם לכל שימוש חוקי.
- זאת אומרת, אם לקחת את ה-Data הזה, בנית מודל ועכשיו אתה רוצה למכור אותו - אם אני עשיתי את זה, אתה לא יכול לבוא ולהגיד לי “אבל זה היה ה-Data שלי!”.
- אלה החיים . . . ברור שם בוודאות שאתה לא תקבל שום פיצוי על זה.
- זה מצד אחד . . .
(אורי) בוא נדבר אחר כך על הזכויות של הקול של רן . . .
- (יאיר) הצד השני הוא שיש שם סעיף אחד שמוחרג, וזה כתוב: “Deep-Fake-ים אסור לעשות”.
- אנחנו לא רוצים מצב שמישהו יתרום, ובסוף יידפק מזה איכשהו.
- אז אפשר לעשות את זה - מי שרוצה בכל מקרה לעשות את זה בצורה לא-חוקית, לא היה צריך את הרישיון שלנו.
- אבל מי שעובר דרך הרישיון, אז זה מוחרג שם.
(רן) כן. היה סיפור די מפורסם בהוליווד, לפני כשנה, עם שחקנית - שכחתי את שמה - אבל שחקנית מפורסמת, שרצו להשתמש בקול שלה לצורך . . .
- (יאיר) Scarlett Johansson עם OpenAI . . .
(רן) . . . Scarlett Johansson, כן - שלצורך אני חושב פרסומת או איזשהו משהו . . . והיא לא הסכימה. ולמרות זאת הם עשו את זה, אם אני זוכר נכון - והיא תבעה אותם.
אז אני מקווה שאני זוכר את הסיפור יפה, אבל זה עניין, אוקיי? זה עניין. זאת אומרת, יש לה קול שמזוהה היטב איתה, ואם מישהו שומע את הקול שלה, זה מייצר איזשהו Creditability, והיא לא תיתן את זה בחינם, ובטח שלא למען מטרות שהיא לא מאמינה בהן.
אז כן, אז יש פה עניין עם Fake-ים - קראת לזה “Deep-Fake”, אבל שימוש של קול באופן עקרוני. אפשר לחשוב גם על יוצרי-פודקאסטים [מישהם ספציפיים?], ש”אוקיי, אז עכשיו כל מה שאני צריך זה לייצר איזשהו טקסט, ולתת לצורך העניין לאמסטרדמסקי או לתבורי להקריא את זה בשבילי!” - ואני לא צריך ממנו “טובות”, כי יש לי כבר את הקול שלו . . . אז יש פה איזשהו עניין.
(אורי) לאיזה תבורי אתה מתכוון?
(רן) אני לא אפרט . . . יש לפחות שלוש בחירות טובות.
אז אז כן, יש פה איזשהו עניין. ברמה הטכנולוגית זה מאוד מעניין, ברמה המשפטית זה כנראה מעניין לא פחות.
19:45 סקירת מצב עם סימני פיסוק
(רן) אוקיי, אז דיברת על איזשהו אוסף של שעות שאליהן הגעתם, אז תן לנו רגע איזושהי סקירת מצב: איפה אתם היום ומה המטרה שלכם?
- (יאיר) אז ככה: יש לנו כמה חזיתות.
- דבר אחד - אנחנו מאוד מתאמצים ליצור Benchmark ברור לתמלול בעברית.
- יש Benchmark-ים כלליים לתמלול - ה-Data-set-ים שיש בעברית הם נוראיים לזה.
- התחלנו ליצור Leader-Board ממש - יש לנו איזשהו עמוד שאתה יכול להיכנס אליו ולהגיד: “הנה סדרה של Benchmark-ים והנה איך כל מנוע עובד עליהם”.
- זה בעיקר נועד כדי שיבוא מישהו יותר חכם מאיתנו, יוציא מנוע יותר חכם - ובתקווה יגיע למקום הראשון.
(רן) זאת אומרת, Benchmark זה אוסף של Audios, התמלול הנכון שלהם ואיזושהי בדיקה של עד כמה התמלול שהפקת קרוב ל-”Golden”.
- (נכון) נכון, ובשביל זה לקחנו מתנדבים - כש”מתנדבים”, במקרה הזה, זו אחותי . . . .
(רן) . . . התנדבה בעל כורחה . . . .
- (יאיר) ואמרתי לה “הנה טקסטים מאוד ארוכים - בבקשה תמללי אותם “ברמת האות” - כמה זמן שזה ייקח, זה ייקח”.
(רן) דרך אגב, הזכרת מקודם “פיסוק” - אז את זה אתם גם עושים?
- (יאיר) Whisper עושה את זה “באופן טבעי”.
- אנחנו, בחלק מה-Data-set-ים שלנו יש את זה, ובחלק לא.
(רן) אבל זו מטרה אצלכם? או שאתם כרגע...
- (יאיר) זה לא מטרה - אבל בוא נגיד שלשמחתנו זה פשוט עובד. אנחנו . . .
- חלק מהפעילויות החדשות שאנחנו עושים יגרמו לזה לקרות באופן טבעי, אבל עד היום זו לא הייתה מטרה.
(רן) דרך אגב, על ניקוד יש מה לדבר, או שזה בכלל סרט אחר?
- (יאיר) זה סרט אחר.
- אם אתה מכיר את איך שהוא עובד לעומק, אז הוא די פתור כבר . . .
- קודם כל, יש כלים של נקדן.
- יש מקרים שבהם יש Ambiguity בטקסט והם לא תופסים - זה די פתור . . .
(רן) . . . כ-Post-processing. זאת אומרת, כשיש לך את הטקסט, אתה יכול להפעיל עליו נקדן. ברוב המקרים זה יעבוד ואתה לא צריך בהכרח מאודיו. למרות שלפעמים, האודיו יכול לרמוז לך . . .
- (יאיר) נכון, אבל לפעמים, בהרבה מהם הדובר ידבר בצורה שבה זה . . . שאם תנקד לפי איך שהוא דיבר, תעשה עבודה לא טובה.
(רן) כן, כן.
- (יאיר) יש לנו Data-set-ים - שזו בעצם המטרה הראשונה שהייתה לנו - כמה Data-set-ים גדולים, שמונגשים.
- אחד זה של אודיו לא מתויג - יש לנו שם כבר הרבה מעבר לעשרת-אלפים שעות.
- אני חושב שאנחנו כבר מעל חמש-עשרה, אבל לא רוצה לחתום על זה בלי שאני בודק שוב.
(רן) איזה סוגי אודיו יש? זאת אומרת - הקלטה אולפנית? מה אתם צריכים שם? איזו איכות?
- (יאיר) רוב מה שיש לנו זה פודקאסטים [קרדיטים].
- היינו שמחים להוסיף לזה תוכן כמו שיחות טלפון, שיחות של מוקדי שירות לקוחות, שיחות של רופאים, עורכי-דין וכו’.
- אין לנו המון מזה.
- אז זה מה שמאוד, היינו שמחים להוסיף.
(אורי) בטח גם יהיה קשה, מבחינת פרטיות, להביא את זה.
- (יאיר) נכון. יש דרכים לעקוף את זה לפעמים, שאנחנו התחלנו לעבוד עליהן - וזה בהקלטה.
- זאת אומרת, תראה: אני לא יכול עכשיו להקליט את השיחה שלי עם מטופל, אבל אני כן יכול לעשות סימולציה לשיחה כזו.
- ולפעמים, אתה אפילו יכול לכתוב את הטקסט של הסימולציה הזו מראש, ואז לא צריך לתמלל אחר כך . . . .
(רן) אבל יכול להיות שאתה . . . שמספיק להשתמש בפודקאסטים בתחום. כאילו, תיקח פודקאסט-”משפטי” - יכול להיות שיהיה לך את ה-Corpus של העולם המשפטיף מאשר...
- (יאיר) זה נכון, וזו שאלה של . . . בוא נגיד, באופן טבעי יחסית, כמות הפודקאסטים הכי גדולה שתמצא מחוברת לעולם הטכנולוגיה.
- ולכן, לא סתם כלים כמו ה-Whisper עושים עבודה . . .
- כאילו, אם אתה מנסה לדבר איתו על מושגים טכנולוגיים - הוא עושה עבודה מדהימה, הוא תמיד כמעט יפגע.
- גם מושגים שאני אומר “רגע, אפשר היה לתמלל את זה בהמון דרכים שונות” - אם זה מושג מהעולם “שלנו”, הוא יפגע בו, כמעט תמיד.
- אבל יש לנו בעצם . . . אז יש לנו המון המון Data שהנגשנו כבר, שהוא Data “גולמי”.
- וזה - יש אנשים שלקחו אותו והשתמשו אותו בו כבר לכל מיני דברים.
- יש לנו גרסה שנייה, שזה Data שחתכנו - בעצם, לקחנו את הגולמי, חתכנו אותו לסגמנטים (Segments) הרבה יותר קצרים, של עד 30 שניות, ונתנו לאנשים לתמלל.
- הנגשנו Data-set כזה - אני חושב שאתמול הנגשתי אחד כזה . . . .
- יש שם כבר מעל 300 שעות שמוכנות - ועם זה אפשר לאמן מודלים.
- אז זה דבר שני, ועכשיו…
23:56 פרויקט ההקלטות החדש
(רן) כמה זמן לוקח להפיק את אותן 300 שעות? אז אתה אומר “מקטעים של 30 שניות” - כל אחד צריך לתמלל בצורה די מדוקדקת. כמה עבודה זה?
- (יאיר) אז די-מדוקדקת . . . קורה שאתה טועה, זה בסדר.
- אנחנו מחשבים את זה בתור 1 ל-5, כן? 1 ל-4, 1 ל-5.
- זאת אומרת שעה של תוכן - ייקח לך 5 שעות של עבודה.
(אורי) שזה בעצם הצוואר בקבוק של כל הסיפור . . . [הי!]
- (יאיר) נכון, ובשביל זה התחלנו עכשיו עוד פרויקט, שכל מי שרוצה לעזור בו סופר-מוזמן.
- פרויקט של הקלטות - שאנחנו בעצם אומרים “תיכנס, תבחר איזה עמוד שאתה רוצה מוויקיפדיה - ותקליט”.
- אז אתה עם המקלדת - אתה מסמן בכל פעם שאתה עובר לפסקה הבאה, לוחץ רק “Next”
- ואז אנחנו בעצם מקבלים כאן תוכן שגם אנחנו יודעים מראש מה תמלול שלו, אז לא צריך להתאמץ.
- וגם הוא מתוזמן - אז אנחנו יכולים אחר כך לקחת “ולהדביק אותו”.
- אז זה די בהתחלה. יש לנו עכשיו, הוצאנו מזה בינתיים 12 שעות
- אבל גם זה הרבה יותר קל לעשות . . .
- גם זה קצת ממכר
- וגם כשאתה רוצה לסגור פערי-תוכן בתחום ספציפי - רפואה, משפטים, לא משנה מה - אתה יכול ללכת ולהקליט אותו ישירות.
- אז זה לא מושלם כמו לקחת שיחה חופשית - אבל זה עושה . . . אני חושב שזה יעשה את העבודה.
(אורי) בקרבות-הוויקיפדיה, יכולים כל הזמן לשנות לך את הזה, ואז התמלול לא יצא כמו ההקראה, אם היה רבע שעה בין אחד לשני . . .
- (יאיר) בתקווה אנחנו שומרים על Best Engineering Practices, ושומרים גם את הטקסט בצד.
(אורי) אוקיי. מה לגבי, אתה יודע, העברית היא שפה עתיקה, יחסית. השפה שלמשל תקרא בתנ״ך, או מקורות ישראל אחרים, היא שפה אחרת. זה מעניין?
- (יאיר) אני חושב שאצלנו ספציפית, זה לנו כרגע פחות קריטי.
- כי ברור שמה שהכי מעניין אותנו, זה שהעברית היומיומית שלנו תעבוד.
(אורי) המדוברת.
- (יאיר) נכון.
- אבל, יניר, שהוא פריק של כל הדברים האלו, מגיע אלינו מדי פעם עם . . .
- לדוגמא, עכשיו הוא הגיע עם דיון על ארמית . . . מסתבר שיש חוקרים בעולם, שזה מה שהם עושים.
- אז ארמית ספציפית - אין לנו הקלטות שלה, אבל, יש גם בעברית…
(אורי) אין פודקאסטים בארמית?
- (יאיר) יכול להיות שיש ואני לא מכיר . . .
(אורי) אכדית? שומרית?
(רן) צריך להקשיב לליל-הסדר קצת יותר, ותקבל שם לא מעט ארמית.
- (יאיר) למרות שאתה, בסיכוי מסוים, מתבדח לדעתי, יניר מכיר את התחומים האלו טוב.
- למרות זאת, יש...
(אורי) . . . . ומתומלל בכתב יתדות.
- (יאיר) אנחנו כן רואים גם אצלנו, שמגיעים סוגים שונים של עברית.
- לדוגמא, הרבה פעמים פונים אלינו עם תוכן שהוא תוכן חרדי, כן?
- רואים שמגיעים מכל מיני . . . או קווי טלפון, שאתה יכול להתקשר אליהם ולשמוע הרצאות, או הקלטות של רבנים.
- ואתה רואה מיד, שזה תוכן שונה, שהוא ניב שונה לגמרי של עברית.
- וחלק מהם - בוא נגיד שלא תמיד אנחנו יודעים איך להנגיש את זה, כי לא תמיד אנחנו יודעים אם המתמללים שלנו ידעו לתמלל את זה בסוף.
- אבל זה לגמרי קיים.
(רן) אוקיי. מעניין אתכם גם לשמוע דוברים שונים - למשל ילדים, או מבטאים שונים?
- (יאיר) זה ממש אחד המקומות שהכי חסרים.
(אורי) מבטאים יש הרבה . . .
- (יאיר) זה אחד המקומות שהכי חסרים לנו, ובצורה שהיא פוליטיקלי-קורקט לגמרי, אני אגיד ש...
- בוא נגיד, אני חושב שגברים אשכנזים - יש לנו הרבה.
- (רן) עשירים . . .
- (יאיר) נשים אשכנזיות יש פחות.
- דווקא הפרויקט של ההקלטות נועד לטפל בחלק מזה -
- ילדים, ובארץ שלנו: אתיופים, ערבים, עם כל . . . עם מנעד גדול, חרדים.
- כל הדברים האלו יש קצת יחסית ב-Data-Set-ים רגילים - וזה לא טוב.
- וכשאתה מקליט, זה לכאורה יותר קל להעשיר את ה-Data-Sets בזה.
(אורי) יוצאי ברית-המועצות יש לא מעט . . .
- (יאיר) נכון.
(רן) מעניין אם יש פה מקום, סתם ככה זורק רעיון, מקום לשיתוף פעולה משרד החינוך. נגיד, ילדים שלומדים לקרוא, גם יכולים להקריא - וככה אתה גם יכול להרוויח...
- (יאיר) אני חושב שהקושי שם ספציפית - וזו אחת הבעיות הגדולות עם לעבוד עם ילדים, ואפילו עם מבוגרים לפעמים - זה שאתה לא כל כך רוצה ללכת לנקות את ה-Data אחר כך . . .
- זאת אומרת, אם . . . אני מסוגל לדמיין יחסית בקלות, שאתה נותן לילד להקליט - ואז הוא מספר כמה בדיחות והולך לעשות משהו אחר.
- ואתה, אם אתה לא יודע כלום על האיכות של ה-Data שנכנס, זה קצת בעיה.
- אבל יש לנו כבר ילדים שהתחילו להקליט כל מיני סיפורים.
- יש כאן כל מיני בעיות . . .
- גם ילדים פחות יקליטו תוכן של וויקיפדיה - אתה צריך להביא ספרי ילדים.
- בשביל זה אתה צריך סופרים שיסכימו לתרום לך . . .
- יש לנו אחת שהסכימה, אבל זה לוקח זמן לארגן את הדברים האלה.
(רן) אוקיי.
28:47 עירוב של שפות, גדלים של מודלים וחומרה
(רן) סיפרתי שבעבר עשיתי איזשהו פרויקט של תמלול של תוכן בעברית, ומדי פעם השתרבבה לשם אנגלית, או צרפתית. זאת אומרת, יש לא מעט תכנים שיש להם עירוב של שפות.
האם מודלים יודעים להתמודד עם זה כמו שצריך? האם המודל שלכם אמור להתמודד עם זה?
- (יאיר) זה תלוי במודל.
- פרקטית, Whisper עושה עבודה די טובה שם, והמודל שלנו “אוכל את זה טוב”.
- לא מושלם, אבל ברוב המקרים הוא יודע לטפל בזה יפה.
(רן) שלכם?
- (יאיר) כן.
(רן) אבל איך? כל מה שהוא שמע זה רק עברית, אז איך הוא ידע?
- (יאיר) מבחינת Whisper, בסוף הוא מוציא Token-ים . . .
(רן) לא, שלכם. המודל שאותו אתם אימנתם.
- (יאיר) אנחנו וריאנט (Variant) של Whisper.
- לקחנו את Whisper ועשינו לו עוד Fine-tunning . . .
- זאת אומרת, בסוף היום, Whisper יודע להוציא Token-ים של כל השפות.
- אם אתה מראה לו ב-Data של האימון משפטים מעורבים - זה יעשה את העבודה.
- (יאיר) Whisper זה 1.5 מיליארד פרמטרים.
(רן) לא נורא . . .
- (יאיר) נכון, לא נורא.
- לצערנו, הוא לא רץ עדיין - הוא לא רץ על מחשב בלי GPU בצורה סבירה.
- מה שאומר שאם אין לך Mac אז נדפקת. אבל...
(רן) אם אין לך Mac, אז יתחממו לך הברכיים . . .
- (יאיר) אבל הגרסה הבאה שלו, שזה Whisper-Turbo
- שאנחנו עוד קצת נאבקים בלאמן אותה, אבל לשמחתי היום, בוא נגיד, בכל השנה הראשונה כמעט, כל דבר שרצינו לעשות אמר להוציא כסף מהכיס.
- רוצים לאמן מודל? 200 דולר. אלה החיים.
- ואם אתה לא יודע לאמן - אז כמה Cycel-ים כאלו של זה . . .
(אורי) 200 דולר הלכו על קירור . . .
- (יאיר) לשמחתי, אין לנו חומרה בבית, אבל עכשיו, נגיד היום ...
- (יאיר) נכון. נגיד היום, התקשר מישהו ואמר לנו “אני אשמח לתת לכם את הכסף, בואו תאמנו לנו מודל חדש”
- אבל לדוגמא, יש מודל עכשיו נפלא - בתקווה - שהוא איזשהו Variant של Whisper, זה Whisper-Turbo
- עובד הרבה יותר מהר, הוא מודל קטן בערך פי 2
- 700-750 מיליון פרמטרים, אני חושב.
- ואותו כבר אתה יכול להריץ על המחשב שלך, בקצב סביר.
- (רן) ב-CPU . . .
- (יאיר) כן. אז ברגע שנצליח לאמן אותו, אני מקווה ש...
(רן) כן, רק לפרופורציות - מודלי-שפה קטנים הם בדרך כלל 7 מיליארד, ופה אנחנו מדברים על 1.5 מיליארד, או 750 מיליון, שזה שבריר. ומודלי-השפה “האמיתיים”, הלא-קטנים, הם הרבה יותר גדולים - באיזור ה-40, 70 או 140 מיליארד.
- (יאיר) 400 . . .
(רן) 400, כן. אז סדר גודל הרבה יותר קטן - שזה נחמד.
ואתה אומר שה-Fine-Tunning הזה שאתם עושים עולה סדר-גודל של כמה מאות דולרים. כמה זמן לוקח, נגיד להריץ “מאפס”, על כל ה-Data שיש לכם?
- (יאיר) כן, אז בגדול זה לינארי בכמות של ה-Data.
- אני חושב שבפעם הקודמת, אימנו עם 180 שעות, משהו כזה.
- אך זה תלוי בחומרה, כי באמת, אתה יכול לעשות זה יותר מקבילי.
- אני חושב שזה לקח משהו כמו יומיים . . . יומיים - אבל של חומרה קצת יותר יקרה.
- זאת אומרת, אני חושב שלקחתי ארבעה GPU-ים, בו-זמנית, כדי...
(רן) כן, אוקיי.
(אורי) אגב, לערבית יש?
- (יאיר) Whisper יודע לעשות ערבית, אני חושב שלא מדהים.
- ואם היינו יודעים להשיג Data כזה, אנחנו גם מאוד רוצים. אם היינו יודעים להשיג יותר Data, היינו עושים את זה כנראה.
- בערבית, עד כמה שאני מצליח להבין - יניר הוא הבן אדם להסביר את זה בצד של השפה - אבל לערבית יש המון המון ניבים.
- וזה משהו שמשפיע.
- בעברית זה לא המצב.
- כאילו בערבית, כל מדינה כמעט שתלך - זה ישמע קצת שונה.
- (יאיר) הבעיה שאתה בצד השני - אתה רוצה לתמלל את זה, אתה רוצה שהם ידברו ותבין.
- אבל אולי אפשר להכין ממנו מנוע של Text-to-Speech באמת . . .
(אורי) כן, אבל אתה יודע - אפשר ליתר אותו . . . .
32:45 הפרדת דוברים
(רן) מה לגבי הפרדת-דוברים? איך עושים את זה? כלומר, יש כמה אנשים שמדברים - נגיד שיחה, אחד מדבר על השני, או...
(אורי) נגיד שאתה מקליד, מתייג פודקאסט . . .
(רן) חס וחלילה, כלומר, אנשים עולים אחד על השני . . .
(אורי) כן . . .
(רן) . . . . ומפריעים אחד על השני . . . .
[בשם צוות המתמללים וההנהלה, באמת המון תודה על זה]
- (יאיר) יש מספר דרכים, שזה נכנס מבחינתנו לאזורים של “אנחנו קצת מסתכלים עליהם, היינו רוצים להיכנס”
- אבל כולנו, כאילו, “חנוקים” מאינסוף דברים אחרים, כי הכל לוקח זמן.
- התחלנו להסתכל על זה קצת עכשיו.
- בגדול, יש חבילות שעושות את זה ברמות שונות של איכות.
- יש חבילה אחת שנקראת pyannote - די טובה.
- יש ל-nVIDIA משהו שנקרא NeMo - חבילה עם המון המון כלים.
- ויש להם Speaker Diarization בפנים, באיכות מסוימת.
(רן) לא צריך לדעת השפה? זאת אומרת, פשוט מסתכלים על מסיבת-קוקטייל ומפרידים את הדוברים?
- (יאיר) אז בהרבה מקרים, הם יודעים להסתדר יחסית בלי השפה.
- מה שיפה זה שלהרבה מהדברים האלו, אפשר לעשות Fine-Tuning.
- עכשיו נניח, שיש אנשים שיש להם פודקאסט קבוע [נניח].
- ונניח הם מקליטים עם Setup של מיקרופונים נפרדים [נניח]
- ואפשר לקבל גישה ל-Data הנפרד . . .
- אז א' - את התמלול מראש נכון לבצע על כל ערוץ בנפרד, ולחסוך את הדיון הזה.
- ואז אין בכלל עניין של הפרדת-דוברים - הדוברים מופרדים מראש.
(רן) כן, אבל זה באימון. אני מדבר על בזמן ה-Inference, אם יש לך מספר דוברים . . . .
- (יאיר) לא, אבל מה שאני אומר זה - בוא ניקח לדוגמה שיחת Zoom, כן?
- עשינו, אתה ואני - שיחת Zoom - והקלטנו אותה.
- אתה יכול לבקש מ-Zoom שייתן לך את ה-Data בערוצים נפרדים.
- (רן) נכון . . .
- (יאיר) . . . ואז אין שאלה - אתה תריץ Inference על כל אחד בנפרד, ותקבל את זה מתויג כמו שצריך.
- הרי כשאתה, לא יודע - חמש שנים אחורה, כשאתה עושה שיחה כזו ב-Zoom, ואתה רואה סימן של “זה הבן-אדם שמדבר”?
- זה נגזר מזה שהוא יודע מאיזה ערוץ זה מגיע.
- בגלל זה, אם יש חדר שכולם יושבים בו - אתה לא יודע מי זה.
- אז זה דבר אחד.
- אבל יש כלים שעושים דיאריזציה (Diarization) ברמה סבירה - זה פשוט לא מושלם, אנחנו לא שם.
(רן) כן. אבל יש חשיבות לשפה בעניין הזה, או שזה לגמרי אגנוסטי, וזה, כאילו, “ברמת הסיגנל”?
(אורי) נראה לי שזו בעיה שפתורה באנגלית - פתורה גם פה.
- (יאיר) אני חושב שהיא לא פתורה באנגלית . . . . אבל יש פתרונות סבירים.
- אני חושב שזה לא מושלם.
- אני חושב שה-Speech-To-Text עובד יותר טוב - והרבה פעמים זה בגלל שהוא מניח, חלקית, שזה דובר אחד . . .
(רן) כן.
35:11 הוראות שימוש ואיך אפשר לעזור
(רן) אוקיי, אנחנו כבר ממש לקראת הסיום. וזהו, רק רציתי, ככה, לחדד כמה נקודות.
- (יאיר) אם אתה רוצה להריץ לבד, אז או להיכנס ל-ivrit.ai או להיכנס ל-Hugging Face שלנו, ויש שם הוראות איך להריץ.
- יש לנו GitHub, שיש בו את 100% מהקוד שלנו, משוחרר בצורה חופשית כמובן.
- אם אתה רק רוצה לתמלל משהו קטן, אז עד שיגמרו לנו או הקרדיטים ב-AWS או הכסף ממקורות אחרים, יש לנו אתר ב-Home Page שלנו
- שאתה נכנס, יכול להעלות קובץ של עד שעתיים או משהו כזה.
- ואנחנו מריצים ומחזירים לך את זה פשוט מתומלל.
(רן) ואם אני רוצה לעזור לפרויקט - מה אני עושה? יכול להיות מפתח, יכול להיות קריין, יכול להיות אולי דברים אחרים שצריך? . . .
(אורי) מוציא את מספר כרטיס האשראי . . . .
- (יאיר) אז באמת - תמיכה במשאבי-מחשוב זה סופר-עוזר לנו.
- יש לנו Patreon, שאפשר לתמוך בו ב-ב-5 דולר לחודש, שזה מספיק לנו לכל מיני דברים חשובים, עדיין.
- לתמלל זה דבר נפלא. כן?
- זו עבודה - כמו הרבה מהדברים האחרים - יחסית כפוית-טובה, שמאוד עוזרת.
- והיום ספציפית - להקליט.
- כלומר, אם אתה מסוגל להגיע, ופשוט להקליט תוכן מוויקיפדיה, או להביא אנשים אחרים שיעשו את זה גם איתך, אז זו דרך בשבילנו לייצר המון תוכן.
(רן) כן, צריך איזה Mic? מה הדרישה שלכם?
- (יאיר) כל מיקרופון שיש לך . . .
- אם יש לך מחשב עם מיקרופון, או סמארטפון - זה יעבוד.
(אורי) אם יש מישהו עם משאבי-מחשוב פנויים?
- (יאיר) נשמח מאוד לקבל . . . כאילו, לקבל גישה.
(אורי) כמובן שצריך לעמוד באיזה-שהם, כאילו . . .
- (יאיר) GPU שיש לו 80Gb זיכרון עושה את העבודה.
- זה לא משהו בלתי אפשרי, זה לא סופר-סופר יקר,
- אבל אנחנו Obviously לא קונים אחד כזה הביתה . . . .
37:15 עד כאן
בהצלחה. להתראות.
- (יאיר) מה תודה? רגע, אין מתנות? אמרנו שיש מתנות . . . .
(רן) אה, זה בסוף הקלטה, אחרי שעוצרים.
(אורי) איזה GPU אמרת שאתה צריך . . .
האזנה נעימה ותודה רבה לעופר פורר על התמלול!
155 episódios
Todos os episódios
×Bem vindo ao Player FM!
O Player FM procura na web por podcasts de alta qualidade para você curtir agora mesmo. É o melhor app de podcast e funciona no Android, iPhone e web. Inscreva-se para sincronizar as assinaturas entre os dispositivos.