סקירה כללית
כשיוצרים אשכול Dataproc, האפליקציה Apache Hive והרכיבים שלה, כולל Hive metastore, מותקנים באשכול, וסיסמת ברירת מחדל מוגדרת בקובץ hive-site.xml שנמצא בצומת הראשי של האשכול.
מומלץ לציין סיסמה משלכם למאגר המטא-נתונים של Hive כדי להשיג את המטרות הבאות:
כאמצעי אבטחה מומלץ, כדי לוודא שיש לכם שליטה בגישה למאגר המטא-נתונים המקומי של Hive, אתם צריכים לספק סיסמה משלכם
כדי לציין סיסמה מוכרת ששולטת בגישה למאגרי מטא-נתונים חיצוניים של Hive שמשמשים עם מסדי נתונים חיצוניים שמשותפים בין אשכולות שונים
הגדרת הסיסמה של Hive metastore
מריצים את הפקודה הבאה Google Cloud CLI Dataproc clusters create כדי ליצור אשכול Dataproc ולציין סיסמה למאגר המטא-נתונים של Hive.
gcloud dataproc clusters create cluster-name --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"
הערות:
- כדי ליצור מפתח ב-Cloud Key Management Service, אפשר לעיין במאמר בנושא יצירת מפתח.
- הסיסמה של Hive metastore מאוחסנת רק בצמתים הראשיים של האשכול, ולא בצמתי העובדים.
מידע נוסף על אבטחת אשכולות Dataproc זמין במאמר שיטות מומלצות לאבטחה ב-Dataproc.
תרחישים שלא נתמכים
Dataproc לא תומך בתרחישים הבאים של Hive metastore, בלי קשר לסיסמה שמשמשת אתכם ל-Hive metastore (ברירת המחדל או סיסמה שסיפקתם):
אתם משתמשים בלקוח מוטמע של metastore במנהל ההתקנים של Spark שפועל במצב אשכול, כך שצמתי העובדים דורשים סיסמאות של Hive. התרחיש הזה עלול לגרום לבעיות בקישוריות למסד הנתונים של חנות המטא-נתונים, כי החיבור לא מתבצע דרך תהליך
HiveMetaStoreשפועל בצומת הראשי של Dataproc.משביתים את Hive metastore ואת
hive-server2כדי להשתמש במסד נתונים משלכם מסוג MySQL. בתרחיש הזה, למאפייןspark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastoreאין השפעה.