יצירה של אשכול Hive metastore והגנה עליו

סקירה כללית

כשיוצרים אשכול Dataproc, האפליקציה Apache Hive והרכיבים שלה, כולל Hive metastore, מותקנים באשכול, וסיסמת ברירת מחדל מוגדרת בקובץ hive-site.xml שנמצא בצומת הראשי של האשכול.

מומלץ לציין סיסמה משלכם למאגר המטא-נתונים של Hive כדי להשיג את המטרות הבאות:

  • כאמצעי אבטחה מומלץ, כדי לוודא שיש לכם שליטה בגישה למאגר המטא-נתונים המקומי של Hive, אתם צריכים לספק סיסמה משלכם

  • כדי לציין סיסמה מוכרת ששולטת בגישה למאגרי מטא-נתונים חיצוניים של Hive שמשמשים עם מסדי נתונים חיצוניים שמשותפים בין אשכולות שונים

הגדרת הסיסמה של Hive metastore

מריצים את הפקודה הבאה Google Cloud CLI Dataproc clusters create כדי ליצור אשכול Dataproc ולציין סיסמה למאגר המטא-נתונים של Hive.

gcloud dataproc clusters create cluster-name
 --properties="hive:javax.jdo.option.ConnectionPassword=HIVE_METASTORE_PASSWORD"

הערות:

  • כדי ליצור מפתח ב-Cloud Key Management Service, אפשר לעיין במאמר בנושא יצירת מפתח.
  • הסיסמה של Hive metastore מאוחסנת רק בצמתים הראשיים של האשכול, ולא בצמתי העובדים.

מידע נוסף על אבטחת אשכולות Dataproc זמין במאמר שיטות מומלצות לאבטחה ב-Dataproc.

תרחישים שלא נתמכים

‫Dataproc לא תומך בתרחישים הבאים של Hive metastore, בלי קשר לסיסמה שמשמשת אתכם ל-Hive metastore (ברירת המחדל או סיסמה שסיפקתם):

  • אתם משתמשים בלקוח מוטמע של metastore במנהל ההתקנים של Spark שפועל במצב אשכול, כך שצמתי העובדים דורשים סיסמאות של Hive. התרחיש הזה עלול לגרום לבעיות בקישוריות למסד הנתונים של חנות המטא-נתונים, כי החיבור לא מתבצע דרך תהליך HiveMetaStore שפועל בצומת הראשי של Dataproc.

  • משביתים את Hive metastore ואת hive-server2 כדי להשתמש במסד נתונים משלכם מסוג MySQL. בתרחיש הזה, למאפיין spark.hadoop.javax.jdo.option.ConnectionURL=jdbc:mysql://CLUSTER_NAME-m/metastore אין השפעה.