
la configuration de connexion pour Spark et Zeppelin prend désormais en charge les proxy HTTP
JetBrains publie une mise à jour pour Big Data Tools, la version EAP 6. Rappelons que, comme son nom l'indique, c'est un outil dédié au traitement de données massives. Il s'agit plus précisément d'une nouvelle extension IntelliJ IDEA intégrant Spark et permettant de prendre en charge l’édition et l’exécution des notebooks Zeppelin.
Zeppelin est un projet maintenu par la fondation Apache sous licence open source visant à fournir une interface web (ou notebook) permettant d'analyser et visualiser de gros volumes de données traités via le framework de calcul distribué Spark. Apache Zeppelin est un notebook assez répandu parmi les data scientists même si Jupyter (qui peut être utilisé pour programmer dans plus de 40 langages de programmation, dont Python, Julia, Ruby, R, ou encore Scala) reste de loin le numéro un. Rappelons d'ailleurs que Jupyter est disponible dans PyCharm, l'EDI de JetBrains pour le développement web et la data science avec Python.
La mise à jour actuelle apporte des corrections de bogues et des améliorations de stabilité. Aussi, JetBrains a ajouté une toute nouvelle fonctionnalité qui fait partie de leur feuille de route depuis un certain temps : il s'agit de l'intégration avec Google Cloud Storage. L'utilisation de l'intégration de Google Cloud Storage est similaire à l'utilisation d'AWS S3. Une fois que vous avez configuré une configuration de compartiment Google Cloud Storage dans Big Data Tools Connections, vous la verrez, ainsi que son contenu, dans la fenêtre d'outils Big Data Tools.
Dans la page de configuration, vous devez spécifier le chemin d'accès à votre fichier JSON d'informations d'identification, choisir un compartiment et éventuellement un préfixe si vous souhaitez travailler avec un sous-dossier spécifique. Une fois le compartiment configuré, vous verrez les fichiers et les dossiers de manière hiérarchique dans la fenêtre de l'outil Big Data Tools :
Le menu contextuel fournit les mêmes actions que celles qui fonctionnent pour AWS S3. Vous pouvez copier, déplacer et renommer vos fichiers et dossiers, les télécharger sur votre disque local et les ouvrir pour un aperçu. Dans le cas d'un aperçu, l'EDI télécharge uniquement une partie du fichier. Cela peut être très pratique si vous souhaitez prévisualiser un fichier volumineux, par exemple un parquet ou un fichier CSV.
JetBrains a apporté certaines améliorations au support Parquet. Tout d'abord, l'équipe a corrigé certains cas marginaux dans lesquels cela ne fonctionnait pas. Ensuite, elle a retravaillé l'apparence de l'en-tête pour afficher correctement les en-têtes de la colonne et permettre à l'utilisateur de trier les lignes selon l'une des colonnes. Enfin, elle a ajouté des actions qui vous permettent de copier les valeurs, colonnes ou lignes sélectionnées, ou de vider le document entier dans le presse-papiers ou un fichier .CSV.
La configuration de connexion pour Spark et Zeppelin prend désormais en charge les proxy HTTP. Il est maintenant possible de configurer un proxy pour n'importe laquelle des connexions dans les paramètres de connexion de Big Data Tools.
En ce qui concerne la sécurité, le plugin vous permet désormais d'utiliser et de configurer l'authentification Kerberos pour vous connecter à votre serveur Spark.

Source : JetBrains
Et vous ?


Voir aussi




Vous avez lu gratuitement 1 articles depuis plus d'un an.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.
Soutenez le club developpez.com en souscrivant un abonnement pour que nous puissions continuer à vous proposer des publications.