உபுண்டு/டெபியனில் அப்பாச்சி தீப்பொறியை எவ்வாறு நிறுவுவது மற்றும் அமைப்பது


அப்பாச்சி ஸ்பார்க் என்பது ஒரு திறந்த மூல விநியோகிக்கப்பட்ட கணக்கீட்டு கட்டமைப்பாகும், இது வேகமான கணக்கீட்டு முடிவுகளை வழங்க உருவாக்கப்பட்டது. இது நினைவகத்தில் உள்ள கணக்கீட்டு இயந்திரமாகும், அதாவது தரவு நினைவகத்தில் செயலாக்கப்படும்.

ஸ்ட்ரீமிங், வரைபட செயலாக்கம், SQL, MLLib க்கான பல்வேறு API களை ஸ்பார்க் ஆதரிக்கிறது. இது ஜாவா, பைதான், ஸ்கலா மற்றும் ஆர் ஆகியவற்றை விருப்ப மொழிகளாக ஆதரிக்கிறது. தீப்பொறி பெரும்பாலும் ஹடூப் கிளஸ்டர்களில் நிறுவப்பட்டுள்ளது, ஆனால் நீங்கள் தீப்பொறியை முழுமையான பயன்முறையில் நிறுவி உள்ளமைக்கலாம்.

இந்த கட்டுரையில், டெபியன் மற்றும் உபுண்டு அடிப்படையிலான விநியோகங்களில் அப்பாச்சி ஸ்பார்க்கை எவ்வாறு நிறுவுவது என்பதைப் பார்ப்போம்.

உபுண்டுவில் ஜாவா மற்றும் ஸ்கலாவை நிறுவவும்

உபுண்டுவில் அப்பாச்சி தீப்பொறியை நிறுவ, உங்கள் கணினியில் ஜாவா மற்றும் ஸ்கலா நிறுவப்பட்டிருக்க வேண்டும். பெரும்பாலான நவீன விநியோகங்கள் இயல்பாக நிறுவப்பட்ட ஜாவாவுடன் வந்துள்ளன, மேலும் பின்வரும் கட்டளையைப் பயன்படுத்தி அதை நீங்கள் சரிபார்க்கலாம்.

$ java -version

வெளியீடு இல்லை என்றால், உபுண்டுவில் ஜாவாவை எவ்வாறு நிறுவுவது என்பது பற்றிய எங்கள் கட்டுரையைப் பயன்படுத்தி ஜாவாவை நிறுவலாம் அல்லது உபுண்டு மற்றும் டெபியன் அடிப்படையிலான விநியோகங்களில் ஜாவாவை நிறுவ பின்வரும் கட்டளைகளை இயக்கவும்.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

அடுத்து, ஸ்கேலாவைத் தேடி அதை நிறுவ பின்வரும் கட்டளைகளை இயக்குவதன் மூலம் நீங்கள் apt களஞ்சியத்திலிருந்து Scala ஐ நிறுவலாம்.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

ஸ்கலா நிறுவலை சரிபார்க்க, பின்வரும் கட்டளையை இயக்கவும்.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

உபுண்டுவில் அப்பாச்சி தீப்பொறியை நிறுவவும்

இப்போது கோப்பை நேரடியாக முனையத்தில் பதிவிறக்க அதிகாரப்பூர்வ wget கட்டளைக்குச் செல்லவும்.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

இப்போது உங்கள் முனையத்தைத் திறந்து, பதிவிறக்கம் செய்யப்பட்ட கோப்பு வைக்கப்பட்டுள்ள இடத்திற்கு மாறி, அப்பாச்சி ஸ்பார்க் தார் கோப்பைப் பிரித்தெடுக்க பின்வரும் கட்டளையை இயக்கவும்.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

இறுதியாக, பிரித்தெடுக்கப்பட்ட தீப்பொறி கோப்பகத்தை/opt கோப்பகத்திற்கு நகர்த்தவும்.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

தீப்பொறிக்கான சுற்றுச்சூழல் மாறுபாடுகளை உள்ளமைக்கவும்

இப்போது நீங்கள் தீப்பொறியைத் தொடங்குவதற்கு முன் உங்கள் .profile கோப்பில் சில சுற்றுச்சூழல் மாறிகள் அமைக்க வேண்டும்.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

இந்த புதிய சூழல் மாறிகள் ஷெல்லுக்குள் அடையக்கூடியவை மற்றும் அப்பாச்சி ஸ்பார்க்கு கிடைக்கின்றன என்பதை உறுதிப்படுத்த, சமீபத்திய மாற்றங்களை நடைமுறைக்கு எடுக்க பின்வரும் கட்டளையை இயக்குவதும் கட்டாயமாகும்.

$ source ~/.profile

சேவைகளைத் தொடங்கவும் நிறுத்தவும் தீப்பொறி தொடர்பான அனைத்து பைனரிகளும் sbin கோப்புறையின் கீழ் உள்ளன.

$ ls -l /opt/spark

உபுண்டுவில் அப்பாச்சி தீப்பொறியைத் தொடங்குங்கள்

ஸ்பார்க் மாஸ்டர் சேவை மற்றும் அடிமை சேவையைத் தொடங்க பின்வரும் கட்டளையை இயக்கவும்.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

சேவை தொடங்கியதும் உலாவிக்குச் சென்று பின்வரும் URL அணுகல் தீப்பொறி பக்கத்தைத் தட்டச்சு செய்க. பக்கத்திலிருந்து, எனது எஜமானர் மற்றும் அடிமை சேவை தொடங்கப்படுவதை நீங்கள் காணலாம்.

http://localhost:8080/
OR
http://127.0.0.1:8080

ஸ்பார்க்-ஷெல் கட்டளையைத் தொடங்குவதன் மூலம் ஸ்பார்க்-ஷெல் நன்றாக வேலை செய்கிறதா என்பதையும் நீங்கள் சரிபார்க்கலாம்.

$ spark-shell

இந்த கட்டுரைக்கு அதுதான். மற்றொரு சுவாரஸ்யமான கட்டுரையை மிக விரைவில் பெறுவோம்.