ubuntu14.04机器学习搭建——python、R、spark

来源:转载

主要记录了最近工作要用到的一些测试环境的搭建,记下来以后随时随地都可以搭建这样一个环境。没什么太多技术含量,主要是为了方便,大神请绕道。

一.操作系统安装

1.下载操作系统镜像(博主实在虚拟机中安装的,毕竟只是测试用),虚拟机安装镜像 ht tp://pan.baidu.com/s/1gdCXrGZ

2. 修改软件源,博主用的是aliyun的,亲测可用

3.禁止guest登录(博主轻微强迫症)

首先安装vim :sudo apt-get install vim-gnome

sudo vim /usr/share/lightdm/lightdm.conf.d/50-unity-greeter.conf

添加allow-guest=false

4.sudo无密码登录

sudo chmod 770 /etc/sudoers

sudo vim /etc/sudoers

修改为

root ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL

# Members of the admin group may gain root privileges%admin ALL=(ALL) NOPASSWD: NOPASSWD: ALL

# Allow members of group sudo to execute any command%sudo ALL=(ALL:ALL) NOPASSWD: NOPASSWD: ALL

sudo chmod 0440 /etc/sudoers

5.增加源(为了安装最新版本的R语言)

sudo vim /etc/apt/sources.list 添加以下信息:

deb http://mirror.bjtu.edu.cn/cran/bin/linux/ubuntutrusty/

deb http://mirror.neu.edu.cn/ubuntu/trusty-backports main restricted universe

二.python机器学习环境

1.python系统默认是2.7,博主就用的默认版本。

2.机器学习常见包的安装(numpy,scipy,pandas,matplotlib,sklearn)

sudo apt-get install python-pip

sudo apt-get install python-dev

修改pip的源(默认源下载太慢)

sudo vim ~/.pip/pip.conf (说明:随便安装一个错误的包,~/.pip就会自动生成) 添加

[global]index-url = http://pypi.v2ex.com/simple/

这里我们有两种方式安装python包:(1) apt-get直接安装 (2) pip install 安装 (推荐第一种方式安装,pip安装会出现某些包找不到资源)

sudo apt-get install python-numpy

sudo apt-get install python-scipy

sudo apt-get install python-matplotlib

sudo apt-get install python-sklearn

sudo pip install pandas

或者

sudo apt-get build-dep python-numpy(安装相关编译环境,可选)sudo apt-get build-dep python-scipy

sudo pip install numpysudo pip install scipy(会有两个包找不到资源,推荐第一种方式安装)

sudo pip install numpysudo pip install pandas

另外博主也安装了scrapy等常用库

3.开发工具

由于博主不需要开发大型的工程,所以多数时候都不会用到集成环境。当然,由于沿用java的习惯,博主同样在eclipse安装了python插件,计划以后用来写python爬虫等等,这里不再详述

博主日常写代码用的是ipython notebook环境

sudo apt-get install ipython

sudo pip install notebook

输入 ipython notebook 就进入了代码界面

网上也有提到需要安装 sudo apt-get install libzmq-dev ,博主没安装照样跑的飞起。不过能装就装了吧

三.R环境

1.先来个全面升级吧

sudo apt-get update

可能会遇到错误:

Reading package lists... DoneW: GPG error: http://mirror.bjtu.edu.cn trusty/ Release: The following signatures couldn't be verified because the public key is not available: NO_PUBKEY 51716619E084DAB9

输入:

sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 51716619E084DAB9

sudo apt-get upgrade 可能要花一段时间

2.安装R语言

sudo apt-get install r-base

3.R语言开发工具RStudio

http://pan.baidu.com/s/1jG93zwE

sudo apt-get install gdebi-core

sudo gdebi rstudio-0.99.484-amd64.deb

4.R包换国内的源

输入: rstudio

tools-->global option-->package 换成国内的源

四.spark环境

1.java安装

直接安装open-jdk(没什么好说的)

安装oraclejdk:

原来系统有的可以先删除

sudo apt-get autoremove **

sudo add-apt-repository ppa:webupd8team/java

sudo apt-get update

sudo apt-get upgrade

sudo apt-get install oracle-java7-installer

sudo apt-get install oracle-java7-set-default

2.源码编译环境

http://pan.baidu.com/s/1jG3xLNS 直接解压安装

http://pan.baidu.com/s/1c0iBqTU 未编译的源码包

MAVEN和scala以及sbt,在源码包的build目录下都有,添加环境变量就行了。

maven编译官方有文档,照着写就OK了

3.hadoop的编译环境

在做balancer优化的时候对源代码进行了一些更改,尝试了首次编译(以前都是直接解压安装的)。

在这里稍微提一下,编译需要java, c++,各种lib、devel(autoconf, automake, libtool, ncurses-devel, openssl-devel, gcc,g++, lzo-devel, zlib-devel), ant, maven, protobuf(容易忽略), cmake

五.eclipse集成python,scala

sudo apt-get install eclipse-platform 应该是3.8.1版本的

http://www.pydev.org/updates/ python插件在线安装地址

http://download.scala-ide.org/sdk/helium/e38/scala210/stable/site scala2.10插件在线安装

新开博客,以后会不定时更新机器学习与数据挖掘相关的算法实现以及spark MLlib相关的算法与应用。

分享给朋友:
您可能感兴趣的文章:
随机阅读: