星河之洲

mongodb用户和权限管理

Posted on November 18, 2015 by wencan

mongodb官方文档已经对用户和权限管理有详细的描述，本文尝试以另一角度来对其做出说明。
由于没在集群上做过测试，集群部分就不写了。

启用用户验证：
mongod添加–auth启动参数
（或）配置文件中配置 security.authorization: enabled

角色：
一个用户可以有多个角色
read：读
readWrite：读写
userAdmin：用户管理
dbAdmin：数据库管理
dbOwner：读写、用户管理、数据库管理

认证源：
每个数据库都可以做为认证源。不同认证源创建的用户可以同名。用户内部的名称为： “$认证源.$用户名”。
认证源内的用户可以拥有针对对其它数据库的角色。
mongo shell中，以当前使用的数据库作为认证源。
通过连接字符串连接时，可能需要通过查询参数指定认证源。

admin数据库：
当前示例的所有用户都保存在admin数据库的system.users集合内。
admin的用户可拥有四个对实例内所有数据库都有效的特殊权限：
readAnyDatabase
readWriteAnyDatabase
userAdminAnyDatabase
userAdminAnyDatabase

超级用户：
一个拥有admin的用户管理角色的用户即为超级用户。超级用户可以为自身或其它用户赋予任何角色。

本地例外：
如果实例开启了用户验证，却还没创建管理角色用户，可以通过本地例外机制创建一个。
通过localhost连接到实例，不过验证，在admin数据库中，创建一个管理角色用户。这个新创建的用户，应当是一个超级用户。
一种更理想的方式：关闭用户认证重启实例，想干吗干吗……

参考：
Enable Client Access Control
Users
Built-In Roles
User Management Methods

Posted in Uncategorised, Uncategorized | Tagged MongoDB | Leave a comment

OpenWrt升级记

Posted on September 16, 2015 by wencan

不为啰嗦，也不是炫耀，就是把经验记下，留给后来遇到此类问题的人看。

路由器是网件WNDR4300，之前是OpenWrt14.07。原生的系统不敢用，虽然NSA不可能对自己感兴趣。
升级过程偷了懒，直接在LuCi刷上升级包，并保留原配置——当然先备份原先的配置。升级后看起来一切正常，除了状态页面的固件版本信息改了，跟没升级一个样——内存还是10m+。

第二天晚上，也就今晚，室友遇到麻烦了，VPN连上不，报619错误。Google之后，确定为PPTP NAT穿透的问题，按官方WIKI，需要安装kmod-nf-nathelper-extra这个包。于是先opkg update再opkg install kmod-nf-nathelper-extra。

于是第二个问题来了，原本平常的opkg update操作，却因党和政府的亲切关怀，而变得无比快！再Google之，发现ustc居然有OpenWrt的镜像。果断将OpenWrt的opkg配置改为使用utsc的源，再update && install。

http://wiki.openwrt.org/doc/howto/vpn.nat.pptp
http://mirrors.ustc.edu.cn/openwrt/

Posted in Uncategorized | Tagged OpenWrt | 1 Comment

迁移到linode东京机房

Posted on August 10, 2015 by wencan

一开始就是新加坡机房，连接不稳定，延迟大。几次提交ticket，希望迁移到东京机房，都被客服以东京机房已满为由回绝。中间还迁过一次美国fremont机房，但似乎比新加坡机房更糟。于是我每隔一段时间，都提交一次ticket，内容不变，回复也不变。

今天，试着添加一个东京机房的节点，居然成功了。再提交ticket，回复居然依然是sorry。看了回复，以为东京机房空闲资源被人抢占了，于是再添加东京机房节点，还是成功。可以断定，要么就是客服按着习惯瞎回复，要么就是linode故意给东京机房保留资源——也许是留给新用户？

Google了一下，发现了自助迁移机房的办法，大喜。
步骤如下：
一、创建新节点
二、停掉旧节点
三、进入旧节点（管理页面），克隆资料到新节点。克隆过程跟联系客服迁移机房后，手动重启节点的过程一样。这个慢啊……
四、删除旧节点
因为linode是按小时记费的，还不用担心费用的问题。

网上说，日本机房很多ip都被封了。等到新节点起来，检测下，果然中奖了。
换ip可无法自助，只好提交ticket。

换了ip，一切ok。虽然延迟没法跟国内服务器比，但与新加坡、美国机房比明显强多了。

Posted in Uncategorized | Tagged Linode, VPS | Leave a comment

利用docker部署Hadoop单节点环境

Posted on August 1, 2015 by wencan

之前早就编译好了几个hadoop镜像，含2.4.1、2.6.0、2.7.0三个版本。但一直未能成功地部署好docker hadoop环境。这个周末终于能静下心来，做成这件小事。
网络上所流传的docker hadoop部署方式，大都是一个容器一个节点（即master或slave）。我这里采用的是一个容器一个服务的方式。
必须要强调，这只是第一步。多节点部署方式还待研究。

先从镜像服务器拉取我制作的hadoop镜像。我所编译的hadoop镜像的hadoop原生库为64位，jdk为openjdk-7-jdk，Dockerfile见这里。这次我使用的版本是2.6.0。
docker pull wencan/hadoop:2.6.0

创建本地配置文件目录，和数据目录
mkdir conf
mkdir data
拷贝hadoop etc/hadoop目录下的全部配置文件到conf目录下，配置几个关键项。如果本地没有hadoop包，可以创建一个hadoop容器，利用docker cp从容器拷贝出默认的配置文件。
主要配置可见这里。另外还需要需要的配置的为namenode的数据目录，和datanode的数据目录，这个可以参考这里。

格式化namenode数据目录
这里必须使用默认的桥接网络，否则会出错
docker run –rm -it -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop -v $PWD/data:/data wencan/hadoop:2.6.0 hdfs namenode -format

运行namenode，使用宿主网络，后面相同
docker run -d –name hadoop_namenode -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop -v $PWD/data:/data –net host wencan/hadoop:2.6.0 hdfs namenode

运行datanode
docker run -d –name hadoop_data -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop -v $PWD/data:/data –net host wencan/hadoop:2.6.0 hdfs datanode

可以登陆http://localhost:50070查看，可以看到一个datanode节点。

运行resourcemanager
docker run -d –name hadoop_resourcemanager -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 yarn resourcemanager

运行nodemanager
docker run -d –name hadoop_nodemanager -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 yarn nodemanager

可以登陆http://localhost:8088查看，可以在nodes页面看到一个nodemanager节点

运行historyserver
docker run -d –name hadoop_historyserver -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 mapred historyserver

创建/input/wordcount目录，并将本地配置文件复制过去，作为稍后wordcount的输入文件
docker run –rm -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 /bin/bash -c ‘hdfs dfs -mkdir -p /input/wordcount && hdfs dfs -copyFromLocal /etc/hadoop/* /input/wordcount’

列出刚才复制到hdfs的文件。也可以在50070查看。
docker run –rm -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 hdfs dfs -ls /input/wordcount/

执行wordcount，输入目录为/input/wordcount，输出目录为/output/wordcount
docker run –rm -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 hadoop jar /opt/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.0.jar wordcount /input/wordcount /output/wordcount

输出mapreduce的计算结果
docker run –rm -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop –net host wencan/hadoop:2.6.0 hdfs dfs -cat /output/wordcount/*

参考：
Hadoop MapReduce Next Generation – Setting up a Single Node Cluster.
配置运行hadoop

Posted in Uncategorized | Tagged Docker, Hadoop | Leave a comment

JavaScript版k-means++算法实现

Posted on May 31, 2015 by wencan

按照维基百科的定义，k-means为：把n个点（可以是样本的一次观察或一个实例）划分到k个聚类中，使得每个点都属于离他最近的均值（此即聚类中心）对应的聚类。

k-means的过程为：
1、随机选取k个中心
2、将数据点依据中心归类为k个聚集
3、选择每个聚集的中心，作为新的中心
4、重复2、3步，直到聚集不再发生变化

k-means的缺陷为第一步的随机选择中心。如果数据点为[1, 5, 6, 9, 10]。k-means的结果可能为[[1], [5, 6], [9, 10]]，也可能为[[1, 5, 6], [9], [10]]。从概念上看，这两个结果都是正确的，但后者很明显不是我们想要的。

k-means++改进了第一次选取中心的方法，使得第一次选取的中心之间间距够大。k-means++第一次选取中心的过程为：
1、随机选取一个数据点作为第一个中心
2、计算每个数据点到最近的中心的距离
3、选取上一步最后距离最大的数据点，作为新的中心
4、重复2、3步，直到选取到k个中心

下面是实现，包含了k-means和k-means++。
kmeans函数第三个参数为一个计算数据点权值的函数，用来计算数据点间距离和聚集平均权值。缺点是权值函数会被多次应用于同一数据点上。

exports = module.exports = kmeans;

//随机取k个中心
function randomCentroids(points, k, weightFun) {
    var centroids = new Array(k);
    var weights = new Array(k);
    var idxs = [];
    for (var i = 0; i < k; i++) {
        while (true) {
            var idx = parseInt(Math.random() * points.length);
            //下标不能重复 
            if (idxs.indexOf(idx) !== -1) continue;
            //权值不能相等 
            if (weights.indexOf(weightFun(points[idx])) !== -1) continue;
            break;
        }

        centroids[i] = points[idx];
        weights[i] = weightFun(points[idx]);
        idxs.push(idx);
    }
    return centroids;
}

//k-means++第一次选取中心 
function firstCentroids(points, k, weightFun) {
    var centroids = [];
    var m = k;

    //随机选出第一个中心 
    var first = points[parseInt(Math.random() * points.length)];
    centroids.push(first);
    m--;

    //选取剩下的中心 
    while (m > 0) {
        //每个点到最近中心的距离
        var dists = points.map(function(point) {
            var dists = centroids.map(function(centroid) {
                return Math.abs(weightFun(centroid) - weightFun(point))
            }) return Math.min.apply(null, dists);
        })
        //取上面的距离中最大者
        var max_dist = Math.max.apply(null, dists);
        var max_idx = dists.indexOf(max_dist);

        centroids.push(points[max_idx]);
        m--;
    }

    return centroids;
}

//新的k个中心
//计算每个中心的平均权值，取聚集中权值与平均权值最接近的为中心
function newCentroids(clusters, weightFun) {
    return clusters.map(function(cluster) {
        var sum = cluster.reduce(function(a, b) {
            return a + weightFun(b);
        },
        0) var mean = sum / cluster.length;

        var dists = cluster.map(function(point) {
            return Math.abs(weightFun(point) - mean);
        }) var min_dist = Math.min.apply(null, dists);
        return cluster[dists.indexOf(min_dist)];
    })
}

//聚类，返回k个聚集
function classify(points, centroids, weightFun) {
    var clusters = centroids.map(function() {
        return [];
    });

    for (var i = 0; i < points.length; i++) {
        var min_idx;
        var min_dist = undefined;
        for (var j = 0; j < centroids.length; j++) {
            dist = Math.abs(weightFun(points[i]) - weightFun(centroids[j]));
            if (min_dist === undefined || dist < min_dist) {
                min_dist = dist;
                min_idx = j;
            }
        }

        clusters[min_idx].push(points[i]);
    }

    return clusters;
}

function kmeans(points, k, weightFun) {
    var centroids = firstCentroids(points, k, weightFun);

    while (true) {
        var clusters = classify(points, centroids, weightFun);

        var old = centroids;
        var centroids = newCentroids(clusters, weightFun);

        //当新旧聚集中心相等时，聚类结果不会再发生变化，跳出循环
        for (var i = 0; i < k; i++) {
            if (centroids.indexOf(old[i]) === -1) {
                break;
            }
        }
        if (i === k) break;
    }

    return clusters;
}

if (!module.parent) {
    var points = [1, 5, 6, 9, 10, 34, 67, 12, 34, 67, 12, 344, 56, 23, 68, 23, 11, 333, 65, 23, 45, 23, 12];
    console.log(kmeans(points, 3,
    function(x) {
        return x;
    }))
}

Posted in Uncategorized | Tagged JavaScript | Leave a comment

配置运行hadoop

Posted on April 20, 2015 by wencan

接前面的。hadoop版本依然是2.4.1.

选择一个节点做主节点，运行hdfs的namenode、yarn的resourcemanager，以及jobhistoryserver。主节点的节点名称定为hadoop-master。
剩下的作为从节点，运行hdfs的datanode、yarn的nodemanager。每个从节点的节点名称定位hadoop-slave+编号。
“节点名称”这个词，好像是我发明的……

为每个节点创建hadoop用户。配置主节点的hadoop用户可以免密码登录到各个节点（包含自身）。

su – hadoop //切换到hadoop用户
sudo mkdir /opt/hadoop //创建hadoop主目录
cd /opt/hadoop //切换到hadoop主目录
tar xzvf */hadoop-2.4.1.tar.gz //解压缩hadoop包到当前目录，即hadoop主目录
ln -s hadoop-2.4.1 current //创建current符号链接到当前版本的hadoop目录

echo “export PATH=$PATH:/opt/hadoop/current/bin” | sudo tee /etc/profile.d/hadoop.sh //添加hadoop bin目录到PATH
sudo source /etc/profile //使刚才的修改立即生效

修改每个从节点的/etc/hostname，每个从节点的hostname改为hadoop-slave*。从节点的节点名称，就是主机名。

修改每个节点的/etc/hosts，将集群中所有节点的IP地址到主机名的映射添加到hosts，包含自身。

修改主节点的etc/hadoop/slaves，删除原始的localhost，将所有从节点的主机名添加进去，一行一个。

关闭每个节点的防火墙。~~实际运行环境不建议这么做。但在弄清楚hadoop各个程序监听的端口前，先这么做。~~

每个节点创建数据目录：
sudo mkdir /data //创建/data目录
sudo chmod o+wx /data //修改/data目录为其它目录可写可执行
sudo mkdir -p /data/hadoop //创建hadoop数据目录
sudo chown hadoop:hadoop /data/hadoop //修改hadoop数据目录为hadoop用户所有

每个节点创建日志目录：
sudo mkdir /var/log/hadoop
sudo mkown hadoop:hadoop /var/log/hadoop

修改每个节点的hadoop配置文件。配置文件都位于hadoop主目录的etc/hadoop下。

hadoop-env.sh:
export HADOOP_HOME=/opt/hadoop/current
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_LOG_DIR=/var/log/hadoop //大部分程序的日志目录
export JAVA_HOME=/usr/lib/jvm/default-java

mapred-env.sh:
export HADOOP_MAPRED_LOG_DIR=/var/log/hadoop //jobhistoryserver的日志目录

yarn-env.sh:
export YARN_LOG_DIR=/var/log/hadoop //yarn的日志目录

core-sites.xml:
fs.defaultFS: hdfs://hadoop-master~~:9000~~

hdfs-site.xml:
dfs.replication: 1 //数据副本数目。通常为3
dfs.namenode.name.dir: /data/hadoop/hdfs/name //namenode的数据存放目录（真实的本地目录）
dfs.datanode.data.dir: /data/hadoop/hdfs/data //datanode的数据存放目录（真实的本地目录）

mapred-site.xml:
mapreduce.framework.name: yarn

yarn-site.xml:
yarn.resourcemanager.hostname: hadoop-master
从节点yarn-site.xml:
yarn.nodemanager.aux-services: mapreduce_shuffle
yarn.nodemanager.hostname: hadoop-slave*
yarn.nodemanager.address: hadoop-slave*:19000

在默认配置中，很多主机地址为0.0.0.0，即监听所有地址。但程序也会把这个“0.0.0.0“发送给其它节点，然后其它节点向0.0.0.0发起连接……。所以，指定监听的主机地址为主机名/节点名称。
在默认配置中，部分监听端口为0，即随机取一个。~~但为了方便后面开防火墙端口，~~端口号0都改为指定的一个端口号。上面的19000就是我瞎取的。

主节点/etc/ssh/ssh_config中StrictHostKeyChecking建议设为no，免除每次连接到一个新的节点时，ssh都询问是否确认key fingerprint。

格式化名称空间：
hdfs namenode -format
开始hdfs和yarn:
sbin/start-sll.sh
开始jobhistoryserver:
sbin/mr-jobhistory-daemon.sh start historyserver

不知道有没有遗漏的地方……

Posted in Uncategorized | Tagged Hadoop | Leave a comment

编译Hadoop

Posted on April 9, 2015 by wencan

写在前面的话：有话题就发一帖，证明这个BLOG是活的。

我安装hadoop，是为了支撑spark。spark当前最新稳定版为1.3.0，需要的hadoop版本为2.4.*。2.4.*最新版为2.4.1。
hadoop官网下载页面已经不提供2.4.1的下载链接。但可以在apache的存档站点找到2.4.1：http://archive.apache.org/dist/hadoop/core/
下载来的hadoop的原生库是32位的，而目前主流机器架构却是64位，我们需要自己手动从源码编译hadoop。

hadoop源码说明文件为的BUILDING.txt。根据说明文件，需要like-unix系统，jdk1.6+，maven 3.0+，Findbugs 1.3.9，protobuf 2.5.0，cmake 2.6+，以及网络连接。
根据我的经验，如果不需要构建文档，Findbugs可无。文档最好有，虽然源码包里的文档只是API文档。帮助文档还得是官方包里才有。但我们可以在这里找到2.4.1的帮助文档。
jdk最好采用Oracle版。Redhat系列下载rpm包，yum localinstall即可。debian系可以下载压缩包，然后借助JavaPackage，将压缩包转为deb包（如果是jdk 1.8，可能需要wheezy-backports版的JavaPackage）。无论哪个系列的发行版，都需要更改默认java软链接到Oracle jdk。如果是debian系，可以借助update-alternatives命令完成这件工作，具体的可见JavaPackage的wiki。安装好jdk后，还需配置JAVA_HOME——我是这么想的，但我编译hadoop时，JAVA_HOME是早已配置好的。执行：
echo ‘export JAVA_HOME=……’ > /etc/profile.d/java.sh
source /etc/profile
protobuf必须2.5.0，还不认2.6.*。我机器上的protobuf刚好2.6，只有下载2.5，重新编译覆盖安装。

protobuf的github页面为https://github.com/google/protobuf
编译安装protobuf，需要先安装automake，然后照官方说明，一步步执行即可：
./autogen.sh
./configure
make
make check
sudo make install
安装protobuf2.5.0后，执行protoc –version检测版本，报：protoc: error while loading shared libraries: libprotobuf.so.8。执行下面的即可解决：
sudo ldconfig
再执行protoc –version检测版本，输出2.5.0，再下一步。

根据protobuf上吃过的亏，Findbugs既然要求1.3.9，而不是1.3.9+，还是严格采用1.3.9好。Findbugs无需安装，解压，环境变量中指定FINDBUGS_HOME。因为Findbugs只用一回，就不配置持久全局环境变量了，直接执行FINDBUGS_HOME=Findbugs路径。也可以在稍候的mvn命令前加上FINDBUGS_HOME=Findbugs路径。

按照BUILDING.TXT，执行编译命令：
mvn package -Pdist,native,docs -DskipTests -Dtar
该命令将会编译产生dist文件(怎么翻译?)、原生库、文档，跳过测试，并将最终文件tar打包
这时会陷入长久的等待……

最后maven输出BUILD SUCCESS，表示你成功了；如果不幸输出BUILD FAILED，检查人品吧。
编译成功后，找到源码目录下的hadoop-dist/target/hadoop-2.4.1.tar.gz，我们需要的就是这个压缩文件。

PS:如果只是要64位的原生库，应该只编译原生库部分就可以了。

Posted in Uncategorized | Tagged Hadoop | 3 Comments

使用公钥认证免密码SSH登录的一般步骤和问题排除

Posted on April 2, 2015 by wencan

一般步骤：
1、ssh-keygen，一路回车，不设密码，程序便会在~/home/.ssh下生成id_rsa私钥和id_rsa.pub公钥
2、ssh-copy-id username@remotehost，程序会将步骤一生成的公钥添加到remotehost:/home/username/.ssh/authorized_keys中。~~如果没有remotehost:/home/username/.ssh/目录，应该手动创建~~

问题排除：
检查remotehost的/etc/ssh/sshd_config：
AllowUsers或AllowGroups如果被定义，username应该在指定的用户列表或用户组里
DenyUsers或DenyGroups如果被定义，username应该不在……
AuthorizedKeysFile应该设为.ssh/authorized_keys
RSAAuthentication和PubkeyAuthentication应该设为yes
如果使用root登录，PermitRootLogin应该设为noyes
修改/etc/ssh/sshd_config之后别忘了重启sshd

检查本地的id_rsa.pub的内容确实被添加到remotehost:/home/username/.ssh/authorized_keys

检查remotehost的/etc/hosts
将本地机器的ip和主机名添加进去

修改remotehost:/home/username/.ssh/权限，该目录应该其它用户可读可执行
chmod o+rx -R .ssh
删除用户组读写执行权限
chmod g-rwx -R .ssh

调试：
盯着remotehost的日志文件。不同的发行系列，sshd的日志路径可能不同
remotehost： sudo tail -f /var/log/secure

开启本地ssh的调试日志输出
ssh -v username@remotehost

如果sshd日志输出：“Authentication refused: bad ownership or modes for directory /home/username/.ssh”，表示.ssh目录权限不正确
如果ssh输出：“Agent admitted failure to sign using the key”，再执行ssh-add

好了，祝你成功！

参考：
http://askubuntu.com/questions/30788/does-ssh-key-need-to-be-named-id-rsa

Posted in Uncategorized | Tagged SSH | Leave a comment

免翻墙访问Dropbox、Box等境外网盘

Posted on February 12, 2015 by wencan

秘诀就是使用网盘代理。比如：multcloud。

网盘代理本身不存储文件，只提供一个聚合多个网盘的工具。

multcloud还提供不同网盘间的文件传输（和复制粘贴）功能。我试用了一下，速度绝不比把文件下载下来再上传到另一网盘快。但鉴于那些网盘是不能直接访问的，就忍了。

很令我惊喜的是，multcloud居然自动为我提供中文，我的系统、浏览器都是英文的，不知multcloud是怎么识别出我是中文用户的。IP段识别？

遗憾的是multcloud尚不提供移动客户端，有没有移动网页版就不知道了。

Posted in Uncategorized | Tagged DropBox, GFW | 3 Comments

Show一下赶京东618买的图书

Posted on June 10, 2014 by wencan

可惜，不少图书京东没有货、没有优惠、没来得及下手。
也很惭愧，全是计算机方面的书籍。

如果去年双11买的书也Show下就好了。

Posted in Uncategorized | 2 Comments

mongodb用户和权限管理

OpenWrt升级记

迁移到linode东京机房

利用docker部署Hadoop单节点环境

JavaScript版k-means++算法实现

配置运行hadoop

编译Hadoop

使用公钥认证免密码SSH登录的一般步骤和问题排除

免翻墙访问Dropbox、Box等境外网盘

Show一下赶京东618买的图书

Recent Posts

Recent Comments

Boinc

Archives

Categories