Author Archives: wencan

mongodb用户和权限管理

mongodb官方文档已经对用户和权限管理有详细的描述,本文尝试以另一角度来对其做出说明。 由于没在集群上做过测试,集群部分就不写了。 启用用户验证: mongod添加–auth启动参数 (或) 配置文件中配置 security.authorization: enabled 角色: 一个用户可以有多个角色 read: 读 readWrite: 读写 userAdmin: 用户管理 dbAdmin: 数据库管理 dbOwner: 读写、用户管理、数据库管理 认证源: 每个数据库都可以做为认证源。不同认证源创建的用户可以同名。用户内部的名称为: “$认证源.$用户名”。 认证源内的用户可以拥有针对对其它数据库的角色。 mongo shell中,以当前使用的数据库作为认证源。 通过连接字符串连接时,可能需要通过查询参数指定认证源。 admin数据库: 当前示例的所有用户都保存在admin数据库的system.users集合内。 admin的用户可拥有四个对实例内所有数据库都有效的特殊权限: readAnyDatabase readWriteAnyDatabase userAdminAnyDatabase userAdminAnyDatabase 超级用户: 一个拥有admin的用户管理角色的用户即为超级用户。超级用户可以为自身或其它用户赋予任何角色。 本地例外: 如果实例开启了用户验证,却还没创建管理角色用户,可以通过本地例外机制创建一个。 通过localhost连接到实例,不过验证,在admin数据库中,创建一个管理角色用户。这个新创建的用户,应当是一个超级用户。 一种更理想的方式:关闭用户认证重启实例,想干吗干吗…… … Continue reading

Posted in Uncategorised, Uncategorized | Tagged | Leave a comment

OpenWrt升级记

不为啰嗦,也不是炫耀,就是把经验记下,留给后来遇到此类问题的人看。 路由器是网件WNDR4300,之前是OpenWrt14.07。原生的系统不敢用,虽然NSA不可能对自己感兴趣。 升级过程偷了懒,直接在LuCi刷上升级包,并保留原配置——当然先备份原先的配置。升级后看起来一切正常,除了状态页面的固件版本信息改了,跟没升级一个样——内存还是10m+。 第二天晚上,也就今晚,室友遇到麻烦了,VPN连上不,报619错误。Google之后,确定为PPTP NAT穿透的问题,按官方WIKI,需要安装kmod-nf-nathelper-extra这个包。于是先opkg update再opkg install kmod-nf-nathelper-extra。 于是第二个问题来了,原本平常的opkg update操作,却因党和政府的亲切关怀,而变得无比快!再Google之,发现ustc居然有OpenWrt的镜像。果断将OpenWrt的opkg配置改为使用utsc的源,再update && install。 http://wiki.openwrt.org/doc/howto/vpn.nat.pptp http://mirrors.ustc.edu.cn/openwrt/

Posted in Uncategorized | Tagged | 1 Comment

迁移到linode东京机房

一开始就是新加坡机房,连接不稳定,延迟大。几次提交ticket,希望迁移到东京机房,都被客服以东京机房已满为由回绝。中间还迁过一次美国fremont机房,但似乎比新加坡机房更糟。于是我每隔一段时间,都提交一次ticket,内容不变,回复也不变。 今天,试着添加一个东京机房的节点,居然成功了。再提交ticket,回复居然依然是sorry。看了回复,以为东京机房空闲资源被人抢占了,于是再添加东京机房节点,还是成功。可以断定,要么就是客服按着习惯瞎回复,要么就是linode故意给东京机房保留资源——也许是留给新用户? Google了一下,发现了自助迁移机房的办法,大喜。 步骤如下: 一、创建新节点 二、停掉旧节点 三、进入旧节点(管理页面),克隆资料到新节点。克隆过程跟联系客服迁移机房后,手动重启节点的过程一样。这个慢啊…… 四、删除旧节点 因为linode是按小时记费的,还不用担心费用的问题。 网上说,日本机房很多ip都被封了。等到新节点起来,检测下,果然中奖了。 换ip可无法自助,只好提交ticket。 换了ip,一切ok。虽然延迟没法跟国内服务器比,但与新加坡、美国机房比明显强多了。

Posted in Uncategorized | Tagged , | Leave a comment

利用docker部署Hadoop单节点环境

之前早就编译好了几个hadoop镜像,含2.4.1、2.6.0、2.7.0三个版本。但一直未能成功地部署好docker hadoop环境。这个周末终于能静下心来,做成这件小事。 网络上所流传的docker hadoop部署方式,大都是一个容器一个节点(即master或slave)。我这里采用的是一个容器一个服务的方式。 必须要强调,这只是第一步。多节点部署方式还待研究。 先从镜像服务器拉取我制作的hadoop镜像。我所编译的hadoop镜像的hadoop原生库为64位,jdk为openjdk-7-jdk,Dockerfile见这里。这次我使用的版本是2.6.0。 docker pull wencan/hadoop:2.6.0 创建本地配置文件目录,和数据目录 mkdir conf mkdir data 拷贝hadoop etc/hadoop目录下的全部配置文件到conf目录下,配置几个关键项。如果本地没有hadoop包,可以创建一个hadoop容器,利用docker cp从容器拷贝出默认的配置文件。 主要配置可见这里。另外还需要需要的配置的为namenode的数据目录,和datanode的数据目录,这个可以参考这里。 格式化namenode数据目录 这里必须使用默认的桥接网络,否则会出错 docker run –rm -it -e HADOOP_CONF_DIR=/etc/hadoop -v $PWD/conf/:/etc/hadoop -v $PWD/data:/data wencan/hadoop:2.6.0 hdfs namenode -format 运行namenode,使用宿主网络,后面相同 docker run -d –name hadoop_namenode … Continue reading

Posted in Uncategorized | Tagged , | Leave a comment

JavaScript版k-means++算法实现

按照维基百科的定义,k-means为:把n个点(可以是样本的一次观察或一个实例)划分到k个聚类中,使得每个点都属于离他最近的均值(此即聚类中心)对应的聚类。 k-means的过程为: 1、随机选取k个中心 2、将数据点依据中心归类为k个聚集 3、选择每个聚集的中心,作为新的中心 4、重复2、3步,直到聚集不再发生变化 k-means的缺陷为第一步的随机选择中心。如果数据点为[1, 5, 6, 9, 10]。k-means的结果可能为[[1], [5, 6], [9, 10]],也可能为[[1, 5, 6], [9], [10]]。从概念上看,这两个结果都是正确的,但后者很明显不是我们想要的。 k-means++改进了第一次选取中心的方法,使得第一次选取的中心之间间距够大。k-means++第一次选取中心的过程为: 1、随机选取一个数据点作为第一个中心 2、计算每个数据点到最近的中心的距离 3、选取上一步最后距离最大的数据点,作为新的中心 4、重复2、3步,直到选取到k个中心 下面是实现,包含了k-means和k-means++。 kmeans函数第三个参数为一个计算数据点权值的函数,用来计算数据点间距离和聚集平均权值。缺点是权值函数会被多次应用于同一数据点上。 exports = module.exports = kmeans; //随机取k个中心 function randomCentroids(points, k, weightFun) { var centroids = … Continue reading

Posted in Uncategorized | Tagged | Leave a comment

配置运行hadoop

接前面的。hadoop版本依然是2.4.1. 选择一个节点做主节点,运行hdfs的namenode、yarn的resourcemanager,以及jobhistoryserver。主节点的节点名称定为hadoop-master。 剩下的作为从节点,运行hdfs的datanode、yarn的nodemanager。每个从节点的节点名称定位hadoop-slave+编号。 “节点名称”这个词,好像是我发明的…… 为每个节点创建hadoop用户。配置主节点的hadoop用户可以免密码登录到各个节点(包含自身)。 su – hadoop //切换到hadoop用户 sudo mkdir /opt/hadoop //创建hadoop主目录 cd /opt/hadoop //切换到hadoop主目录 tar xzvf */hadoop-2.4.1.tar.gz //解压缩hadoop包到当前目录,即hadoop主目录 ln -s hadoop-2.4.1 current //创建current符号链接到当前版本的hadoop目录 echo “export PATH=$PATH:/opt/hadoop/current/bin” | sudo tee /etc/profile.d/hadoop.sh //添加hadoop bin目录到PATH sudo source /etc/profile //使刚才的修改立即生效 修改每个从节点的/etc/hostname,每个从节点的hostname改为hadoop-slave*。从节点的节点名称,就是主机名。 修改每个节点的/etc/hosts,将集群中所有节点的IP地址到主机名的映射添加到hosts,包含自身。 … Continue reading

Posted in Uncategorized | Tagged | Leave a comment

编译Hadoop

写在前面的话:有话题就发一帖,证明这个BLOG是活的。 我安装hadoop,是为了支撑spark。spark当前最新稳定版为1.3.0,需要的hadoop版本为2.4.*。2.4.*最新版为2.4.1。 hadoop官网下载页面已经不提供2.4.1的下载链接。但可以在apache的存档站点找到2.4.1:http://archive.apache.org/dist/hadoop/core/ 下载来的hadoop的原生库是32位的,而目前主流机器架构却是64位,我们需要自己手动从源码编译hadoop。 hadoop源码说明文件为的BUILDING.txt。根据说明文件,需要like-unix系统,jdk1.6+,maven 3.0+,Findbugs 1.3.9,protobuf 2.5.0,cmake 2.6+,以及网络连接。 根据我的经验,如果不需要构建文档,Findbugs可无。文档最好有,虽然源码包里的文档只是API文档。帮助文档还得是官方包里才有。但我们可以在这里找到2.4.1的帮助文档。 jdk最好采用Oracle版。Redhat系列下载rpm包,yum localinstall即可。debian系可以下载压缩包,然后借助JavaPackage,将压缩包转为deb包(如果是jdk 1.8,可能需要wheezy-backports版的JavaPackage)。无论哪个系列的发行版,都需要更改默认java软链接到Oracle jdk。如果是debian系,可以借助update-alternatives命令完成这件工作,具体的可见JavaPackage的wiki。安装好jdk后,还需配置JAVA_HOME——我是这么想的,但我编译hadoop时,JAVA_HOME是早已配置好的。执行: echo ‘export JAVA_HOME=……’ > /etc/profile.d/java.sh source /etc/profile protobuf必须2.5.0,还不认2.6.*。我机器上的protobuf刚好2.6,只有下载2.5,重新编译覆盖安装。 protobuf的github页面为https://github.com/google/protobuf 编译安装protobuf,需要先安装automake,然后照官方说明,一步步执行即可: ./autogen.sh ./configure make make check sudo make install 安装protobuf2.5.0后,执行protoc –version检测版本,报:protoc: error while loading shared libraries: libprotobuf.so.8。执行下面的即可解决: … Continue reading

Posted in Uncategorized | Tagged | 3 Comments

使用公钥认证免密码SSH登录的一般步骤和问题排除

一般步骤: 1、ssh-keygen,一路回车,不设密码,程序便会在~/home/.ssh下生成id_rsa私钥和id_rsa.pub公钥 2、ssh-copy-id username@remotehost,程序会将步骤一生成的公钥添加到remotehost:/home/username/.ssh/authorized_keys中。如果没有remotehost:/home/username/.ssh/目录,应该手动创建 问题排除: 检查remotehost的/etc/ssh/sshd_config: AllowUsers或AllowGroups如果被定义,username应该在指定的用户列表或用户组里 DenyUsers或DenyGroups如果被定义,username应该不在…… AuthorizedKeysFile应该设为.ssh/authorized_keys RSAAuthentication和PubkeyAuthentication应该设为yes 如果使用root登录,PermitRootLogin应该设为noyes 修改/etc/ssh/sshd_config之后别忘了重启sshd 检查本地的id_rsa.pub的内容确实被添加到remotehost:/home/username/.ssh/authorized_keys 检查remotehost的/etc/hosts 将本地机器的ip和主机名添加进去 修改remotehost:/home/username/.ssh/权限,该目录应该其它用户可读可执行 chmod o+rx -R .ssh 删除用户组读写执行权限 chmod g-rwx -R .ssh 调试: 盯着remotehost的日志文件。不同的发行系列,sshd的日志路径可能不同 remotehost: sudo tail -f /var/log/secure 开启本地ssh的调试日志输出 ssh -v username@remotehost 如果sshd日志输出:“Authentication refused: bad ownership … Continue reading

Posted in Uncategorized | Tagged | Leave a comment

免翻墙访问Dropbox、Box等境外网盘

秘诀就是使用网盘代理。比如:multcloud。 网盘代理本身不存储文件,只提供一个聚合多个网盘的工具。 multcloud还提供不同网盘间的文件传输(和复制粘贴)功能。我试用了一下,速度绝不比把文件下载下来再上传到另一网盘快。但鉴于那些网盘是不能直接访问的,就忍了。 很令我惊喜的是,multcloud居然自动为我提供中文,我的系统、浏览器都是英文的,不知multcloud是怎么识别出我是中文用户的。IP段识别? 遗憾的是multcloud尚不提供移动客户端,有没有移动网页版就不知道了。

Posted in Uncategorized | Tagged , | 3 Comments

Show一下赶京东618买的图书

可惜,不少图书京东没有货、没有优惠、没来得及下手。 也很惭愧,全是计算机方面的书籍。 如果去年双11买的书也Show下就好了。

Posted in Uncategorized | 2 Comments