pic
一、合租国外主机现状 众所周知,国外主机空间一般都很大,流量等限制少,域名绑定不限,故很多人想合租国外主机,或者将自己买的主机拿出去卖。 朋友合租。这类一般是几个朋友合伙买一个国外空间,每个人分一个FTP,由大家共同管理,共同约定。缺点是管理不健全,很容易对其他人网站造成影响,故只建议熟识的朋友几个人一起用,相互之间有足够的信任。 Share Hosting合租。这类是我很反对的,因为Share Hosting的CPU,内存和I/O等资源限额...
pic
刚不久发表的一篇  [揭秘美国主机代购、美国主机评测等类似网站的赚钱方式]的文章,闲逛Ubuntu中文论坛,发现Ubuntu中文论坛也搞起了美国主机代购。详情点击。 Ubuntu中文论坛也是使用burstnet的vps主机,正因为这样,它才有说服力,用户完全可以通过ubuntu论坛得知此vps的性能。但Hector感觉此vps的速度不咋地。。而ubuntu的名气也足以使大家相信此vps不是骗人的。而且此vps相当便宜,最常用的一个vps信息如下: VPS #1 (Virtual Private Server) - vePortal - CPU: 1GH...
pic
一、写在前面 现在网上有大量的美国主机导购网站,美国主机评测网站,上面有各个美国主机提供商的中文翻译信息,选购指南,优惠码信息,各种使用技巧等等。他们确实让广大想到国外买主机的用户得到了大量的信息,甚至还愿意帮用户买相应的美国主机。其目的何在?其利润何在?今天Hector就来分析分析他们的盈利方式。 二、美国主机的Resellers Plan(经销商计划) 计划每个美国主机网站都有自己的一套经销商计划,其方式可能不同,都是...
pic
首先申明,此文章没有任何价值,就是想看看我能不能制造一个网络流行语啥的(当然现在在百度,google上搜不到类似的信息下面有图为证)。这句话可以组成很多经典的句子,我先来两个,如果你有兴趣的可以在下面跟几条经典的。1、在这天朝的年代,竟有google这个二愣子的存在。2、在这如此文明的年代,竟有叫兽如此猥琐的存在。3、在这如此纯洁的年代,竟有XX门和XX门的存在。4、在这如此低调的年代,竟有凤姐的存在。5、在这乙肝遭歧视的年...
pic
一、GFW的名称 GFW 并非官方的正式名称 墙 防火长城 长城防火墙 中国国家防火墙 国家公共网络监控系统 功夫网(Gong Fu Wang) 二、GFW简介 GFW是架设在中国主干级网路路由器上的一套高级资讯过滤系统,主要用途是对境内外网路的访问分析和过滤,阻止用户浏览政府不希望用户看到的网页内容、电邮等资讯。据一项哈佛大学的一项研究,有超过18000个网站在中国境内被 GFW 屏蔽。 GFW的全写为「Great FireWall」,得名于Charles R. Smith所写的一篇...

18

Lucene3.0学习笔记1(建立索引)
Posted on : 18-03-2010 | By : Hector | In : 垂直搜索
0

我们首先在d:\lucene\s下放置了几个txt文件作为索引的源。创建d:\lucene\index作为索引文件的存放地址。当然还需要引入lucene3.0的包。具体步骤简介如下:

1、创建Directory对象(参数是存放索引的File类型,根据File的存放地点选择创建类)

2、创建indexWriter对象,参数(Directory对象,分词器,是否创建,分词的最大值)

3、获取源文件的File数组
4、通过循环将每个文件写入索引。
{
创建Document对象,并创建Field对象(列名称(文件名、内容等)),将Field加入到Dcument中,通过IndexWriter.addDocument(Document)写入索引中。
}

5、关闭indexWriter。

源码:

[CODE=java]
package com.hector.firstlucene;
/**********************
*
* @author Hector
* 建立索引 lucene3.0
*/

import java.io.File;
import java.io.FileReader;
import java.io.IOException;
import java.util.Date;

import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.DateTools;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.SimpleFSDirectory;
import org.apache.lucene.util.Version;

public class TextFileIndexer {

/**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException {
//保存索引文件的地方
String indexDir = “d:\\lucene\\index”;
//将要搜索TXT文件的地方
String dateDir = “d:\\lucene\\s”;
IndexWriter indexWriter = null;
//创建Directory对象 ,FSDirectory代表待索引的文件存在磁盘上
Directory dir = new SimpleFSDirectory(new File(indexDir));
//创建IndexWriter对象,第一个参数是Directory,第二个是分词器,第三个表示是否是创建,如果为false为在此基础上面修改,第四表示表示分词的最大值,比如说new MaxFieldLength(2),就表示两个字一分,一般用IndexWriter.MaxFieldLength.LIMITED
indexWriter = new IndexWriter(dir,new StandardAnalyzer(Version.LUCENE_30),true,IndexWriter.MaxFieldLength.UNLIMITED);
File[] files = new File(dateDir).listFiles();
for (int i = 0; i < files.length; i++) {
Document doc = new Document();
//创建Field对象,并放入doc对象中
doc.add(new Field(“contents”, new FileReader(files[i])));
doc.add(new Field(“filename”, files[i].getName(),
Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field(“indexDate”,DateTools.dateToString(new Date(), DateTools.Resolution.DAY),Field.Store.YES,Field.Index.NOT_ANALYZED));
//写入IndexWriter
indexWriter.addDocument(doc);
}
//查看IndexWriter里面有多少个索引
System.out.println(“numDocs”+indexWriter.numDocs());
indexWriter.close();

}

}

[/CODE]

代码中Lucene相关名词:[Lucene相关名词解释]

Tags:
这篇日志发表于10年03月18日。 你可以订阅该日志的所有评论通过 RSS 2.0。 你可以发表评论,或者引用通告

Leave a Reply

您可以选择您的最新博文在留言区域显示

最新评论

标签云

© 2010 - IT元素 | Theme AppChain | |