Description 几乎所有操作系统的命令行界面(CLI)中都支持文件名的通配符匹配以方便用户。最常见的通配符有两个,一个是星号(“”’),可以匹配0个及以上的任意字符:另一个是问号(“?”),可以匹配恰好一个任意字符。 现在需要你编写一个程序,对于给定的文件名列表和一个包含通配符的字符串,判断哪些文件可以被匹配。
Input 第一行是一个由小写字母和上述通配符组成的字符串。 第二行包含一个整数n,表示文件个数。 接下来n行,每行为一个仅包含小写字母字符串,表示文件名列表。
Output 输出n行,每行为“YES”或“NO”,表示对应文件能否被通配符匹配。
Sample Input *aca?ctc 6 acaacatctc acatctc aacacatctc aggggcaacacctc aggggcaacatctc aggggcaacctct
Sample Output YES YES YES YES YES NO
HINT 对于1 00%的数据 字符串长度不超过100000 1 <=n<=100 通配符个数不超过10
本题有弱化版[AHOI2005]VIRUS 病毒检测,题解
关于这题有很多解法,例如KMP,Hash啥的……但是既然这题有AC自动机的标签,那么我们肯定要用AC自动机去解决对吧?
然后冥思苦想没有结果……滚去看题解,然后发现这题AC自动机的做法甚是巧妙
首先将模板串按'*'分段,每一段建立一个AC自动机,每个AC自动机里面的串按照'?'分成多个串建成一棵trie树
然后呢?我们考虑一下某个AC自动机的字符'abcd?abc?cd?abcd'
然后绿色的是终止节点(多个终止就开个vector),然后我们把其他串拿进来匹配后,每碰到一个绿色点,我们就让$C[pos-End[p][i]]$加1,其中pos是当前匹配位置(匹配串),p是AC自动机中位置,End[p]就是vector,这样处理完后,我们再次扫一遍匹配,看一下哪个位置的$C[i]$与段数相等,那么它就可以作为这段模板串的匹配起点
注意匹配的时候匹配串是不需要切成一段段再进去匹配的,你可以每次都整串匹配,但是需要开一个变量记录上一次匹配到的最靠前的位置,然后判断一下即可
最前面和最后面需要根据'*'的有无进行特判
匹配串在一个个AC自动机中不一定要匹配连续的一段,因为存在'*'这种高级玩意
/*program from Wolfycz*/
#include<cmath>
#include<cstdio>
#include<vector>
#include<cstring>
#include<iostream>
#include<algorithm>
#define inf 0x7f7f7f7f
#define for_vec(it,x) for (vector<int>::iterator it=x.begin();it!=x.end();it++)
using namespace std;
typedef long long ll;
typedef unsigned int ui;
typedef unsigned long long ull;
inline char gc(){
static char buf[1000000],*p1=buf,*p2=buf;
return p1==p2&&(p2=(p1=buf)+fread(buf,1,1000000,stdin),p1==p2)?EOF:*p1++;
}
inline int frd(){
int x=0,f=1;char ch=gc();
for (;ch<'0'||ch>'9';ch=gc()) if (ch=='-') f=-1;
for (;ch>='0'&&ch<='9';ch=gc()) x=(x<<1)+(x<<3)+ch-'0';
return x*f;
}
inline int read(){
int x=0,f=1;char ch=getchar();
for (;ch<'0'||ch>'9';ch=getchar()) if (ch=='-') f=-1;
for (;ch>='0'&&ch<='9';ch=getchar()) x=(x<<1)+(x<<3)+ch-'0';
return x*f;
}
inline void print(int x){
if (x<0) putchar('-'),x=-x;
if (x>9) print(x/10);
putchar(x%10+'0');
}
const int N=1e5;
int pos[N+10],pos_cnt,lenS;
bool BGN,END;
struct S1{
int trie[N+10][26],fail[N+10];
int tot,root,num,L;
vector<int>End[N+10];
void insert(char *s,int l,int r){
static char T[N+10];
for (int i=l;i<r;i++) T[i-l]=s[i];
int len=r-l,p=root; T[len++]='?';
for (int i=0;i<len;i++){
while (T[i]=='?'&&i<len){
if (i&&T[i-1]!='?') End[p].push_back(i-1),num++;
p=root,i++;
}
if (i>=len) break;
if (!trie[p][T[i]-'a']) trie[p][T[i]-'a']=++tot;
p=trie[p][T[i]-'a'];
}L=--len;
}
void make_fail(){
static int h[N+10];
int head=1,tail=0;
for (int i=0;i<26;i++) if (trie[root][i]) h[++tail]=trie[root][i];
for (;head<=tail;head++){
int Now=h[head];
for_vec(it,End[fail[Now]]) End[Now].push_back(*it);
for (int i=0;i<26;i++){
if (trie[Now][i]){
int son=trie[Now][i];
fail[son]=trie[fail[Now]][i];
h[++tail]=son;
}else trie[Now][i]=trie[fail[Now]][i];
}
}
}
bool check(char *s,bool Fir,bool Lst){
static int cnt[N+10];
memset(cnt,0,sizeof(cnt));
int len=strlen(s),p=root;
for (int i=0;i<len;i++){
p=trie[p][s[i]-'a'];
for_vec(it,End[p]) if (i>=*it) cnt[i-*it]++;
}
for (int i=0;i<len;i++){
if (cnt[i]!=num) continue;
if (!pos_cnt){
if (!BGN&&Fir&&i) break;
if (!END&&Lst&&len-i!=L) break;
pos[++pos_cnt]=i+L;
return 1;
}else{
if (i<pos[pos_cnt]) continue;
if (!END&&Lst&&len-i!=L) break;
pos[++pos_cnt]=i+L;
return 1;
}
}
return 0;
}
}AC[10];//Aho-Corasick automaton
char s[N+10];
int main(){
scanf("%s",s);
int len=strlen(s),tot=0; lenS=len;
BGN=s[0]=='*',END=s[len-1]=='*',s[len++]='*';
for (int i=0,Last=0;i<len;i++){
if (s[i]=='*'){
if (i>Last) AC[tot++].insert(s,Last,i);
Last=i+1;
}
}
for (int i=0;i<tot;i++) AC[i].make_fail();
for (int Q=read();Q;Q--){
if (!len){
printf("NO\n");
continue;
}
if (!tot){
printf("YES\n");
continue;
}
memset(s,0,sizeof(s));
memset(pos,0,sizeof(pos)); pos_cnt=0;
scanf("%s",s);
bool flag=1;
for (int i=0;i<tot;i++){
if (!AC[i].check(s,i==0,i==tot-1)){
flag=0;
break;
}
}
printf(flag?"YES\n":"NO\n");
}
return 0;
}
来源:oschina
链接:https://my.oschina.net/u/4386639/blog/3623562